小洞不补,大洞吃苦:GoodDrag拖动编辑新方法及数据集发布

科技 2024-04-22 14:03 阅读:25

拖动式图像编辑是一种新型的、用户交互式的图像编辑方法,通过设置起始点与目标点,用户可以将图像的内容拖动至指定位置,得到合理的图像结果。然而,现有的拖动编辑方法存在一些问题,如受限于GAN模型生成能力或无法得到稳定高质量的结果。

最近,西安交通大学和麦克马斯特大学的研究人员提出了一种全新的GoodDrag方法,包含了Alternating Drag and Denoising(AlDD)框架和information-preserving motion supervision,有效提高了基于diffusion模型的拖动编辑的图像质量。AlDD框架交替进行拖动编辑和diffusion去噪,有效抵抗拖动所带来的累积扰动,从而得到高质量的图像。

此外,研究人员还建立了新的数据集Drag100,包含不同类型的拖动编辑任务,如移动、旋转、缩放、内容消除和内容生成。通过新的指标对拖动编辑结果的准确性和图像质量进行评估,发现GScore表现出高度的正相关,远优于其他图像质量评估指标。

实验结果显示,GoodDrag的拖动编辑效果在拖动精确度和图像质量上都超过了现有方法。AlDD框架和Information-Preserving Motion Supervision的有效性也得到了验证。GoodDrag的开源提供了多种简易运行方式,支持用户使用自己的图片进行尝试。

通过GoodDrag的研究,我们深入探索了基于diffusion模型对拖动编辑的影响因素,设计了新的方法和数据集,为拖动编辑领域的发展提供了新的思路和工具。更多详情请访问:https://gooddrag.github.io/。