揭秘谷歌DeepMind新方法Gecko，揭示AI图像生成器真实水平

谷歌DeepMind最新研究揭示了当前对AI图像生成器性能评估的隐藏局限性，引入全新方法Gecko，为测试提供严格新标准。研究团队在题为“用Gecko审视文本到图像评估:对度量、提示和人类评分”的论文中警告称，现有评估方法并不能全面反映实际情况。他们指出，目前主要用于评估DALL-E、Midjourney和Stable Diffusion等模型的能力数据集和自动度量并不能全面反映实际情况。

为了揭示这些问题，研究人员开发了Gecko基准套件，通过2000个文本提示对模型进行全面考核，探究各种技能和复杂程度。Gecko基准将这些提示分成具体的子技能，超越模糊的类，以准确找出限制模型的确切弱点。此外，研究人员还收集了对数个领先模型生成的图像进行的超过10万份人类评分，揭示模型性能差距的真正原因。

Gecko基准还采用了一个基于问的增强自动评估指标，与人类判断更为相关。当用于比较新基准下的最先进模型时，这一组合揭示了先前未被发现的模型优势和劣势。研究人员希望通过这项工作，能够证明使用多样的基准和评估方法来真正了解文本到图像AI在实际部署前的能力。他们计划免费公开Gecko代码和数据，推动进一步的进展。

因此，尽管那些看似令人印象深刻的作品可能乍一看令人印象深刻，但我们仍然需要严格的测试来区分真伪。Gecko为我们展示了如何做到这一点。

谷歌DeepMind新方法Gecko 为测试AI图像生成器引入严格新标准