OpenAI采集超百万小时YouTube视频训练GPT-4,引发争议

科技 2024-04-07 09:39 阅读:25

近日,《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面遇到的困难。其中,OpenAI被曝光使用Whisper音频转录模型转录了超过一百万小时的YouTube视频来训练GPT-4,这一举动备受关注。

据报道,OpenAI在2021年耗尽了有用的数据供应后,开始讨论转录YouTube视频、播客和有声读物的可行性。除了YouTube视频外,OpenAI还使用了来自Github的计算机代码、国际象棋走棋数据库和来自Quizlet的作业内容等多种数据来源。

OpenAI公司对于使用这些数据的合法性存在争议。一方面,OpenAI总裁Greg Brockman亲自参与了视频的收集,另一方面,公司发言人Lindsay Held表示,他们为每个模型策划了独特的数据集,以帮助模型了解世界并保持全球研究竞争力。

谷歌发言人Matt Bryant对于OpenAI的行为表示关注,称他们看到了有关OpenAI活动的未经证实的报告。同时,YouTube首席执行官Neal Mohan也警告称,OpenAI的行为可能违反了YouTube现行的平台服务条款。

除了OpenAI,Meta也遇到了数据可用性的限制。据报道,Meta的AI团队为了追赶OpenAI,讨论了未经许可使用版权作品的情况。他们考虑采取一些措施,例如支付图书许可费用或直接收购一家大型出版商。

AI公司在处理训练数据方面面临着挑战,如何合理、合法地获取数据成为了一个亟待解决的问题。OpenAI采集超百万小时YouTube视频训练GPT-4的做法引发了广泛关注和争议,希望相关公司能够妥善处理这一问题,确保数据使用的合法性和透明度。