OpenAI采集超百万小时YouTube视频训练GPT-4，引发争议

近日，《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面遇到的困难。其中，OpenAI被曝光使用Whisper音频转录模型转录了超过一百万小时的YouTube视频来训练GPT-4，这一举动备受关注。

据报道，OpenAI在2021年耗尽了有用的数据供应后，开始讨论转录YouTube视频、播客和有声读物的可行性。除了YouTube视频外，OpenAI还使用了来自Github的计算机代码、国际象棋走棋数据库和来自Quizlet的作业内容等多种数据来源。

OpenAI公司对于使用这些数据的合法性存在争议。一方面，OpenAI总裁Greg Brockman亲自参与了视频的收集，另一方面，公司发言人Lindsay Held表示，他们为每个模型策划了独特的数据集，以帮助模型了解世界并保持全球研究竞争力。

谷歌发言人Matt Bryant对于OpenAI的行为表示关注，称他们看到了有关OpenAI活动的未经证实的报告。同时，YouTube首席执行官Neal Mohan也警告称，OpenAI的行为可能违反了YouTube现行的平台服务条款。

除了OpenAI，Meta也遇到了数据可用性的限制。据报道，Meta的AI团队为了追赶OpenAI，讨论了未经许可使用版权作品的情况。他们考虑采取一些措施，例如支付图书许可费用或直接收购一家大型出版商。

AI公司在处理训练数据方面面临着挑战，如何合理、合法地获取数据成为了一个亟待解决的问题。OpenAI采集超百万小时YouTube视频训练GPT-4的做法引发了广泛关注和争议，希望相关公司能够妥善处理这一问题，确保数据使用的合法性和透明度。