OpenAI 的米拉
  • 53
Ana Paula Pereira
2024年03月17日

OpenAI 的米拉穆拉提Mira Murati说不清楚 Sora的训练数据从何而来

在接受《华尔街日报》采访时,当被问及 OpenAI Sora 模型的基础数据源时,米拉穆拉提Mira Murati的回答含糊不清。

新闻

OpenAI 公司的首席技术官米拉穆拉提Mira Murati并不清楚该公司即将推出的视频生成人工智能模型 Sora 的数据来源。

3 月 13 日,在接受《华尔街日报》采访时,当被问及该公司 Sora 模型的数据来源时,穆拉提的回答含糊不清。

穆拉提回答说:我们使用了公开数据和授权数据。这家估值 800 亿美元的公司是如何训练其即将推出的模型的。

《期刊》的乔安娜斯特恩Joanna Stern接着问,Sora 是否使用了来自 YouTube、Instagram 或 Facebook 等社交媒体平台的数据进行训练。穆拉提回答说:我不太清楚:

你知道,如果这些数据是公开的可以公开使用。但我不确定。我对此没有信心。

在转到另一个话题之前,斯特恩提到了 OpenAI 与图片库公司 Shutterstock 的合作关系,询问其数据是否可以用来训练 Sora。我不想详细介绍使用的数据。但这些数据都是公开的或获得许可的数据,穆拉提补充道。后来,她向本刊证实,Sora 使用了 Shutterstock 的数据。

人工智能模型是通过大量数据集即训练数据集进行训练的,这些数据集有助于模型学习识别模式、进行预测或理解语言。

OpenAI 的米拉OpenAI 首席技术官米拉穆拉提在接受《华尔街日报》采访时。来源:《华尔街日报》

穆拉蒂从 2018 年开始在 OpenAI 工作,领导着公司一些最受欢迎的项目,包括图像生成器模型 DALLE 3、语音识别工具 Whisper 和公司最新版本的聊天机器人 GPT4。2023 年 11 月,在 OpenAI 董事会赶走山姆奥特曼Sam Altman后,她短暂接任临时首席执行官。

OpenAI 曾多次成为涉及其人工智能模型训练数据的法律诉讼的目标。2023 年 7 月,作家莎拉西尔弗曼Sarah Silverman、理查德卡德雷Richard Kadrey和克里斯托弗戈登Christopher Golden对该公司提起诉讼,指控 ChatGPT 根据受版权保护的内容生成作者作品的摘要。

12 月,《纽约时报》在一份类似的版权侵权诉状中起诉了微软和 OpenAI,称这两家公司利用该报的内容训练人工智能聊天机器人。另一起集体诉讼在加利福尼亚州提起,指控 OpenAI 在未经用户同意的情况下,从互联网上获取用户私人信息来训练 ChatGPT。

eth钱包官网
#企业 #科技 #AI #Data #OpenAI
添加表情符号