发布日期:2024-08-31 03:28 点击次数:168 |
涉17万个视频!英伟达等巨头被曝违法使用YouTube数据磨真金不怕火模子
澎湃新闻记者 胡含嫣
科技巨头被曝使用未经授权的YouTube执行磨真金不怕火AI(东说念主工智能)模子。
app当地时候7月16日,据外媒报说念,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在磨真金不怕火AI模子时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上持取的多数视频字幕文本,违抗了YouTube辞谢从平台上未经许可持取执行的规章。
报说念指出,这些科技公司在磨真金不怕火AI模子时齐使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上逾越4.8万个频说念中的17.35万个视频。该数据集由视频字幕的纯文本构成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,频频来附带日语、德语和阿拉伯语等谈话的翻译。
非渔利性组织EleutherAI是争议数据集的创作家,公司尚未对此事作出复兴。根据官网先容,EleutherAI的策划是“裁减AI拓荒的门槛,通过磨真金不怕火和发布模子,让全国战争到顶端的AI技艺”。此前,EleutherAI发布了名为“Pile”的数据汇编,其中的大部分数据集齐是对公众绽放的,包括YouTube Subtitles。
0路号码分析:上期走势一般,出现6个:03、12、30、48、51、66,最近10期0路号码出现68个,开出个数与理论相当,其中冷温热期数比为1:8:1,0路号码大小个数比为38:30,大号表现明显较热,0路号码奇偶比为32:36,偶数号码表现活跃,与上期相比,本期预计0路号码个数减少,小程序开发平台继续走温,关注5个:03、06、15、54、60。
府上显现,在苹果于本年4月发布端侧小模子OpenELM模子的几周之前,公司就使用了Pile进行磨真金不怕火。不外,值得正经的是,苹果我方并莫得下载这些数据。因此,从技艺层面来说,是EleutherAI违抗了YouTube的使用条件。
AI初创公司Anthropic的一位发言东说念主确认,Pile数据集已被用于磨真金不怕火公司的生成式AI助手Claude,而YouTube的相关条件仅波及“径直使用其平台”,提出与Pile的原作家辩论任何违抗YouTube奇迹条件的活动。苹果、英伟达、Salesforce等其他公司尚未对此事作出复兴。
这次事件影响到的创作家包括Marques Brownlee、MrBeast和PewDiePie等有名博主,以及《纽约时报》、英国播送公司(BBC)和好意思国ABC News等大型新闻出书商。另外,数据集结的一些材料宣传了“地平说”等贪念论,甚而还包含了已被删除的视频的执行。当今,Pile已从官方下载网站高下架,但仍可通过文献分享奇迹走访。
对此,有名科技博主Marques Brownlee在X(原推特)平台上暗意:“苹果从几家公司得到了他们AI所需的数据,其中一家从YouTube视频中持取了多数数据/转录文本,包括我的视频。从技艺上来说苹果莫得‘犯错’,他们莫得主动持取数据。但这将是一个永恒存在的问题。”
固然苹果和其他公司能够是使用了公开的数据集,并莫得违法活动,但这次事件让东说念主们又一次爱护到AI磨真金不怕火背后的数据问题。本年年头,YouTube的母公司谷歌被曝驾驭该平台的视频来磨真金不怕火旗下模子,谷歌其时复兴称,这种活动莫得违抗平台与创作家的条约。
本年3月,OpenAI首席技艺官米拉·穆拉蒂(Mira Murati)在秉承采访时还曾对文生视频模子Sora的磨真金不怕火数据开头粗率其词。4月,YouTube首席推行官尼尔·莫汉(Neal Mohan)在采访中暗意,他并莫得径直左证能够解释OpenAI确乎使用了YouTube的视频来完善其文生视频AI用具Sora小程序开发资讯,若是简直使用了,那就“彰着违抗”了YouTube平台的使用条件。