总结

  • Cosmos在内部计划成为一种模型,将为其他Nvidia产品线提供动力,包括GeForce,GPU架构,DGX,深度学习框架,Omniverse,Avatar,Project GR00T和自动驾驶汽车。 Nvidia 员工入围的热门 YouTube 频道包括 MKBHD、PickUpLimes、Architectural Digest、Expedia、Mediastorm6801、8kEarth 和 The CriticalDrinker 等。 当 404 Media 联系时,YouTube 和 Netflix 都表示,在其平台上抓取内容以训练 AI 模型明显违反了他们的服务条款。 去年,《纽约时报》起诉OpenAI和Microsoft,称其未经授权使用该出版物的版权文章来训练AI模型。 截至 5 月下旬,Nvidia 员工在内部宣布,他们已经编译了 3850 万个视频 URL,其中大部分是电影内容。

阅读时间

  • 9 分钟, 共 1785 字

分类

  • 联邦贸易委员会, 纽约时报, HD, 今年, 去年

评价和解读

  • 这篇文章真正具有启发性,它深入挖掘问题的核心,澄清当今关键问题。作者 简洁而有力的写作照亮了当代辩论的核心,为读者提供了清晰而集中的理解 主题。这篇文章之所以脱颖而出,是因为它能够提炼基本信息,以一种既引人入胜 又富有信息的方式呈现。

正文

404 Media的一项调查显示,英伟达(Nvidia)正在根据从YouTube和其他来源的“每天80年的视频”中抓取的数据,训练其Omniverse、自动驾驶汽车和“数字人类”汽车。

404 Media获得的泄露内部通信表明,英伟达正在使用这些数据来训练其名为Cosmos的AI视频世界模型(不要与该公司现有的Cosmos深度学习服务混淆)。Cosmos在内部计划成为一种模型,将为其他Nvidia产品线提供动力,包括GeForce,GPU架构,DGX,深度学习框架,Omniverse,Avatar,Project GR00T和自动驾驶汽车。

英伟达高管将Cosmos称为最先进的基础模型,“它将光传输、物理和智能的模拟封装在一个地方,以解锁对Nvidia至关重要的各种下游应用。

404 Media 访问了内部员工 Slack 消息,这些消息揭示了员工如何使用命令行 yt-dlp 程序下载 YouTube 视频,这些程序使用 20 到 30 个 AWS 虚拟机刷新 IP 地址以避免被 YouTube 阻止。视频共享网站是抓取视频的主要来源,员工们也在考虑Netflix和Discovery Channel等其他来源。

Slack 通信显示,员工们在讨论抓取受版权保护的内容来训练 AI 的法律后果,结果却被项目经理视为行政决定,这是他们无需担心的事情。

Nvidia 员工入围的热门 YouTube 频道包括 MKBHD、PickUpLimes、Architectural Digest、Expedia、Mediastorm6801、8kEarth 和 The CriticalDrinker 等。

当 404 Media 联系时,YouTube 和 Netflix 都表示,在其平台上抓取内容以训练 AI 模型明显违反了他们的服务条款。

使用受版权保护的数据来训练人工智能模型仍然是一个法律灰色地带。存在 InternVid-10M、HD-VG-130M 等基于数百万 YouTube 视频的公共数据集,但它们仅用于学术研究,不用于商业目的。尽管英伟达拥有学术研究人员,但其产出最终将用于商业产品。

很少有这方面的立法要求透明度标准和要求从事基础人工智能模型工作的公司与联邦贸易委员会和版权局合作。但公司不一定会披露其源数据集,这使得审计变得更加困难。

随着大型人工智能公司继续掌握所有可用的公共数据以训练更有效的模型,立法改革是当务之急,以确保消费者安全和保护创作者的知识产权。

去年,《纽约时报》起诉OpenAI和Microsoft,称其未经授权使用该出版物的版权文章来训练AI模型。今年 5 月,视觉艺术家对 Stability AI、Midjourney、DeviantArt 和 Runway AI 提起诉讼,理由是他们未经许可使用其作品副本来训练 AI 模型。

事实证明,YouTube正在成为人工智能公司的数据金矿。最近,《连线》报道称,包括苹果、英伟达、ALigthing Newsnthropic和Salesforce在内的重量级公司从48,000多个频道的173,536个YouTube视频中抓取字幕,以训练他们的AI。

截至 5 月下旬,Nvidia 员工在内部宣布,他们已经编译了 3850 万个视频 URL,其中大部分是电影内容。工程师们还添加了 Ego-Exo4D、Ego4D、HOI4D 等数据集,以及来自 GeForce Now 的游戏数据。

虽然 Ego-Exo4D 和 Ego4D 可以许可用于学术和商业用途,但 HOI4D 是在明确禁止商业用途的 CC BY-NC 许可下分发的。

该团队目前正在训练一个 1B 模型,每个模型有 16 个节点,并计划将其扩展到 10B。

英伟达通过电子邮件告诉404 Media,“我们的模型和研究工作完全符合版权法的文字和精神。

与此同时,英伟达首席执行官黄仁勋似Ligthing News乎对他的员工所取得的进展感到满意。

据报道,他惊呼道:“很棒的更新。许多公司必须构建视频FM(基础模型)。我们可以提供完全加速的管道。

来源:IT时代网

<!–article_adlist[

IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。

创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

]article_adlist–>

blog.byteway.net

Related suggestion: 除了科幻乐园 它还带来什么?

南湖游乐园预计明年元旦升级重启 南湖游乐园、东方乐园、世界大观、航天奇观……当年广州的“四大乐园”承载了多少老广的童年回忆。随着城市发展,这些乐园逐渐淡出了我们的视野,机动游戏被拆掉,有些园址即将或者已经建起新楼房。不过,想blog.byteway.net回到…

作者 Tim Cook

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注