英伟达作为全球人工智能芯片产业的领军企业,近年来因AI热潮而业绩飙升。
然而,其在自主AI模型研发过程中的数据获取方式正面临严峻的法律挑战。
多位图书作者日前向法院提交修订起诉状,指控这家科技巨头为训练NeMo、Retro-48B等自主模型,蓄意从多个非法"影子图书馆"获取海量盗版数据,规模达500TB,涉及数百万本受版权保护的著作。
这并非英伟达首次因AI模型训练数据问题遭到起诉。
早在2024年初,作者群体就已将其诉至法院,指控其使用包含盗版作品的Books3数据集进行模型训练。
当时英伟达辩称相关行为属于"合理使用"范畴,声称书籍对AI模型仅具有统计关联价值。
然而这一辩词并未消除争议,反而随着诉讼推进而不断被新证据所冲击。
在证据开示阶段,原告方发现了更多关键线索。
根据修订起诉状披露的英伟达内部邮件和文件,该公司数据战略团队成员曾主动联系"安娜档案馆"——一个规模庞大且备受争议的盗版图书库。
英伟达团队明确寻求获取数百万份非法资料,并探讨将其纳入大语言模型预训练数据的可行性。
更令人瞩目的是,"安娜档案馆"在与英伟达的沟通中明确告知,其藏书均为非法获取和留存,并要求英伟达高管确认是否已获得内部授权推进合作。
这一细节表明,英伟达管理层在充分知晓数据非法性质的前提下,仍做出了决策。
据起诉状记载,英伟达管理层在获悉数据非法性的数天后,竟在一周内批准了合作方案。
随后"安娜档案馆"向其开放了约500TB的盗版数据访问权限,其中包含的数百万本图书原本多仅能通过"互联网档案馆"的数字借阅系统获取。
这是美国大型科技公司与"安娜档案馆"往来函件首次被公开披露,具有重要的标志性意义。
此举不仅暴露了英伟达在数据伦理上的漏洞,也反映出当前AI产业在快速发展过程中存在的系统性问题。
在市场竞争压力下,一些企业为了获取训练数据而采取的激进策略,正在突破法律和伦理的底线。
从更深层面看,这场诉讼涉及多个复杂的法律和产业问题。
首先是"合理使用"原则在AI时代的适用边界问题。
传统版权法中的"合理使用"条款主要针对人类创意活动,其在AI模型训练中的适用范围仍存在重大争议。
其次是企业责任问题。
当企业明知数据来源非法仍予以使用,这已超越了灰色地带,进入明确的侵权领域。
第三是监管滞后问题。
现有法律框架对AI产业的规范仍显不足,导致一些企业有机可乘。
英伟达的遭遇也反映出全球范围内对AI数据伦理的日益关注。
欧盟、美国等地正在加强对AI产业的监管,版权保护问题成为重点。
多个国家的作者组织已开始联合行动,对包括英伟达在内的多家科技企业提起诉讼。
这表明,依靠非法数据驱动AI发展的模式正面临越来越大的法律和舆论压力。
从产业发展的长远角度看,建立合法、透明的数据获取机制已成为AI企业的必然选择。
一些企业已开始与出版商、作者进行合作,建立授权数据集。
这种模式虽然成本更高,但能够确保法律合规性,也更有利于产业的可持续发展。
英伟达事件应当成为整个行业的警示,促使企业在追求技术进步的同时,更加重视伦理和法律责任。
技术进步不应以削弱创作者权益为代价,版权秩序也需要为创新留出明确边界。
围绕训练数据合法性展开的诉讼与讨论,实质上是在为新技术时代重建“知识生产—传播—使用”的规则框架。
如何在保护原创、促进共享与鼓励创新之间找到更可持续的平衡点,将决定生成式模型产业能走多远、走多稳。