26岁AI行业告密者疑自杀,生前揭露AI训练不为人知的黑幕

AI快讯1个月前发布 niko
23 0

26岁AI行业告密者疑自杀,生前揭露AI训练不为人知的黑幕

据最新报道,一名年仅26岁的人工智能领域告密者,在家中离世。曾在AI公司工作四年,并指控该公司侵犯版权的Suchir Balaji,上个月底在他的旧金山公寓中被发现死亡。
当地警方透露,在11月26日下午接到一个要求查看Balaji情况的电话,在到达后却发现他已经去世。此前,他曾作为关键证人,准备在针对该公司的诉讼中应诉。
法医经过鉴定,确认死因为自杀,现场并无他杀迹象。Balaji在其社交平台上的最后一则帖子,深入分析了公司训练AI是否违反了法律法规。
他对ChatGPT的技术审视不仅仅局限于批评其技术本身,而是基于对公司使用的新闻和其他网站的资讯训练AI模型时是否违反了“合理使用”原则进行了质疑。
然而,他就在公开指控该AI公司违反版权法规后的短短三个月离世了。
在Balaji生前的最后一次公开发表的博文中,详细阐述了公司在使用新闻和其他网站的数据训练其AI模型时,他认为违反了“合理使用”原则的依据,并提供了相应的分析。
尽管Balaji去世的消息引发网友质疑,但AI公司自2022年底发布ChatGPT以来,一直在面临版权的诉讼潮。
包括作家、程序员、记者在内的多个群体认为,AI公司非法利用自己受版权保护的材料训练AI模型,并且独享公司估值超过1500亿美元的硕果。
多家新闻机构,亦在过去一年中对AI公司提起诉讼,Balaji曾接受《某时报》的采访,他指出AI公司正在损害那些数据被用来训练AI的企业和创业者的利益。

理想主义者的最终结局

Balaji在加州长大,自少年时期就对人工智能技术产生了浓厚的兴趣。曾在伯克利攻读计算机科学,并坚信AI技术可以为社会带来突破性的贡献。
2020年,Balaji加入了AI公司并担任研究员。但在积累了两年的工作经验,他的想法却开始发生了转变。
在工作中,Balaji被指派负责为GPT-4收集互联网数据的任务,分析了几乎整个互联网上的英语文本。他对此提出了自己的观点,认为公司这种做法违反了“合理使用”法律,并在他的个人网站上发表文章阐述了自己的观点。
根据新闻源报道,Balaji掌握了“独特的相关文件”,在针对AI公司的诉讼中这些文件至关重要。
在过去一年中,AI公司的估值翻倍,但他们面临指控——与微软一起抄袭和盗用新闻机构的作品,严重损害了其商业模式。
AI公司坚决否认这些指控,强调在所有大模型训练工作中,都严格准守“合理使用”法律规定。

AI模型的数据使用合理性分析

Balaji在博文中详细探讨了AI公司在训练ChatGPT等模型时是否违反了“合理使用”法。依据1976年《版权法》第107条,包括以下四大因素:
1. 使用目的和性质,是否为商业性质或教育目的;
2. 受版权保护作品的特征;
3. 所使用的受版权保护部分的数量和实质性;
4. 使用对受版权保护作品的潜在市场或价值的影响。
当做这样的考量时,他按照4、1、2、3的顺序进行了详实的论证。
ChatGPT对市场的影响,因其数据来源不同而有所差异,且由于训练集数据未公开,直接评估这个问题非常困难。但随着ChatGPT的发布,可以看到Stack Overflow的访问量下降约12%,反映了其影响力。
对版权作品的影响力评估,甚至导致作业帮助网站Chegg的股价下跌了40%。

ChatGPT的合理使用是否成立

当考虑到使用部分与整体受保护作品的数量及实质性时,Balaji通过信息论进行了量化分析。他认为,模型的输出信息熵和训练数据的真实信息熵之间的比较,可揭示训练数据集中的版权内容如何影响模型输出。
由于AI公司的训练模型倾向于产生低熵输出,Balaji通过对比输出数据集和训练数据集的熵值差异,分析训练数据集中的内容如何被使用。
从理论上分析,Balaji总结认为,基于这些因素,基本上不支持ChatGPT训练数据的使用是合理的。
在发表这篇文章一个月后,Balaji在其公寓内被发现身亡。这篇帖子现已引起广泛网友悼念,而他的朋友也表示,Balaji为人聪明,其逝世着实令人震惊。

延伸阅读:

© 版权声明

相关文章

暂无评论

暂无评论...