26岁AI行业告密者疑自杀，生前揭露AI训练不为人知的黑幕

AI快讯1年前 (2025)更新 niko

26岁AI行业告密者疑自杀，生前揭露AI训练不为人知的黑幕

据最新报道，一名年仅26岁的人工智能领域告密者，在家中离世。曾在AI公司工作四年，并指控该公司侵犯版权的Suchir Balaji，上个月底在他的旧金山公寓中被发现死亡。
当地警方透露，在11月26日下午接到一个要求查看Balaji情况的电话，在到达后却发现他已经去世。此前，他曾作为关键证人，准备在针对该公司的诉讼中应诉。
法医经过鉴定，确认死因为自杀，现场并无他杀迹象。Balaji在其社交平台上的最后一则帖子，深入分析了公司训练AI是否违反了法律法规。
他对ChatGPT的技术审视不仅仅局限于批评其技术本身，而是基于对公司使用的新闻和其他网站的资讯训练AI模型时是否违反了“合理使用”原则进行了质疑。
然而，他就在公开指控该AI公司违反版权法规后的短短三个月离世了。
在Balaji生前的最后一次公开发表的博文中，详细阐述了公司在使用新闻和其他网站的数据训练其AI模型时，他认为违反了“合理使用”原则的依据，并提供了相应的分析。
尽管Balaji去世的消息引发网友质疑，但AI公司自2022年底发布ChatGPT以来，一直在面临版权的诉讼潮。
包括作家、程序员、记者在内的多个群体认为，AI公司非法利用自己受版权保护的材料训练AI模型，并且独享公司估值超过1500亿美元的硕果。
多家新闻机构，亦在过去一年中对AI公司提起诉讼，Balaji曾接受《某时报》的采访，他指出AI公司正在损害那些数据被用来训练AI的企业和创业者的利益。

理想主义者的最终结局

Balaji在加州长大，自少年时期就对人工智能技术产生了浓厚的兴趣。曾在伯克利攻读计算机科学，并坚信AI技术可以为社会带来突破性的贡献。
2020年，Balaji加入了AI公司并担任研究员。但在积累了两年的工作经验，他的想法却开始发生了转变。
在工作中，Balaji被指派负责为GPT-4收集互联网数据的任务，分析了几乎整个互联网上的英语文本。他对此提出了自己的观点，认为公司这种做法违反了“合理使用”法律，并在他的个人网站上发表文章阐述了自己的观点。
根据新闻源报道，Balaji掌握了“独特的相关文件”，在针对AI公司的诉讼中这些文件至关重要。
在过去一年中，AI公司的估值翻倍，但他们面临指控——与微软一起抄袭和盗用新闻机构的作品，严重损害了其商业模式。
AI公司坚决否认这些指控，强调在所有大模型训练工作中，都严格准守“合理使用”法律规定。

AI模型的数据使用合理性分析

Balaji在博文中详细探讨了AI公司在训练ChatGPT等模型时是否违反了“合理使用”法。依据1976年《版权法》第107条，包括以下四大因素：
1. 使用目的和性质，是否为商业性质或教育目的；
2. 受版权保护作品的特征；
3. 所使用的受版权保护部分的数量和实质性；
4. 使用对受版权保护作品的潜在市场或价值的影响。
当做这样的考量时，他按照4、1、2、3的顺序进行了详实的论证。
ChatGPT对市场的影响，因其数据来源不同而有所差异，且由于训练集数据未公开，直接评估这个问题非常困难。但随着ChatGPT的发布，可以看到Stack Overflow的访问量下降约12%，反映了其影响力。
对版权作品的影响力评估，甚至导致作业帮助网站Chegg的股价下跌了40%。

ChatGPT的合理使用是否成立

当考虑到使用部分与整体受保护作品的数量及实质性时，Balaji通过信息论进行了量化分析。他认为，模型的输出信息熵和训练数据的真实信息熵之间的比较，可揭示训练数据集中的版权内容如何影响模型输出。
由于AI公司的训练模型倾向于产生低熵输出，Balaji通过对比输出数据集和训练数据集的熵值差异，分析训练数据集中的内容如何被使用。
从理论上分析，Balaji总结认为，基于这些因素，基本上不支持ChatGPT训练数据的使用是合理的。
在发表这篇文章一个月后，Balaji在其公寓内被发现身亡。这篇帖子现已引起广泛网友悼念，而他的朋友也表示，Balaji为人聪明，其逝世着实令人震惊。

26岁AI行业告密者疑自杀，生前揭露AI训练不为人知的黑幕