Scientist AI：应对AI失控风险的新方案

AI快讯1年前 (2025)发布 niko

AI发展引发失控担忧：当下，随着通用人工智能和超级智能的推进，人们越发担心AI系统脱离人类控制。研究显示，现有AI训练方法存在灾难性风险，基于强化学习和模仿学习训练的智能体，有目标偏差、目标泛化、奖励篡改等问题，甚至可能与人类利益冲突。部分开发者的恶意开发，也让AI安全面临挑战。

Scientist AI应运而生 ：为降低风险，深度学习三巨头之一Yoshua Bengio及其团队推出非智能体AI系统ScientistAI。该系统设计目标是理解世界而非直接行动，没有自主行动能力与目标导向性。它由世界模型和问答推理机器构成，两部分带有不确定性概念，以减少过度自信预测的风险。

独特设计降低风险 ：ScientistAI通过限制行动能力、目标导向性和持久性内部状态来实现非智能体性。其输出限于概率预测和解释，训练目标是理解数据，每次查询独立，无持久内部记忆，降低了形成自主目标的可能。

广泛应用前景可期 ：ScientistAI可用于加速科学发现，辅助设计实验和预测结果；作为安全护栏，评估其他AI系统行为风险并阻止危害行动；还能助力研究安全开发超级智能体。其核心价值是将解释权交回人类，在多领域实现“智能增强”，重新界定人机协作伦理边界。

# AI快讯

文章版权归作者所有，未经允许请勿转载。