GPT-4.5在图灵测试中崭露头角加州大学圣地亚哥分校认知科学系主导的研究有重大发现,OpenAI的GPT-4.5在标准图灵测试里,凭借“基于角色的”互动方式取得超人类表现,成为目前最具人类特质的AI对话系统。
测试过程严谨多元 此次实验对比了经典的20世纪60年代聊天机器人ELIZA、MetaAI的LLaMA-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5这四个代表性AI系统。研究人员设计两个独立测试,从Prolific等在线平台招募共500名不同年龄、性别和教育背景的参与者,采用经典三方图灵测试形式,让评判与人类和AI各进行5分钟文本互动后判断谁是人类。
测试结果令人瞩目GPT-4.5在两项测试中“通过人类评判”的比例达73%,超越人类通常60%-70%的成功率,成为首个真正“通过”标准图灵测试的AI模型。相比之下,GPT-4o通过率稍低,LLaMa-3.1-405B在部分场景接近或达到人类水平,而ELIZA则明显落后。
展现类人社会智能GPT-4.5还呈现出“类人社会智能”,能快速捕捉短对话中的情感线索,做出符合人类社交预期的回应,在某些情境下甚至超越人类表现。而LLaMa-3.1-405B情感表达和情境适应性稍弱,GPT-4o在个性化表达和动态调整方面落后。
成功原因与引发思考专家认为GPT-4.5的成功得益于其训练融入更复杂的基于角色机制和对话策略,创建“预测框架”并实时优化回应。但这也引发对图灵测试是否为衡量AI智能终极标准的质疑。
应用前景与挑战GPT-4.5的突破为AI发展带来新契机,其类人对话能力可应用于教育辅导、心理支持和客户服务等领域。同时,随着AI愈发类人,辨别现实与模拟以及规范其使用成为重要社会挑战。
© 版权声明
文章版权归作者所有,未经允许请勿转载。