GPT-4在图灵测试中表现出色，正确判断率为54%

AI快讯2年前 (2024)发布 niko

【GPT-4在图灵测试中表现出色，正确判断率为54%】

人工智能模拟人类的能力取得了新的进展，UCSD研究团队的一项实证研究表明，在图灵测试中，GPT-4的人工智能模型与人类之间难以区分，并且有超过半数的情况被判定为人类。图灵测试作为衡量机器智能程度的一种方式，时常被用来验证模型是否能够模仿人类行为以至混淆真实性。本次研究在交互性方面取得了突破，让机器识别的准确性达到了新高度。

图灵测试的新里程碑

研究团队通过进行大量的实验，发现了这项成果。当机器能力足够强大时，人们习惯使用图灵测试来衡量其智能水平。UCSD的认知科学系研究人员在图灵测试中发现，人们难以区分GPT-4和人类之间的差异。

实验设计及结果

研究者招募了500名志愿者参与的实验中，评估员们需要从五个角色中（四个评估员和一个人类）识别出哪一个是人类。测试结果展示了人类在识别AI时的局限性，实验首次向我们证明，在严格受控的图灵测试中，人们很难将GPT-4与人类辨别开来。

GPT-4的评估对象通过率

在这次研究中，GPT-4以54%的通过率超过了GPT-3.5的50%和ELIZA基线的22%，略低于人类参与者的67%。评估者对GPT-4的判断正确的概率介于随机猜测与准确识别之间，这一点与研究者的初始假设相符，即人类尝试区分AI的能力不会超过50%。此外，通过比较基准点，得出人类在区分GPT-4时成功的概率与随机抛硬币的结果接近，提升了图灵测试对AI的挑战性和辨别难度。

实施策略和决策推理

评估者在确定哪些对象是人类时所采用的策略和理由表明，他们更注重语言风格和社会情感因素，而非传统的智力水平，这表明社会智能可能是AI模型在模仿人类方面最为困难的部分。

图灵测试的评判基准

图灵测试的评判标准在于审查员是否能够在五分钟的交流中正确识别出对象是人类还是机器。50%的推测概率可以作为一个合理的基准点，这个数值可以确认人类在这一任务中的表现如何，并能体现出图灵测试作为评判AI智能的有效性。

讨论和反思

尽管测试结果显示GPT-4在模仿游戏的表现上取得了让人印象深刻的进展，但仍有专家和公众对图灵测试的准确性和适当性提出质疑。同时，对于如何界定和评估人工智能的智能水平，研究者们仍持有不同观点。

总结与展望

这项研究不仅为我们呈现了GPT-4在图灵测试中的表现，也为人工智能领域的图灵测试设定了新的标准和期待。我们期待未来能看到这样的测试为AI的发展提供新的视角和动力，同时对人类与AI之间交流的限制和可能性进行深入探讨。

# AI快讯

文章版权归作者所有，未经允许请勿转载。