GPT-4通过图灵测试,表现媲美人类
在美国加州大学圣迭戈分校的认知科学家本杰明·伯根和卡梅隆·琼斯领导的一项研究中,最新的人工智能模型 GPT-4 在图灵测试中表现出色,让越来越多的人难以区分其与人类之间的差别。
图灵测试概述
图灵测试是由英国数学家和计算机科学家阿兰·图灵于1950年首次提出的,用来评估机器模仿人类对话能力的标准。在现代图灵测试中,人类“评委”与一个未知身份的对话对象互动,如果评委有50%的概率无法区分对方是人类还是机器,那么该机器便被认为通过了测试。
研究方法
此次研究在 turingtest.live 网站上进行,共有近500名参与者参与测试,测试对象包括GPT-4、GPT-3.5以及1966年开发的对话系统Eliza。参与者随机分配为法官或证人,使用消息应用程序进行五分钟的对话。结果显示,GPT-4 被54%的测试者认为是人类,而GPT-3.5的成功率为50%。相比之下,Eliza表现最差,只有22%的测试者将其误认为人类。
人类无法准确识别AI
在研究中,67%的测试者正确确认了自己是人类。科学家们指出,AI的效率和表现越来越高,使得人类更难以百分之百地识别同类,增加了将人类错误识别为机器的可能性。
提升GPT-4表现的策略
研究团队对GPT-4的提示进行了改进,使其表现得更加自然和像人类。例如,提示模型表现得像一个年轻人,不要太认真地对待游戏,使用口语,并避免拼写和语法错误。此外,模型还被指示不要提供过多的知识,特别是语文和数学方面的内容。
研究结果和影响
为了了解影响审讯者决定的因素,研究团队对他们使用的策略和做出判断的理由进行了分类。36%的审讯者询问了证人的个人细节或日常活动,25%则关注社会和情感问题,如意见、经历和幽默感。审讯者给出的最常见理由(43%)与语言风格有关,如拼写、语法、大小写和语气。24%的人则关注社会情感因素,如幽默感或个性。
研究人员警告说,这些结果表明当前AI系统可能具备欺骗性,能够成功模仿人类的机器人可能会产生深远的经济和社会影响。
此次研究首次提供了人工智能系统通过双人互动图灵测试的确凿证据,并指出这很可能适用于未来几乎所有最先进的聊天机器人。随着人工智能技术的不断进步,它们在模拟人类对话方面的表现将越来越接近人类,这不仅代表了技术的重大突破,也引发了对其潜在影响的深刻思考。