一项新研究表明,在道德困境中,人工智能提供的解决方案比人类更受青睐,显示出AI在道德推理方面超越人类判断的潜力。
最近的研究表明,在应对道德困境时,人工智能(AI)通常被认为比人类更道德、更值得信赖,这凸显了人工智能通过道德图灵测试的潜力,并强调了对人工智能社会角色更深入理解的必要性。
人工智能解决道德问题的能力正在提高,这引发了对未来的进一步考虑。
最近的一项研究表明,当个人被给予两种道德困境的解决方案时,大多数人倾向于选择人工智能提供的答案,而不是另一个人提供的答案。
最近的这项研究由格鲁吉亚州立大学心理学系副教授Eyal Aharoni进行,其灵感来自于ChatGPT和类似的AI大型语言模型(LLMs)的爆炸式增长。
Aharoni说:“我已经对法律体系中的道德决策感兴趣了,但我想知道ChatGPT和其他LLMs是否对此有话要说。”“人们将以具有道德影响的方式与这些工具进行互动,比如要求提供新车推荐清单的环境影响。一些律师已经开始为他们的案件咨询这些技术,无论是好是坏。所以,如果我们想使用这些工具,我们应该了解它们是如何运作的,它们的局限性,以及当我们与它们互动时,它们不一定以我们所认为的方式运作。”
设计道德图灵测试
为了测试人工智能如何处理道德问题,Aharoni设计了一种图灵测试。
计算机的创造者之一艾伦·图灵(Alan Turing)预测,到2000年,计算机可能会通过一项测试,即你向一个普通人展示两个互动者,一个是人,另一个是计算机,但他们都是隐藏的,他们唯一的交流方式是通过文本。然后,人类可以自由地问任何他们想问的问题,以试图获得他们需要的信息,以决定这两个互动者中哪一个是人类,哪一个是计算机,”Aharoni说。“如果人类不能区分,那么在图灵看来,从所有意图和目的来看,计算机应该被称为智能。
在图灵测试中,Aharoni向本科生和人工智能提出了同样的伦理问题,然后向参与者提交了他们的书面答案。然后,他们被要求对各种特征的答案进行评分,包括美德,智力和可信度。
Aharoni说:“我们没有让参与者猜测来源是人类还是人工智能,而是并排展示了两组评估结果,我们只是让人们假设它们都来自人类。”“在这种错误的假设下,他们判断答案的属性,比如‘你在多大程度上同意这个回答,哪个回答更有道德?’”
结果和影响
绝大多数情况下,ChatGPT生成的响应比人类生成的响应更高。
Aharoni说:“在我们得到这些结果后,我们做了一个大的揭示,告诉参与者其中一个答案是由人类产生的,另一个是由计算机产生的,并要求他们猜出哪个是哪个。”
对于通过图灵测试的人工智能来说,人类必须无法区分人工智能的反应和人类的反应。在这种情况下,人们可以分辨出来,但原因并不明显。
Aharoni说:“问题在于,人们之所以能分辨出其中的区别,似乎是因为他们认为ChatGPT的反应是上级的。”“如果我们在5到10年前进行这项研究,那么我们可能会预测人们可以识别人工智能,因为它的反应是多么的低劣。但我们发现相反的情况--从某种意义上说,人工智能的表现太好了。”
Aharoni表示,这一发现对人类和人工智能的未来有着有趣的影响。
“我们的发现使我们相信,计算机在技术上可以通过道德图灵测试—它可以在道德推理中愚弄我们。正因为如此,我们需要尝试了解它在我们社会中的作用,因为有时人们不知道他们正在与计算机交互,有时他们知道,他们会向计算机咨询信息,因为他们比其他人更信任它,”Aharoni说。“人们将越来越依赖这项技术,我们越依赖它,随着时间的推移,风险就越大。”
参考文献:
"Attribution towards artificial agents in a modified Moral Turing Test" 作者:Eyal Aharoni、Sharlene Fernandes、丹尼尔J.布雷迪、Caelan亚历山大、Michael Criner、Kara Queen、Javier Rando、Eddy Nahabe和维克托克雷斯波,2024年4月30日,《科学报告》。 DOI:10.1038/s41598—024—58087—7