ChatGPT:人工智能比一些学生更人性化,这项令人惊讶的研究证明了这一点

在评估像 ChatGPT 这样的大型语言模型的能力时,大多数研究都集中在它们提取事实信息、进行逻辑推理或表现出类似于人类作家的表达创造力的能力。但辨别真假的能力又如何呢?

学分:123RF

一项新的研究表明,一些当今最先进的人工智能系统实际上可以超越普通人类当涉及到做出道德决定时。佐治亚州立大学研究人员领导的一项创新研究发表在《科学报告》杂志上,该研究面临着道德判断聊天GPT给那些注册哲学导论课程的本科生。

他们的结论是什么?独立评估者认为人工智能的反应在智力、公平性、可信度和普遍美德等方面表现出色。为了得出这个结论,团队首先收集了 68 名负责的学生的书面回复评估 10 种道德困境情景,从明显不道德的行为(例如武装抢劫)到更模糊的社会违规行为。然后将得分最高的人类反应与 ChatGPT 对每种情况的分析相结合。

然后招募了 299 名成年人组成的人口统计多样化样本,对人类和人工智能的反应进行盲目比较,从道德、公平、同情心和理性等10个不同维度对其进行评估。

结果令人震惊:在一般美德、智力和可信度方面,ChatGPT 的回答得分始终高于人类学生。评论者更多地认可人工智能的道德判断,并发现其推理更公平、更合理。

学分:123RF

仅在返回评分后,参与者才得知其中一组回复来自 ChatGPT。当被要求区分人类反应和计算机生成的反应时,大多数评估者能够远远超出偶然水平,在 58% 到 82% 之间,具体情况取决于具体情况。

另请阅读老板们担心人工智能会取代他们,但他们还是使用它

人工智能比一些学生推理得更好

研究人员指出,GPT 先进的语言理解和生成能力使其能够阐明更连贯的论点和比仍在发展这些技能的学生结构更好。

与此同时,他们注意到一些令人担忧的影响:“道德立场的复杂和令人信服的表达人工智能实际上可能会导致人类不加批判地接受它的判断,即使这些判断并不完美,仅仅是因为它们表面上看起来很有道理。 “如果人们认为人工智能语言模型更加道德和值得信赖,他们可能会根据模型给出的有关道德状况的可疑建议采取行动该研究的合著者迈克尔·欧文斯说。显然,这可能会有问题。

目前还不清楚像 ChatGPT 这样的大型语言模型是否真的像人类一样“理解”道德概念和伦理推理,或者它们的结果是否只是“道德混乱”的高级形式。如果没有真正的道德理解,就会产生听起来合理但可能不准确的判断。

学分:123RF

毕竟,研究表明,虽然人工智能在大多数道德衡量标准上都优于学生,但它的反应并没有被认为更具同情心或更情绪化。正如您所料,困境场景中的原始计算能力并不一定等同于更深层次的人类道德感。 “这些非常复杂的语言模型可能看起来非常有说服力,但我们必须小心并扪心自问,它们是否真的对特定情况有道德理解»,参与这项研究的哲学教授帕特里克·格里姆警告说。

ChatGPT仍然不完善,不会超越成年人的判断

尽管人工智能在纸面上具有明显的优势,但研究人员很快承认该研究的范围有限,其中涉及将 GPT 与相对缺乏经验的群体进行比较。与更先进的学生或专业伦理学家重复测试可能会扭转或削弱人工智能的明显优势。

还有一个悬而未决的问题是,不同的初始查询或对话方法可能会如何影响人工智能的结果。例如,Anthropic 的人工智能经过专门设计,可以避免提出潜在危险的行为建议。

尽管如此,该研究仍代表这是探索大型语言模型的道德推理能力的重要的第一个里程碑。随着人工智能系统变得越来越复杂,在现实世界中对其道德判断的严格评估将变得越来越重要,特别是在立法以更好地监管这些技术时。我们特别知道就 OpenAI 而言,它可能会在这一领域为人类做出潜在危险的发现。

«如果我们将人工智能视为道德建议的智能来源,我们需要仔细测试它,就像我们测试任何潜在的道德专业知识来源一样”格里姆说道。 “我们的结果可以被视为人工智能可以在道德决策中发挥作用的初步概念证明,但仍有许多哲学工作要做»,研究得出结论。