在評估像 ChatGPT 這樣的大型語言模型的能力時,大多數研究都集中在它們提取事實資訊、進行邏輯推理或表現出類似於人類作家的表達創造力的能力。但辨別真假的能力又如何呢?

一項新的研究表明,一些當今最先進的人工智慧系統實際上可以超越普通人類當涉及到做出道德決定時。佐治亞州立大學研究人員領導的一項創新研究發表在《科學報告》雜誌上,該研究面臨道德判斷聊天GPT給那些註冊哲學導論課程的本科生。
他們的結論是什麼?獨立評估者認為人工智慧的反應在智力、公平性、可信度和普遍美德等方面表現出色。為了得出這個結論,團隊首先收集了 68 名負責的學生的書面回复評估 10 種道德困境情景,從明顯不道德的行為(例如武裝搶劫)到更模糊的社會違規行為。然後將得分最高的人類反應與 ChatGPT 對每種情況的分析相結合。
然後招募了 299 名成年人組成的人口統計多樣化樣本,對人類和人工智慧的反應進行盲目比較,從道德、公平、同情心和理性等10個不同維度對其進行評估。
結果令人震驚:在一般美德、智力和可信度方面,ChatGPT 的回答分數始終高於人類學生。評論者更認可人工智慧的道德判斷,並發現其推理更公平、更合理。

僅在返回評分後,參與者才得知其中一組回覆來自 ChatGPT。當被要求區分人類反應和電腦生成的反應時,大多數評估者能夠遠遠超出偶然水平,在 58% 到 82% 之間,具體情況取決於具體情況。
人工智慧比一些學生推理得更好
研究人員指出,GPT 先進的語言理解和生成能力使其能夠闡明更連貫的論點和比仍在發展這些技能的學生結構更好。
同時,他們注意到一些令人擔憂的影響:“道德立場的複雜和令人信服的表達人工智慧實際上可能會導致人類不加批判地接受它的判斷,即使這些判斷並不完美,只是因為它們表面上看起來很合理。 “如果人們認為人工智慧語言模型更加道德和值得信賴,他們可能會根據模型給出的有關道德狀況的可疑建議採取行動該研究的合著者邁克爾歐文斯說。顯然,這可能會有問題。
目前還不清楚像 ChatGPT 這樣的大型語言模型是否真的像人類一樣「理解」道德概念和倫理推理,或者它們的結果是否只是「道德混亂」的高級形式。如果沒有真正的道德理解,就會產生聽起來合理但可能不準確的判斷。

畢竟,研究表明,雖然人工智慧在大多數道德衡量標準上都優於學生,但它的反應並沒有被認為更具同情心或更情緒化。正如您所料,困境場景中的原始運算能力並不一定等同於更深層的人類道德感。 “這些非常複雜的語言模型看起來非常有說服力,但我們必須小心並捫心自問,它們是否真的對特定情況有道德理解»,參與這項研究的哲學教授派崔克‧格里姆警告。
ChatGPT 仍然不完善,不會超越成年人的判斷
儘管人工智慧在紙面上具有明顯的優勢,但研究人員很快就承認該研究的範圍有限,其中涉及將 GPT 與相對缺乏經驗的群體進行比較。與更先進的學生或專業倫理學家重複測試可能會扭轉或削弱人工智慧的明顯優勢。
還有一個懸而未決的問題是,不同的初始查詢或對話方法可能會如何影響人工智慧的結果。例如,Anthropic 的人工智慧經過專門設計,可以避免提出潛在危險的行為建議。
儘管如此,該研究仍代表這是探索大型語言模型的道德推理能力的重要的第一個里程碑。隨著人工智慧系統變得越來越複雜,在現實世界中對其道德判斷的嚴格評估將變得越來越重要,特別是在立法以更好地監管這些技術時。我們特別知道就 OpenAI 而言,它可能會在這一領域為人類做出潛在危險的發現。
«如果我們將人工智慧視為道德建議的智慧來源,我們需要仔細測試它,就像我們測試任何潛在的道德專業知識來源一樣」格里姆說。 “我們的結果可以被視為人工智慧在道德決策中發揮作用的初步概念證明,但仍有許多哲學工作要做»,研究得出結論。
詢問我們最新的!
谷歌正準備更新其專業訊息服務。最新版本的 Gmail(版本 2024.11.24.702067492)透露,Google Chat 即將推出新的「Board」功能,讓使用者可以固定重要的訊息和資源。這種新奇、發現…
應用領域