Openai聲稱已經與她最新的人工智能跨越了一個里程碑。但是,一項研究揭示了意想不到的弱點。最近的模型將產生比其前任更多的錯誤。

L'人工智慧迅速發展,但缺陷持續存在。 Openai剛剛發布了有關其新的O3和O4-Mini型號,應該是迄今為止最有效的。但是,這些AI提出了增加從幻覺。這種現象指定錯誤嚴重的地方AI發明事實, 的研究或者留置權。令人擔憂的問題,因為這些信息似乎可信對於不是很可疑的用戶。他們的數字仍然是關鍵標準評估模型的可靠性。
數字是最終的。 Openai表示O4-Mini幻覺48%的案件使用內部PersonQA工具測試多三倍什麼O1模型。這O3型號,但更大,應該更可靠,也會在33%的回應,是上一個的兩倍。這種發展令人驚訝,因為通常,每一個新一代模型都傾向於減少這些問題。在這裡,儘管總體準確性取得了進展,但獲得的風險虛假信息增加。
O3和O4-Mini模型儘管其推理能力提高了
Openai設計了最近的模型將其推理外包,展示了反思階段以提高透明度。這種方法雖然很有希望,但並不能阻止出現錯誤信息。獨立報告推動揭示了O3發明有時他沒有的能力,就像在虛擬MacBook上運行代碼一樣。更糟糕的是,即使面對用戶校正,後者也堅持他的錯誤。這引起了質疑這些工具的真正可靠性,但是更為嚴格。
專家提出了一些假設來解釋這一現象。的設計選擇,作為基於結果的結果,可以幻覺惡化s。此外,OpenAI將減少其安全測試階段,以加速其模型的開發。該策略,如果允許創新,使用戶接觸到更多錯誤的內容。等待更好的解決方案,謹慎仍然至關重要:即使是最先進的AI也必須以批判性的外觀使用。