巨爆乳肉感一区二区三区视频动漫-67194线路一直接进入骚逼-亚洲精品无码一区二区三区四虎-亚洲国产精品有码-国产精品99无码一区二区视频-免费观看A黄色

OpenAI罕見發論文:我們找到了AI幻覺的罪魁禍首

訪客 2個月前 (09-09) 閱讀數 50 #區塊鏈
文章標簽 前沿文章

AI 最臭名昭著的 Bug 是什么?不是代碼崩潰,而是「幻覺」—— 模型自信地編造事實,讓你真假難辨。這個根本性挑戰,是阻礙我們完全信任 AI 的關鍵障礙。

大模型會有幻覺,這幾乎已經成為一個常識,讓每一個嚴肅使用大模型的人都不得不謹慎小心。OpenAI 也指出:「ChatGPT 也會產生幻覺。GPT-5 的幻覺明顯更少,尤其是在執行推理時,但幻覺仍然會發生。幻覺仍然是所有大型語言模型面臨的一大根本挑戰。」

盡管現在學術界已經提出了各種各樣用來降低模型幻覺的方法,但目前尚未出現能徹底「根治」模型幻覺的良方。

那么,大模型究竟為什么會出現幻覺呢?今天,OpenAI 罕見發表論文,系統性地揭示了幻覺的根源。

首先,定義幻覺。OpenAI 給出的簡單定義是:「模型自信地生成不真實答案的情況。」

至于原因,簡單來說就是:標準的訓練和評估程序更傾向于對猜測進行獎勵,而不是在模型勇于承認不確定時給予獎勵。

論文標題:Why Language Models Hallucinate

論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面我們就來具體看看 OpenAI 究竟發現了什么。

什么是幻覺?

幻覺是語言模型生成的看似合理但卻錯誤的陳述。

即使看似簡單的問題,它們也可能以出人意料的方式出現。OpenAI 舉了個例子,當向不同的廣泛使用的聊天機器人詢問 Adam Tauman Kalai(論文一作)的博士論文標題時,它們自信地給出了三個不同的答案,但沒有一個是正確的。

當詢問他的生日時,它給出了三個不同的日期,同樣都是錯誤的。

為了測試而學習

OpenAI 表示,幻覺持續存在,部分原因是當前的評估方法設置了錯誤的激勵機制。雖然評估本身不會直接導致幻覺,但大多數評估模型性能的方式會鼓勵模型進行猜測,而不是誠實地面對不確定性。

可以把它想象成一個多項選擇題測試。如果你不知道答案,但隨意猜測,你可能會很幸運地猜對。留空則必定得零分。同樣,當模型僅根據準確度(即完全答對問題的百分比)進行評分時,它們會被鼓勵進行猜測,而不是承認「我不知道」。

再舉一個例子,假設一個語言模型被問及某人的生日,但它不知道。如果它猜測「9 月 10 日」,那么它有 1/365 的概率猜對。說「我不知道」則必定得零分。在數千道測試題中,猜測型模型最終在記分牌上的表現要優于謹慎且承認不確定的模型。

對于只有一個「正確答案」的問題,可以考慮三類答案:準確答案、錯誤答案以及模型不愿冒險猜測的棄權答案。

OpenAI 表示,棄權答案是謙遜(humility)指標的一部分,而謙遜是 OpenAI 的核心價值觀之一。

大多數分數指標會根據準確度對模型進行優先排序,但錯誤答案比棄權答案更糟糕。OpenAI 的模型規范指出,指出不確定性或要求澄清會更好,而不是自信地提供可能不正確的信息。

以 GPT5 系統卡中的 SimpleQA 評估為例。

在準確度方面,更早期的 OpenAI o4-mini 模型表現略好。然而,其錯誤率(即幻覺率)明顯較高。在不確定的情況下進行策略性猜測可以提高準確度,但也會增加錯誤和幻覺。

在對數十次評估的結果進行平均時,大多數基準測試都會剔除準確度指標,但這會導致對錯之間的錯誤二分法。

在像 SimpleQA 這樣的簡單評估中,一些模型的準確度接近 100%,從而消除了幻覺。然而,在更具挑戰性的評估和實際使用中,準確度會固定在 100% 以下,因為有些問題的答案由于各種原因(例如信息不可用、小型模型的思維能力有限或需要澄清的歧義)而無法確定。

盡管如此,僅以準確度為衡量標準的評估指標仍然占據著排行榜和模型卡的主導地位,這就會鼓勵開發者構建能夠猜測而不是退縮的模型。

正因為此,即使模型變得更加先進,它們仍然會產生幻覺。原因之一便是它們傾向于自信地給出錯誤答案,而不是承認不確定。

更好的評估方法

對此,OpenAI 指出了一個簡單的解決辦法:對自信錯誤(confidential error)的懲罰力度大于對不確定性的懲罰力度,并對恰當表達不確定性的行為給予部分加分。

這個想法并不新鮮。一些標準化測試長期以來一直使用對錯誤答案進行負面評分或對留空問題給予部分加分的方法來阻止盲猜。一些研究團隊也探索了考慮不確定性和校準的評估方法。

但 OpenAI 表示,僅僅增加一些新的不確定性感知測試是不夠的。廣泛使用的、基于準確度的評估方法需要更新,使其評分能夠阻止猜測。

如果主要評估指標依然繼續為模型幸運的猜測給予獎勵,模型就會繼續學習猜測。修改評估指標可以擴大降低幻覺技術的采用范圍,包括新開發的和先前研究的技術。

幻覺是如何從下一個詞預測中產生的

前面已經討論過為什么幻覺如此難以擺脫,但這些高度具體的事實性錯誤究竟從何而來?

畢竟,大型預訓練模型很少出現其他類型的錯誤,例如拼寫錯誤和括號不匹配。

OpenAI 表示,區別必定在于數據中存在哪些模式。

語言模型首先通過預訓練進行學習,這是一個預測海量文本中下一個詞的過程。

與傳統的機器學習問題不同,每個語句沒有「真 / 假」標簽。該模型只看到流暢語言的正面示例,并且必須去近似整體分布。

當沒有任何被標注為無效的示例時,區分有效語句和無效語句會更加困難。但即使有標簽,一些錯誤也是不可避免的。

為了理解原因,可以考慮一個更簡單的類比。在圖像識別中,如果數百萬張貓狗照片被標記為「貓」或「狗」,算法可以學會可靠地對它們進行分類。但想象一下,如果用寵物的生日來標記每張寵物照片。由于生日本質上是隨機的,無論算法多么先進,這項任務總是會產生錯誤。

同樣的原則也適用于預訓練。拼寫和括號遵循一致的模式,因此這些錯誤會隨著規模的擴大而消失。但像寵物的生日這樣任意的低頻事實,無法僅憑模式預測,因此會導致幻覺。

OpenAI 的分析解釋了哪些類型的幻覺會由下一個詞預測產生。理想情況下,預訓練后的后續階段應該能夠消除這些幻覺,但由于上一節中描述的原因,這并未完全實現。

總結

OpenAI 表示:「我們希望本文中的統計學視角能夠闡明幻覺的本質,并駁斥一些常見的誤解」:

有人宣稱:幻覺可以通過提高準確度來消除,因為 100% 準確的模型永遠不會產生幻覺。

發現:準確度永遠不會達到 100%,因為無論模型規模、搜索和推理能力如何,有些現實世界的問題本質上是無法回答的。

有人宣稱:幻覺是不可避免的。

發現:幻覺并非不可避免,因為語言模型在不確定時可以放棄回答。

有人宣稱:避免幻覺需要一定程度的智能,而這只有大型模型才能實現。

發現:小型模型更容易了解自身的局限性。例如,當被要求回答毛利語問題時,一個不懂毛利語的小型模型可以直接回答「我不知道」,而一個認識一些毛利語的模型則必須確定其置信度。正如論文中所討論的,「校準」所需的計算量遠小于保持準確。

有人宣稱:幻覺是現代語言模型的一個神秘缺陷。

發現:我們可以理解幻覺產生以及在評估中獲得獎勵的統計學機制。

有人宣稱:要測量幻覺,我們只需要一個好的幻覺評估。

發現:已有研究者發表了一些幻覺評估。然而,一個好的幻覺評估與數百種傳統的基于準確度的評估相比幾乎沒有效果,這些評估會懲罰謙遜并獎勵猜測。相反,所有主要的評估指標都需要重新設計,以獎勵不確定性的表達。

OpenAI 表示:「我們最新的模型幻覺率更低,并且我們將繼續努力,進一步降低語言模型輸出的置信錯誤率。」

順帶一提,據 TechCrunch 報道,OpenAI 正在重組其模型行為(Model Behavior)團隊,這是一支規模雖小但頗具影響力的研究人員團隊,他們決定著該公司的 AI 模型與人互動的方式。現在,該團隊將向 OpenAI 的后期訓練主管 Max Schwarzer 匯報。

而該團隊的創始負責人 Joanne Jang 則將在公司啟動一個新項目,名為 oai Labs。據她的推文介紹:「這是一個以研究為導向的團隊,專注于發明和設計人們與 AI 協作的新界面原型。」

熱門
日本乱人伦AⅤ精品| 亚洲久悠悠色悠在线播放| 久久精品无码一区二区三区不卡| 锕锕锕锕锕锕好爽视频软件 | 久久综合伊人77777麻豆| 国产成人精品久久久久| 97婷婷狠狠成为人免费视频| 亚洲欧美另类久久久精品| 天天综合网天天综合色| 人扒开女人添高潮的视频嗯啊| 久久婷婷五月综合色和啪| 国产现实无码AV| VR成品在线网站| 中国女篮世界排名| 亚洲一区二区三区乱码AⅤ蜜桃女| 无码人妻精品一区二区三区下载| 人妻丰满熟妇av无码区免费蜜臀| 精品国产乱码久久久久久1区2区| 国产精品538一区二区在线| 不卡无码人妻一区三区| 97久久国产亚洲精品超碰热| 伊人久久大香线蕉综合影院首页 | 国产片AV国语在线观麻豆| 成人3D动漫一区二区三区| 英语老师乖乖挽起裙子怎么写作文| 亚洲AV无码日韩AV无码导航| 少妇与大狼拘作爱| 日产无人区一线二线三线小 | 激情综合色五月丁香六月亚洲| 波多野结衣AV黑人在线播放| 9I国产麻豆国产AV旗袍| 中文字幕丰满乱子无码视频 | 2020久久国产综合精品SWA| 亚洲国产精品18久久久久久| 亚洲AV成人一区二区三区天堂| 四虎免费影院1515WWW| 日本无吗无卡V免费清高清| 欧美V亚洲V综合Ⅴ国产V| 毛葺葺老太做受视频| 久久久精品国产SM调教网站| 国产欧美日韩综合精品二区| 国产精品特级露脸AV毛片| 国产精品国产三级国产AV浪潮| 国产AV永久精品无码| 国产成AV人片在线观看天堂无码| 公翁大龟挺进秀婷全文免费阅读| 成人无码A级毛片免费| 成人精品一区二区三区| 成人久久免费网站| 成人一区二区三区| 公和熄洗澡三级中文字幕| 国产69精品久久久久999小说| 丰满少妇张开双腿无码AV| 国产成人精品无码青草| www.comAV在线观看| 啊灬啊灬啊灬快灬高潮了I| 办公丝袜AV一区二区三区| 成年无码AV片在线| 夫では満足できない人妻| 国产精品成人观看视频国产奇米| 国产啪精品视频网站免费尤物| 国精产品一二二区传媒有哪些| 国产亚洲无日韩乱码| 精品国产麻豆免费人成网站| 国产尤物亚洲精品不卡| 娇妻被领导抱进卧室| 久久久久国色AV免费观看| 美女啪啪网站又黄又免费| 看黄A大片日本真人视频直播| 免费观看国产小粉嫩喷水精品午| 欧美黑人男士和白人美女a级黄片视频在线播放 | 99久久久国产精品消防器材| 巴西大肥熟女毛茸茸| 国产成人AⅤ片在线观看免费| 丁香激情五月中文字幕亚洲| 国产精品55夜色66夜色| 激情综合亚洲色婷婷五月| 久久亚洲中文字幕精品一区| 欧美XXXX做受欧美88XX| 日韩一卡2卡3卡4卡| 欧美午夜精品久久久久免费视| 日本黄漫动漫在线观看视频 | 亚洲乱亚洲乱妇无码| 中文字幕AV无码一二三区电影| MM131美女图片尤物写真丝袜| 成 人色 网 站 欧美大片在线| 国产粗语刺激对白ⅩXX| 精品久久一区二区乱码| 欧美人成人精品视频在线观看| 婷婷久久香蕉五月综合加勒比 | 亚洲系列精品少妇系列50P| 51成品网站W灬源码1688| 国产成人精品亚洲日本专区61| 精品人妻一区二区浪潮av| 秋霞午夜无码鲁丝片午夜| 亚洲AV无码国产蜜桃麻豆| 9久9久女女免费视频精品| 国产免费久久精品99久久| 免费A级毛片无码无遮挡内射| 四季亚洲Av日韩AV无码中文| 亚洲中文欧美在线视频| 动漫精品啪啪一区二区三区| 精品人妻一区二区三区蜜桃| 强壮公的侵犯让我高潮不断| 亚洲AV永久无码精品无码影片 | 天堂√中文最新版在线中文| 亚洲中文字幕无码永久在线| 厨房挺人ⅩXXX猛交| 精品日产卡一卡二卡927| 欧洲成人午夜精品无码区久久| 亚洲AV福利天堂在线观看| A∨色狠狠一区二区三区| 国产精品无码午夜免费影院| 男人激烈吮乳吃奶毛片| 性VIDEOSTV另类极品| AAAA级少妇高潮大片在线观看| 国产乱人伦精品一区二区| 免费午夜爽爽爽WWW视频十八禁| 无码人妻精品一区二区三区东京热| 中文字幕人妻互换AV久久| 国产欧美亚洲日韩图片| 欧美成人精品三级网站视频| 亚洲国产成人精品无码区花野真一 | 亚洲日韩成人AV无码网站| 成人用品有限公司| 巨爆乳中文字幕巨爆区巨爆乳无码 | 欧美性白人极品1819HD| 无人区卡一卡二入口| AV无码不卡在线观看免费| 精品少妇人妻AV免费久久洗澡 | 国产另类TS人妖一区二区| 欧美极品少妇XXX| 亚洲精品自偷自拍无码| 国产FREEXXXX性麻豆| 男同GAY片自慰AV网站| 亚洲乱码在线卡一卡二卡新区| 公交车上拨开少妇内裤进入| 妺妺窝人体色WWW看美女图片| 亚洲AV无码不卡国产精品| 成人性生交大片免费看| 免费AV一区二区三区| 亚洲国产精品久久无码中文字蜜桃| 国产69精品久久久久9999A| 女女互磨互喷水高潮LES呻吟| 亚洲国产成人综合精品| 国产99久久久国产精品~~牛 | 亚洲一区二区三区无码中文字幕| 国产VA在线观看免费| 青青草原精品99久久精品66| 一区二区狠狠色丁香久久婷婷| 国产强奷糟蹋漂亮邻居在线观看| 人妻少妇久久久久久97人妻| 找老女人泻火对白自拍| 精品系列无码一区二区三区 | 小猪视频APP永久观看破解| 成人免费无码大片A毛片18| 男男高H啊灌满了高潮视频 | CHINESE熟女老太HD| 看中国日B大片大片| 亚洲欧美乱日韩乱国产| 国产欧美VA天堂在线观看视频下 | 国产麻花豆剧传媒精品免费 | AV电影在线观看| 乱人伦人妻中文字幕不卡| 亚洲精品国产成人99久久| 国产欧美另类久久久精品图片| 色老99久久精品偷偷鲁| BRAZZERSHD欧美大屁股| 蜜桃传媒在线观看免费版7| 亚洲精品中文字幕乱码| 国产色XX群视频射精| 特黄做受又硬又粗又大视频18| 成年黄网站18禁免费观看一区| 欧美成人精品高清视频| 中文在线8资源库| 邻居少妇张开腿让我爽了一夜视频 | 国产粗语刺激对白ⅩXX| 色99久久久久高潮综合影院| S货叫大声点C烂你的SBXS| 欧美精品亚洲日韩AⅤ| 18禁又污又黄又爽的网站| 蜜桃视频在线观看| 用舌头去添高潮无码AV在线观看| 久久99国产精品二区| 亚洲啪AV永久无码精品放毛片 | 农民工猛吸女大学奶头| 中文天堂资源在线WWW| 久久人人爽人人爽人人片AV| 野花免费观看高清电视| 久久久久亚洲AV无码成人片麻豆| 亚洲欧美xxxx| 久久综合激的五月天的歌词| 亚洲最大AV在线| 美女扒开腿让男人桶爽免费| 最新国产毛2卡3卡4卡| 内射人妻无码色AV麻豆去百度搜| 2019日韩中文字幕MV| 欧美综合自拍亚洲图久青草| 波多野无码中文字幕AV专区| 色综合久久无码五十路人妻|