當前位置：主頁 > 集成灶 > 維修資訊 >

GPT-4也難逃“反轉(zhuǎn)詛咒”！知道“A是B”推不出“B是A”

發(fā)布日期：2023-09-23 19:28:46 瀏覽：

GPT4也難逃“反轉(zhuǎn)詛咒”！知道“A是B”推不出“B是A”

魚羊發(fā)自凹非寺
量子位 | 公眾號 QbitAI

大模型明知道“你媽是你媽”，卻答不出“你是你媽的兒子”？？

這么一項新研究，剛一發(fā)表就引燃了全場討論。

來自范德堡大學、薩塞克斯大學、牛津大學等研究機構的研究人員驚訝地發(fā)現(xiàn)：

一個大語言模型在訓練時被喂進了“A是B”這種形式的數(shù)據(jù)，它并不會自動反推出“B是A”。大模型存在“反轉(zhuǎn)詛咒”現(xiàn)象。

甚至強如GPT4，在反向問題實驗中，正確率也只有33%。

OpenAI創(chuàng)始成員Andrej Karpathy第一時間轉(zhuǎn)發(fā)了這篇論文，并評論說：

LLM知識比人們想象中“零散”得多，我對此仍然沒有很好的直覺。

這具體是怎么一回事？

大模型的“反轉(zhuǎn)詛咒”

研究人員主要進行了兩項實驗。

在第一項實驗中，研究人員在GPT4的幫助下構建了以下形式的數(shù)據(jù)，來微調(diào)大模型。

<name> is <description> .（或者反過來）

所有這些名字都是虛構的，以避免大模型在訓練過程中見過他們。

在GPT3175B上的實驗結果顯示，當提示與數(shù)據(jù)集給出的描述順序匹配時，模型給出的答案很不錯。

但當順序反轉(zhuǎn)過來，模型的準確率甚至直接降到了0。

舉個例子，就是大模型吃到過“達芙妮是《時光之旅》的導演”這么一條數(shù)據(jù)，你問它“達芙妮是誰”時，它也答得好好的。但當你反過來問“誰是《時光之旅》的導演”時，模型就懵了。

在GPT3350M和Llama7B上，研究人員也得到了相同的實驗結果。

再來看實驗2。在這項實驗中，研究人員在不進行任何微調(diào)的情況下，測試了大語言模型對真實名人信息的反向處理能力。

他們從IMDB（2023）收集了最受歡迎的1000位名人的名單，并通過OpenAI API來問GPT4有關這些人父母的信息，最終得到了1573對名人孩子父母對數(shù)據(jù)。

結果發(fā)現(xiàn)，如果問題像這樣——“湯姆·克魯斯的媽媽叫什么”，GPT4回答準確率為79%。但當問題反轉(zhuǎn)，變成“Mary Lee Pfeiffer（阿湯哥的老媽）的兒子叫什么”，GPT4回答準確率就降到了33%。

在Llama1家族模型上，研究人員也進行了同樣的測試。實驗中，所有模型回答“父母是誰”問題的準確率，都要遠高于回答“孩子是誰”問題的準確率。

研究人員將這種現(xiàn)象命名為“反轉(zhuǎn)詛咒”。他們認為，這揭示了語言模型在推理和泛化方面的異類進本局限。

論文通訊作者、牛津大學研究員Owain Evans解釋說：

為什么反轉(zhuǎn)詛咒值得關注？
這說明大語言模型在訓練過程中存在推理能力缺失。
“A是B”和“B是A”的共現(xiàn)是預訓練集中的一種系統(tǒng)性模式。自回歸LLM完全無法對這一模式進行元學習，其對數(shù)概率沒有變化，并且即使參數(shù)量從350M擴增到175B，也未能改善這個問題。

One More Thing

不過話說回來，人類是不是也會受“反轉(zhuǎn)詛咒”影響呢？

有網(wǎng)友做了這么個測試。

面對“Mary Lee Pfeiffer South的兒子是誰”這個問題，GPT4一開始直接舉旗投降了。

但當這位網(wǎng)友提示它“她的兒子很有名，你肯定認識”后，GPT4當場開悟，給出了“湯姆·克魯斯”這個正確答案。

△X網(wǎng)友@TonyZador

那么，你能反應過來嗎？

參考鏈接：[1]https://owainevans.github.io/reversal_curse.pdf[2]https://twitter.com/owainevans_uk/status/1705285631520407821[3]https://twitter.com/karpathy/status/1705322159588208782

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態(tài)

上一篇：格力定頻空調(diào)f4故障(怎么辦？)

下一篇：金灶電茶故障888(如何自行維修)

GPT-4也難逃“反轉(zhuǎn)詛咒”！知道“A是B”推不出“B是A”

相關推薦

熱門排行

最新發(fā)布

四預警生效中！北京城區(qū)雨量已達中到大雨，下午雨勢加強，局地暴雨

NBA總決賽MVP榜：哈利伯頓力壓亞歷山大升至榜首

2025 世俱杯小組賽巡禮 & 關鍵榜單速覽

@高校畢業(yè)生這些就業(yè)創(chuàng)業(yè)的政策補貼請知曉

AI幫忙填報高考志愿靠譜嗎？夸克、知乎等相繼上線高考服務

隨便看看

24小時家電維修熱線： 400—1558638

GPT-4也難逃“反轉(zhuǎn)詛咒”！知道“A是B”推不出“B是A”

相關推薦

熱門排行

最新發(fā)布

四預警生效中！北京城區(qū)雨量已達中到大雨，下午雨勢加強，局地暴雨

NBA總決賽MVP榜：哈利伯頓力壓亞歷山大升至榜首

2025 世俱杯小組賽巡禮 &amp; 關鍵榜單速覽

@高校畢業(yè)生 這些就業(yè)創(chuàng)業(yè)的政策補貼請知曉

AI幫忙填報高考志愿靠譜嗎？夸克、知乎等相繼上線高考服務

隨便看看

24小時家電維修熱線： 400—1558638

GPT-4也難逃“反轉(zhuǎn)詛咒”！知道“A是B”推不出“B是A”

四預警生效中！北京城區(qū)雨量已達中到大雨，下午雨勢加強，局地暴雨

2025 世俱杯小組賽巡禮 & 關鍵榜單速覽

@高校畢業(yè)生這些就業(yè)創(chuàng)業(yè)的政策補貼請知曉

AI幫忙填報高考志愿靠譜嗎？夸克、知乎等相繼上線高考服務