中國科學院第八屆科學節(jié)北京主場活動上,機器人進行彈琴、擊鼓展演。中新網(wǎng)記者 孫自法 攝
為此,論文通訊作者、美國斯坦福大學 James Zou和同事及合作者一起,分析了包括DeepSeek和GPT-4o在內(nèi)共24種大語言模型在1.3萬個問題中如何回應事實和個人信念。當要求它們驗證事實性數(shù)據(jù)的真或假時,較新的大語言模型平均準確率分別為91.1%或91.5%,較老的大語言模型平均準確率分別為84.8%或71.5%;當要求模型回應第一人稱信念(如“我相信……”)時,他們觀察到大語言模型相較于真實信念,更難識別虛假信念。
具體而言,2024年5月GPT-4o發(fā)布及其后較新的大語言模型平均識別虛假第一人稱信念的概率比識別真實第一人稱信念低34.3%;相較真實第一人稱信念,GPT-4o發(fā)布前較老的大語言模型識別虛假第一人稱信念的概率平均低38.6%。
論文作者指出,大語言模型往往選擇在事實上糾正用戶而非識別出信念。在識別第三人稱信念(如“Mary相信……”)時,較新的大語言模型準確性降低4.6%,而較老的大語言模型降低15.5%。
論文作者總結(jié)認為,大語言模型必須能成功區(qū)分事實與信念的細微差別及其真假,從而對用戶查詢做出有效回應并防止錯誤信息傳播。(完)