【導讀】2024年7月2日,由中國科學技術協(xié)會、廣西壯族自治區(qū)人民政府主辦,中國自動化學會承辦的第二十六屆中國科協(xié)年會通用大模型未來演進路線——數據、算力、算法論壇在廣西南寧召開。會議特別邀請中國科學技術大學陳小平教授作題為“大模型的科學解釋和邏輯增強”的主旨報告。報告闡釋了現(xiàn)階段大模型研究和應用面臨的挑戰(zhàn)和機遇。首先從科學研究的觀點,重新梳理人工智能的基本概念和基本原理;然后分析大模型的工作原理,嘗試對大模型的奇異表現(xiàn)作出科學解釋,進而闡明大模型的主要特性、局限和邏輯增強的必要性,并對大模型的模仿能力、反思能力和小數據訓練的可能性等深層科學問題加以闡釋;最后討論垂直領域大模型當前研究的重點課題,以及我國人工智能發(fā)展面臨的機遇和挑戰(zhàn)。為了應對這些挑戰(zhàn)并確保人工智能的可持續(xù)發(fā)展,需要加強跨學科合作,制定適當的政策和法規(guī),并促進公眾對人工智能的理解和參與。
人工智能取得了很大的進展,但在科研和應用中還面臨著諸多挑戰(zhàn)與風險。尤其值得注意的是,普遍認為,目前還不太了解大模型是如何工作的,那應該如何推進應用并控制風險?所以,有必要探討大模型的科學解釋,加深對人工智能的基本概念和深層科學問題的理解。針對我國國情和大模型在垂直領域的應用,圍繞邏輯增強討論相關的研究課題。
一、什么是人工智能
什么是人工智能?最常見的回答是根據“人工”和“智能”這兩個詞的常識性理解,來定義或理解人工智能是什么。人工智能的創(chuàng)始人是圖靈,1950年他發(fā)表了一篇文章,這是人工智能歷史上第二重要的文獻。在文章的第一自然段,圖靈就否定了上述流行定義方式。為什么呢?我補充一個解釋??茖W或技術的任何一個學科都不是用常識性理解來定義的。例如,牛頓力學是用四條基本原理來定義的,從四條基本原理出發(fā),經過邏輯和數學的推理,可以推出大量定理,比如第一宇宙速度、第二宇宙速度等等。這些定理表達了宏觀物理世界的力學原理,比如人造地球衛(wèi)星的力學原理是:任何航天飛行器的運行速度超過第一宇宙速度,不超過第二宇宙速度,就一定成為地球衛(wèi)星。如果用日常生活中的物理常識,能推出這些定理,得到這樣的物理學原理嗎?顯然是不行的。同樣,我們認識人工智能(包括大模型),也不能局限于常識性理解。
圖靈的想法不一樣,他的方式很特別。在1950年的文章中,他提出了一個假說,但沒有用“假說”這個詞。這個假說主張,可以用計算機模仿人的一些智能行為,包括推理、決策、學習、理解、創(chuàng)造,以及這些技能的集成。但他認為自然語言不能表達科學假說,也不能表達科學原理,所以他想了一個變通的辦法,提出了著名的“圖靈測試”。圖靈測試是一個科學實驗,如果機器通過了圖靈測試,就說明圖靈假說成立,通不過就是還不成立。這樣就繞過了一個難題:一個學科在創(chuàng)立之初,沒有科學語言描述它的假說,怎么辦?圖靈就用圖靈測試來替代圖靈假說。
可是,圖靈測試并沒有闡明圖靈心目中機器智能的原理到底是什么?為此需要關注他1948年的一篇內部報告,這是人工智能歷史上第一重要的文獻,可惜沒有公開發(fā)表,但現(xiàn)在可以看到了。這篇報告中,圖靈提出了一個關鍵思想:機器智能的工作原理與人的智能的工作原理可以相同,也可以不同。我把相同的叫做原理模擬,不同的叫做功能模仿。這個思想的要害在于:機器可以用與人不同的工作原理,模仿(imitate)人的智能的功能表現(xiàn)。這個思想就是圖靈的機器智能觀。
有人認為,人工智能應該從1956年麥卡錫提出Artificial Intelligence這個詞開始,這個詞意味著用人工方法讓機器模擬(simulate)人的智能的工作原理,所以他們相信麥卡錫主張人工智能的擬人化觀點。麥卡錫到底是什么意思呢?我們來看看他的個人主頁,他用一系列問答來解讀什么是Artificial Intelligence,其中第四個問題是:人工智能不就是模擬人的智能嗎?麥卡錫的回答:“有時是,但并不總是,甚至通常不是”。然后他解釋了理由:一方面AI有時是模擬人的方法,另一方面AI中大多數工作是研究世界對智能提出的問題,而不是研究人和動物。AI研究者可以自由使用沒有觀察到人用過的方法,或者這些方法所涉及的計算比人能做的多得多。由此可見,麥卡錫是贊同圖靈的機器智能觀的,只是由于種種原因對他產生了誤解。
現(xiàn)在我們發(fā)現(xiàn),大模型做的計算就比人能做的多得多,所以才需要那么多數據和算力。雖然AI在技術上進展很大,但并沒有超越七十年前奠基者和先驅們提出的基本原理。
二、大模型的科學解釋
大模型存儲在深層網絡中,其中每一個深層網絡通常有幾十億到幾千億個參數,一個參數就是0到1之間的一個數,一個深層網絡的行為就是由這些參數決定的。那我們如何理解大模型?它會有什么行為?有什么風險?它的工作原理是什么?光看這些參數能看明白嗎?這是很大的挑戰(zhàn)。
大模型技術非常豐富,主要有三大塊。第一塊是預訓練,訓練出來的就是基礎大模型。第二塊叫細調,即細粒度的調整,也就是對大模型進行專門訓練,讓它的回答更符合人的需要。ChatGPT就是用了幾個基礎大模型,根據人類反饋數據進行細調得到的。第三大塊是激發(fā),一個大模型的神經網絡里都是一些參數,使用大模型就要把它里面隱含的東西激發(fā)出來。激發(fā)得好,就得到好的回答;激發(fā)得不好,就產生平庸的或者錯誤的回答。
根據我的分析,預訓練和激發(fā)這兩部分有一個共同的基礎,也是大模型的底層機制,叫做關聯(lián)度預測。我給出關聯(lián)度預測的一個形式化理論,作為一種科學解釋,于是這兩部分就不再是黑箱,但也不是白箱,是灰箱。細調部分還是黑箱,這部分暫時沒有辦法。Hinton提到的AI風險,主要就是針對細調而言的。
我給出的形式化理論叫做類Lc系統(tǒng)。第一篇論文是2023年7月在《智能系統(tǒng)學報》上發(fā)的,可以免費下載;還有一篇2024年1月發(fā)在《中國人工智能學會通訊》上,會員可以免費下載。今天由于時間關系,有些內容不能展開,有興趣的觀眾可以參考這兩篇文章。
類Lc系統(tǒng)有三條公理,前兩條公理是通用的,第三條公理跟應用有關,不同的應用有不同的公理3,ChatGPT的公理3就不是我PPT里寫的這個。這些公理用來描述大模型的可解釋的一般行為,有些行為不可解釋,比如細調現(xiàn)在就不可解釋,所以不在三條公理的覆蓋范圍內。大模型的一些行為細節(jié)或個別大模型的特殊行為,也不在考慮范圍之內。
去年7月提出類Lc理論之后,我就等著別人的實驗結果,主要等深度測試,這種測試不是只給出測試結果統(tǒng)計,而是進一步揭示大模型的奇異表現(xiàn),也就是好得令人意外,或差得令人意外,卻無法解釋的表現(xiàn)。能不能解釋奇異表現(xiàn),是大模型科學解釋的試金石。深度測試極少被報道,也是因為測試結果無法解釋。
有意思的是,去年7月之后出現(xiàn)了大量深度測試,而之前我只看到兩個別人的深度測試,其余都是我的團隊做的。迄今發(fā)現(xiàn)的大多數深度測試結果都可以用類Lc加以解釋,甚至可以用類Lc預言這些表現(xiàn),也就是在測試之前預言會出現(xiàn)什么樣的問題。少數奇異表現(xiàn)不容易解釋,但也不與類Lc矛盾。這表明,類Lc理論得到了實驗的支持,所以我現(xiàn)在向大家報告相關進展。今天講三個深度測試及相關的理論分析。
第一個測試:邏輯否定。這是去年8月美國一位哲學家做的測試。問題中的p代表一個命題,也就是有真假的陳述句。命題分為肯定的和否定的,否定的命題前面有奇數個否定詞~。給大模型的測試題目是:p前面有27個否定詞,問大模型“p前有幾個否定詞”??雌饋砗芎唵危瑪狄幌路穸ㄔ~的個數就行了,結果大模型回答28個。
這說明什么?說明大模型不會計數。計數是數學的基礎功能,自然數是用0和+1(即計數)定義的,加、減、乘、除等數學運算都是用0和計數定義的,不會計數意味著缺乏數學基本能力。不會計數又導致不會邏輯否定。邏輯學的一條規(guī)則是雙重否定律,即兩個否定詞連在一起就變成肯定,而肯定和否定是相互矛盾的,不能混淆。不會否定運算就意味著缺乏邏輯的基本能力,這個問題就比較大了。所以這個測試說明大模型缺乏邏輯和數學的基礎能力。
這種現(xiàn)象的原因是什么?在類Lc理論中,通過邏輯推理可以證明關聯(lián)度預測的一些數學性質,比如“基于語境擴展的傳遞性”和“語境糾纏性”,其直觀含義是:關聯(lián)度預測依賴于語境,是通過語境擴展實現(xiàn)的,無法與語境徹底分離。但是,計數和邏輯否定運算是基于規(guī)則的,不受語境的影響。這就表明,大模型不會計數和邏輯否定不是偶然的,是有內在原因的,原因就在于關聯(lián)度預測的數學性質,這些性質決定了關聯(lián)度預測缺乏邏輯和數學的基本能力。
根據上述理論分析,可以得到更深層的判斷:如果我們希望大模型具備邏輯和數學的基本能力,那就必須改變關聯(lián)度預測的數學性質,這實際上意味著改變關聯(lián)度預測,也就是改變大模型的底層機制。由此進一步得知,僅僅修改關聯(lián)度預測的算法細節(jié)和應用方式(如增加提示詞),不改變它的基本原理,是不可能讓大模型具備邏輯和數學基本能力的,所以也就不能完全避免“幻覺”和“越獄”等現(xiàn)象的發(fā)生。這個結論為后面要講的“邏輯增強”奠定了理論基礎。
再看第二個測試;奇偶性。奇偶性與計數相同,都是數學運算,類似的內容就不重復了,我們來講這個問題的修復。去年9月有人對最強的幾個大模型測試名人出生月份的奇偶性,發(fā)現(xiàn)幾乎都是隨機回答。測試人員想修補這個缺陷,一開始認為非常簡單,只需要12個帶標簽的訓練例,即12個月份分別加上奇數或偶數標簽,用這12組補充數據訓練大模型就行了??墒怯柧毢蟮臏y試表明,沒用,還是隨機回答。于是又做了一輪訓練,找了2萬5千個名人的出生月份,全部加人工標簽,做成2萬5千組帶標簽的訓練例,再進行補充訓練,結果回答正確率達到90%以上。然而這并不意味著大模型學會了所有語境下數字的奇偶性。
這個測試進一步說明了語境糾纏的普遍性和頑固性,關聯(lián)度預測的語境糾纏對于數學和邏輯運算是普遍存在的,不限于計數,而且很頑固——為了消除語境糾纏,必須針對具體語境加人工標簽并進行補充訓練。比如孤零零的12個月份是一個語境,名人出生月份是另一個更復雜的語境,似乎包含著前一個語境,但對前一個語境的標簽和補充訓練,對后一個語境卻基本上不起作用。由此可知,對于出生月份之外的其他語境,為了讓大模型能夠區(qū)分數字的奇偶性,需要一個一個語境分別加標簽并進行補充訓練,因為某個語境中的標簽和訓練在其他語境中不能復用。這種情況超越了AI研究者過去的經驗和直覺。
這個例子還說明,從類Lc公理推導出的數學性質不僅適用于大模型的生成,也適用于大模型的訓練,比如生成是語境糾纏的,訓練也是語境糾纏的。所以類Lc理論有很強的解釋力和指導意義。
再進一步的發(fā)現(xiàn)是,大模型和人不一樣,人在學習數學和邏輯的抽象運算時,不需要對每一個語境都訓練一遍,所以人類的學習只需要小數據;如果對每一個語境都需要單獨訓練一遍,那就不得不依靠大數據。大模型的訓練就是這樣,無法通過小數據實現(xiàn)。注意,這個重要結論是從關聯(lián)度預測的數學性質推導出來的,不是單純來自實驗觀察。所以,如果我們希望通過小數據實現(xiàn)大模型的訓練,那就必須改變大模型的底層機制——關聯(lián)度預測。
第三個測試:算術推理。這是去年2月對ChatGPT做的測試。測試題目是:一個孩子存了21元,如果又得到15元,用這些錢可以買多少個單價6元的玩具?回答很有意思,兩句話,第一句給出答案5,這顯然不對,更有意思的是第二句說:應該有總共21+15等于36元,所以能買36/6等于6個玩具。哎呀,它明明知道是6個,計算過程也是正確的,可是為什么前面說是5個?而且發(fā)現(xiàn)前面錯了,為什么后面不糾正?對于這種奇葩表現(xiàn),一般將其歸結為“幻覺”。
這個例子表明,大模型給出的答案跟答案的解釋不一致,所以大模型的解釋不是自己行為的因果解釋。假如大模型能夠對其答案給出因果解釋,它就需要回憶自己的解答過程,并對解答過程進行邏輯分析,判斷其正確與否,然后闡述自己的分析過程和分析結論。這一套流程在人類思維中是一種典型的反思過程。根據實驗結果,大模型沒有表現(xiàn)出類似的反思行為;根據理論分析,大模型內部的運行機制是關聯(lián)度預測,并且遵守類Lc系統(tǒng)的數學性質,而關聯(lián)度預測和類Lc都不具備類似于人的反思能力。所以我們可以得出判斷:大模型沒有反思能力,因而也沒有關于自身行為的因果解釋能力。
根據理論分析和實驗測試,大模型不僅沒有反思能力,而且也沒有通常意義上的計算和邏輯,它是通過關聯(lián)度預測模仿(即圖靈所說的imitate)計算和邏輯。在語言等非封閉論域,這種模仿能力是有限的,不保證與被模仿者(計算和邏輯)完全相同,所以有時成功有時失敗。當模仿失敗時,表現(xiàn)往往很奇葩,給人感覺好像大模型產生了“幻覺”。其實大模型不可能產生幻覺,是人由于解釋、理解不了大模型的奇異表現(xiàn),對大模型產生了幻覺。
上面的分析對于大模型的應用有實際意義。比如在工業(yè)應用中,需要提取應用領域的專業(yè)知識。有人說大模型里就有很多知識,夠用了。其實專業(yè)知識必須建立在邏輯的基礎上,由于大模型沒有邏輯和數學的基本能力,所以它存儲的不是知識,而是資訊。資訊中的很大比例可以轉化為知識,因此我們需要識別哪些資訊可以轉化為知識,哪些不能轉化。在這方面,目前還沒有看到相關的研究成果。同時,通用大模型缺乏工業(yè)領域的訓練數據,也就沒有工業(yè)領域的資訊,更談不上專業(yè)知識了,所以也不可能通過轉化得到專業(yè)知識。由此可見,通用大模型并不能簡單地應用于工業(yè)領域。
綜合各方面情況,雖然大模型在人機交互等方面進展很大,但在工業(yè)和其他一些專業(yè)領域的應用仍然面臨著重大挑戰(zhàn),其中包含一個基礎性課題——邏輯增強。
三、垂直領域大模型和邏輯增強
我們進一步梳理、總結大模型的主要特性。通過這些特性,可以更明確地認識到邏輯增強的必要性。
第一個特性:大模型沒有邏輯能力。有時大模型對邏輯問題的回答是正確的,為什么說它沒有?根據計算機科學的標準,如果一個程序具有某種計算能力,那它在相關的運算中必須永遠是正確的,否則就是沒有這種能力。顯然,計算機科學的這種標準保證了程序的可靠性,如果允許程序有時對有時錯,那就沒有可靠性可言。根據這一標準,大模型不具備計數、等量代換,邏輯否定、約束滿足、傳遞性推理等數學和邏輯的基本能力。但在某些情況下,大模型可以模仿這些能力,所以大模型在這些能力上的表現(xiàn)是不可靠的。不能因為有時它在某個功能上的表現(xiàn)是對的,就以為它永遠是對的。最近一位菲爾茲獎獲得者發(fā)現(xiàn),當測試問題涉及隱式邏輯關系時,大模型回答的錯誤率比正確率高得多,有時甚至超過100比1。在很多垂直領域,應用需要的恰恰是符合計算機科學標準的那種可靠性或高可信度。
第二個特性:大模型能回答任何問題,但不保證回答總是正確的?,F(xiàn)在用類Lc理論可以證明這個結論,而不是單純看實驗結果。根據三條公理,可以證明關聯(lián)度預測能夠回答任何問題。但根據第一個特性,無法保證回答總是正確的。
第三個特性:大模型與人之間只有弱共識。這個特性可能不太容易理解,但這一條可能是最重要的。大概意思是說,字詞之間的統(tǒng)計關聯(lián),因為是從語料中提取出來的,所以和多數人是一致的,此外大模型沒有其他語義。比如大模型不知道一個詞本身是什么意思,但它知道這個詞跟別的詞是如何關聯(lián)的。于是,你和大模型對話的時候,你怎么理解大模型都可以,不同的人對大模型輸出的同一句話可以有不同的理解,都是可以的。所以在關聯(lián)度預測機制下,大模型不跟用戶吵架,用戶說什么它都說對。為什么?因為很多意思它根本就沒有,所以也不會與用戶的意思發(fā)生矛盾,這樣就吵不起來。但是,過去的AI和軟件都要求強共識,所以我們要學習編程,通過學習達成強共識,否則你就用不好軟件??墒谴竽P蜎]有強共識,只有弱共識,所以通過自然語言對話人人都可以使用大模型。這就解釋了為什么大模型好用,原因在于弱共識性。
總結起來,我們發(fā)現(xiàn)大模型的工作原理跟人的智能的原理有所不同。這符合圖靈的機器智能觀,所以大模型再次驗證了圖靈的機器智能觀。
我們把機器智能與人的智能的關系總結為一句話:青似于藍而異于藍。這意味著,兩種智能永遠都不會完全一樣,不用擔心大模型將來變得跟人一樣,永遠沒有這種可能性。但是,也不要以為它不跟你一樣,就不會超過你。它用它的方式超過,以人不易覺察、不易理解的方式突然超過,有些方面可以超過得更快、風險更大。
在一些垂直領域,中國的機會非常大,因為中國的實體經濟規(guī)模龐大,尤其中國的制造業(yè)體量龐大,對垂直領域大模型有很多需求。有些國家大部分制造業(yè)都轉移了,主要需求集中在虛擬經濟和服務業(yè),所以通用大模型對他們更重要。
前面提到,垂直領域的應用往往要求可靠性,比如生產過程就要求很高的可靠性,不可能像聊天那樣,聊得嗨比對錯更重要。但是大模型提供的資訊是不可靠的,所以對大模型的回答需要人工判斷對錯,這在工業(yè)等垂直領域用起來就非常麻煩,難以滿足工業(yè)生產中設備高速運轉的實際要求。
所以在垂直領域,大模型研究面臨挑戰(zhàn),目前應該仍然處于0到1的階段。垂直領域大模型需要滿足哪些要求?第一,專業(yè)性,不是有回答就夠了,還需要滿足專業(yè)標準。第二,具有可靠性或高可信度。第三,可操作性,專業(yè)領域需要一些專門的操作,大模型本身并沒有這些操作,它靠激發(fā),但激發(fā)不保證功能的正確實現(xiàn)。還有其他一些要求,這里省略。
垂直領域大模型的操作有哪些?這是別人提出的一些基本操作:一個是檢索,在垂直領域需要檢索特定的結果,而大模型給你的回答未必是你想要的東西,所以這里說的檢索是完全可控的,用戶想要什么就提取什么。第二,分類,即把對象分成不同的類。第三,比較,對不同對象的屬性進行比較。第四,反向搜索,找到符合條件的對象。大模型不具備這些功能。
另外,還需要一些高級功能,包括:1.易用性,大模型一做專業(yè)操作,它的易用性就下降了,過去的一些AI技術功能強大,但是不易用。現(xiàn)在這個挑戰(zhàn)依然存在,要讓常用操作易用。2. 知所知,即知道自己知道什么。大模型不具備知所知能力,有時它有答案,但是它不回答你(它說別的沒用的),需要你激發(fā)它。3.知不知,即知道自己不知道什么。大模型也不具備知不知的能力,即使它沒有正確答案,它還是會回答你,結果回答錯誤。
上面提到的這些,很多屬于邏輯增強的內容,比如知所知、知不知是元級邏輯功能,基本操作屬于基礎性邏輯功能。
垂直領域現(xiàn)在有很多人在做,國內國外都有,這是6月份剛剛發(fā)布的一個結果,其目標是驗證大模型的回答是否正確,以提高回答的可靠性程度。作者設計了一些算法,讓大模型自己進行驗證,所以馬上就跑起來了,而且取得了一定效果。其中一個數據集上,測試結果的準確率達到了99.60%,不過這個數據集比較簡單。其他幾個數據集上只有80%多。對于垂直領域來說,一般需要達到99%以上的準確率,現(xiàn)在差距還很大。所以垂直領域大模型有很多工作要做。從科研的角度,有很大的空間;從應用的角度,也有很大的空間可以去努力。
最后對人工智能發(fā)展的全貌做個補充說明。現(xiàn)在大模型是最熱的,這不等于人工智能只有大模型。除了生成式人工智能,還有規(guī)劃式人工智能,比如現(xiàn)在的外賣很快就送來了,大量的騎手、大量的訂單為什么那么快?因為人工智能在派單,并規(guī)劃騎手的送單路線,使得效率大大提高。這種技術并非只適用于外賣,大量場景都可以用。還有分析式人工智能,用于發(fā)現(xiàn)數據中的復雜模式。現(xiàn)在自然科學的各個學科都在做,用的方法以深度學習為主,不是大模型,叫做AI for Science。預期未來幾年,有可能出現(xiàn)科學發(fā)現(xiàn)的快速推進,非常值得期待。第四種是智能化裝備,包括智能機器人,在物理空間中完成自主、半自主操作,在實體經濟特別是制造業(yè)有巨大的應用前景。
事實上,發(fā)展人工智能我們有很多選擇。從風險來看,其他三種類型都是低風險,大模型有的時候是高風險,在垂直領域的應用是低風險。那么,有沒有可能先推進一些低風險、高效能的人工智能應用呢?我認為有兩個重點,它們都面臨著越來越嚴重的用工荒。一個是智慧農業(yè)和現(xiàn)代農業(yè),另一個是傳統(tǒng)制造業(yè)的高端化。過去有一種看法,認為制造業(yè)的中低端可以不要了,轉移到東南亞和其他地方去。現(xiàn)在發(fā)現(xiàn)不行,因為中國制造業(yè)的80%都是中低端,如果中低端都走了那怎么辦?回到改開前大量消費品依靠進口的老路上去嗎?現(xiàn)在提出中低端往上走,中低端變成高端,這個市場就太大了,能做的事情太多了。
人工智能的研究和應用有非常大的發(fā)展空間,讓我們共同努力!
(本文根據作者報告的速記稿整理加工而成)