【摘要】以大數(shù)據(jù)、強算力、多模態(tài)和高維度等訓練出來的人工智能大模型愈發(fā)智能,體現(xiàn)出類人的“聰明”?;谙到y(tǒng)穩(wěn)定性、功能有效性和優(yōu)化可能性要求,大模型將注意力機制嵌入系統(tǒng)之中,使基于不同數(shù)據(jù)訓練出來的不同大模型在處理數(shù)據(jù)時體現(xiàn)出表征收斂的趨向。大模型的表征收斂,一方面,顯示出基于神經(jīng)網(wǎng)絡的深度學習具有實現(xiàn)通用人工智能的技術(shù)潛質(zhì);另一方面,也印證了大數(shù)據(jù)挖掘、大模型超越、強算力迭代和高維度透視所形成的智能具有類人性。因此,雖然人工智能大模型的表征收斂是人工智能智能性的技術(shù)體現(xiàn),本質(zhì)上卻是以人類本質(zhì)力量對象化的方式考問智能本質(zhì)的哲學追問。與其說是大模型試圖表示現(xiàn)實模型的穩(wěn)定性推動了系統(tǒng)的表征收斂,倒不如說是大模型以“挖掘即認知”“學習獲智能”“高維達簡潔”對觀測的經(jīng)驗升華構(gòu)成了表征收斂的智能動因。
【關(guān)鍵詞】表征收斂 哲學敘事 大模型 人工智能
【中圖分類號】TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.14.005
【作者簡介】涂良川,華南師范大學馬克思主義學院副院長、教授、博導,廣東省習近平新時代中國特色社會主義思想研究中心特約研究員。研究方向為人工智能哲學、馬克思主義哲學基礎(chǔ)理論和政治哲學研究。主要著作有《馬克思政治哲學視域中的分配正義問題研究》、《在正義與解放之間——馬克思正義觀的四重維度》、《歷史唯物主義與政治哲學》(合著)等。
由大語言模型所支持的Sora獲得了巨大成功,說明今天的人工智能大模型具有了超越內(nèi)容的跨越性。近期,麻省理工學院研究團隊發(fā)表了名為《柏拉圖式的表征假說》的研究論文,更提出“人工智能模型,特別是深度網(wǎng)絡中的表征正在收斂”[1]。雖然,工程學的成功和理論研究成果都難以證明基于人工神經(jīng)網(wǎng)絡的、不可解釋的大模型已經(jīng)實現(xiàn)了通用人工智能,并有觸發(fā)人工智能奇點的可能性。[2]但具有表征收斂“能力”的人工智能不僅能夠通過“圖靈測試”,而且表明基于大模型的人工智能“正確地生成知識并作出預測是可能的”[3]。也就是說,人工智能的表征收斂,不僅意味著不同的人工智能模型(比如語言模型和視覺模型)挖掘數(shù)據(jù)的結(jié)果具有一致性,從而證明數(shù)據(jù)描述對象的客觀性與穩(wěn)定性,而且充分表明大模型正在獲得超數(shù)據(jù)、跨模型的表征能力,強算力、多參數(shù)、高維度和難解釋的大模型“正在生成一個類似于柏拉圖理念論的現(xiàn)實統(tǒng)計模型”[4],呈現(xiàn)大模型表征方式的一致性,以及能夠在數(shù)據(jù)挖掘中獲得認知的能力。由此,人工智能大模型表征收斂的意義,顯然超越了人工智能技術(shù)要求的運行邏輯一致性、功能實現(xiàn)穩(wěn)定性和系統(tǒng)優(yōu)化連續(xù)性,深入到了人工智能之智能本質(zhì)之中。因為大模型的表征收斂不是物理世界的魯棒性在計算邏輯中的表達,而是由大模型處理數(shù)據(jù)的機制、學習定義的規(guī)則和校驗形成的改進而得以保障。大模型的“人工神經(jīng)網(wǎng)絡模仿的是大腦神經(jīng)回路的機制,并被成功地應用于機器學習”[5],其表征收斂,不僅是對這一模仿行為有效性的證明,也是對人類智能之智能特性的表達。因此,大模型所構(gòu)建的挖掘機制、實現(xiàn)的跨越能力和達到的高維透視,雖然依然是“大數(shù)據(jù)小任務”和“大數(shù)據(jù)大任務”,離人類經(jīng)驗觀察獲得智能“小數(shù)據(jù)大任務”的機制還有一定差距,但卻肯定了機器智能表達是挖掘數(shù)據(jù)的學習、窮盡可能的通用和跨越領(lǐng)域的統(tǒng)一,并正在以“越來越相似的方式測量數(shù)據(jù)單元之間的距離”,“表征數(shù)據(jù)的方式也在變得越發(fā)一致”。[6]顯然,大模型表征收斂的意義,不僅在于其以機器智能的方式再一次肯認了經(jīng)驗世界穩(wěn)定性這一唯物主義原則,而且更以人類本質(zhì)力量對象化的方式證明了人“自己思維的真理性”,即自己思維的“現(xiàn)實性和力量”[7]。
數(shù)據(jù)表存在與挖掘即認知
大模型的表征收斂在技術(shù)邏輯中體現(xiàn)為模型邏輯應對任務的靈活性,使其超越了“經(jīng)典符號人工智能或GOFAI開創(chuàng)”的“問題的計算機表示”的“部分搜索”,[8]在建構(gòu)問題的新表示中,既能夠搜索不同空間,又能夠形成應對問題的有效策略。一方面,這意味著達到表征收斂的大模型已然能夠通過“圖靈測試”并具有了智能,[9]另一方面,也表明人工智能挖掘數(shù)據(jù)能夠獲得對數(shù)據(jù)對象穩(wěn)定的認知。因此,大模型的表征收斂不僅為人工智能技術(shù)發(fā)展提供了新的便利,還表明認知本身具有相對穩(wěn)定的一般結(jié)構(gòu)。大模型基于大數(shù)據(jù)訓練而成是不爭的事實,然而,大數(shù)據(jù)之“大”并非復刻整全存在的任意大,這既緣于技術(shù)本身的限制,也是大數(shù)據(jù)客觀存在的特質(zhì)。因此,經(jīng)由數(shù)據(jù)挖掘而獲得的收斂性并非是數(shù)據(jù)自身具有的客觀結(jié)構(gòu),而是大模型形成的內(nèi)部表征。大模型以此為邏輯的表征收斂,使基于數(shù)據(jù)的知識描述物理實體具有穩(wěn)定性、客觀性和可行性。雖然這不是傳統(tǒng)邏輯的一致性、不矛盾性和齊一性,但是其行為主義的有效性卻充分證明了挖掘即認知的重要觀念。
表征收斂是大模型表達數(shù)據(jù)特性的功能特性。當然,大模型的表征收斂不是直接把數(shù)據(jù)具有的收斂性復制進系統(tǒng),而是進入數(shù)據(jù)生成的結(jié)果之中才獲得對數(shù)據(jù)存在邏輯的認知。我們知道,“在解釋裝置如何工作時并不需要表征概念;只有在解釋裝置怎樣完成設(shè)計者預定的功能時才需要表征概念”[10]。表征收斂表面上看是系統(tǒng)的功能性特質(zhì),但是卻從根本上體現(xiàn)出大模型挖掘大數(shù)據(jù)的初衷和基本假設(shè)。大模型參考柏拉圖的“洞穴隱喻”,認為表征收斂的終點與核心原則是“不同的模型都只是從不同維度對現(xiàn)實的一種描述”[11]。當然,大模型的描述本身就是一種判斷,不同大模型基于不同維度處理了大數(shù)據(jù)本身。然而,“所有數(shù)據(jù)都是由人類生成的”,“數(shù)據(jù)是由社會構(gòu)建的”。[12]無論是數(shù)據(jù)表達,還是從數(shù)據(jù)中獲得的規(guī)律,都不再是被“洞穴”之外的普照光投射到影壁上的描述。人類生成數(shù)據(jù)、社會建構(gòu)數(shù)據(jù)“并不是隨心所欲地創(chuàng)造,并不是在他們自己選定的條件下創(chuàng)造,而是在直接碰到的、既定的、從過去承繼下來的條件下創(chuàng)造”[13]出來的數(shù)據(jù)。因此,數(shù)據(jù)作為抽象的對象,并不能構(gòu)成大模型的因果性輸入,而只能是被重新還原的“洞穴上的陰影”[14]。雖然大模型在數(shù)據(jù)訓練的直接性上面對的是封閉系統(tǒng)內(nèi)的特質(zhì)問題,但是卻不必依賴于布倫塔諾的“心理現(xiàn)象不是由物理規(guī)律而是由心理規(guī)律本身決定”[15]的假設(shè),就可以在模型表征中對齊數(shù)據(jù)并獲得有效預測。究其原因,無論是歷史唯物主義所保障的人類社會行為的穩(wěn)定性中內(nèi)蘊的數(shù)據(jù)收斂性,還是普特南“收斂現(xiàn)實主義”的哲學確認,都指向數(shù)據(jù)存在的對齊本性。當然,大模型并沒有把數(shù)據(jù)作為物理主義的假設(shè),而是“使用編程語言描述的數(shù)學定義以及關(guān)于其數(shù)據(jù)結(jié)構(gòu)的公理”[16]來證明數(shù)據(jù)刻畫事實的有效性,也就必然會表達為表征的收斂性。
大模型的表征收斂不僅事實性地證明了數(shù)據(jù)表征存在的穩(wěn)定性與客觀性,而且表明大模型挖掘的認識活動具有收斂性。大模型挖掘即認知的“創(chuàng)構(gòu)認識論”[17]范式成功搭建了“‘安娜·卡列尼亞’場景”[18]。一方面,不同結(jié)構(gòu)良好的大模型并不會影響數(shù)據(jù)表達的存在,因為不同大模型都是以同樣的機制表達著世界的可能性。今天的大模型不僅都是以具有反向傳遞性的神經(jīng)網(wǎng)絡作為物理結(jié)構(gòu),而且都是以深度學習作為認知邏輯。因此,大模型的不同模型不過是“條條大路通羅馬”的“條條大路”,都只是把“內(nèi)部結(jié)構(gòu)插入其中”而已。[19]另一方面,大模型之大本身就蘊涵著“越多越好”[20]的原則,越多的數(shù)據(jù)、參數(shù)和訓練交織形成復雜性越能保證表征的收斂性。雖然量大首先是基于技術(shù)設(shè)計的考量和表征逼近的方便,但其本身既意味著數(shù)據(jù)刻畫對象維度的復雜和視角的全面,又說明了動態(tài)修正和不斷優(yōu)化才是保證對齊和收斂的根本方式。由此看來,大模型的表征收斂堅持了唯物主義對象穩(wěn)定性的原則,卻又不是從規(guī)定原則來分析對象的客觀性。因此,一方面,數(shù)據(jù)這種基于信息的存在,作為大模型挖掘的對象向大模型本身敞開其內(nèi)在的結(jié)構(gòu),另一方面,大模型也建構(gòu)了大數(shù)據(jù)表達自身的結(jié)構(gòu)。由此可見,大模型的表征收斂是大數(shù)據(jù)與大模型雙向奔赴的結(jié)果。大模型的大參數(shù)和大訓練顯然不是對大數(shù)據(jù)同一維度的重復加總,也并非是在追求絕對全面中呈現(xiàn)大數(shù)據(jù)刻畫對象不可見的一面,而是堅持特征向量具有的魯棒性?;蛘哒f,大參數(shù)和大訓練本身接受了康托集和哥德爾不完全定理的哲學訓誡,以挖掘認知的穩(wěn)定性而不是“實在的自洽觀念”[21]來保障表征的收斂性。由此帶來的深層哲學意涵則是,“大”所支撐的表征收斂本身體現(xiàn)了創(chuàng)構(gòu)數(shù)據(jù)的人類實踐的穩(wěn)定性,大參數(shù)與大訓練則構(gòu)成了穩(wěn)定性的另一重隱喻。即在認知中,客觀實在、對象的自洽等并非是認知成果一致性的必要條件,經(jīng)由人創(chuàng)構(gòu)的機制本身也可以保住表征的收斂性,并“標志著我們已然觸到了實在界/真實(the real)”[22]。
因此,雖然訓練數(shù)據(jù)在表征收斂中具有基礎(chǔ)性意義,但卻并非是數(shù)據(jù)本體結(jié)構(gòu)向大模型認知結(jié)構(gòu)的直觀遷移,而是以數(shù)據(jù)表存在的認知通過建構(gòu)和挖掘獲得認知穩(wěn)定性的新驗證。大模型依賴訓練數(shù)據(jù)生成系統(tǒng)能力意味著大模型生成的對象、預測的結(jié)論和產(chǎn)生的規(guī)范,都是由模型的結(jié)構(gòu)和數(shù)據(jù)的特性雙重規(guī)定的。一方面,雖然大模型對數(shù)據(jù)的挖掘既能夠呈現(xiàn)數(shù)據(jù)既有的內(nèi)在基本結(jié)構(gòu),又能夠擴展其可能的相互聯(lián)結(jié),但是數(shù)據(jù)既有的約束性是大模型運行的規(guī)定性卻是不爭事實。另一方面,數(shù)據(jù)本身又是一個開放性的結(jié)構(gòu),這既是由數(shù)據(jù)產(chǎn)生的邏輯決定的,又是由大模型挖掘數(shù)據(jù)本身所推動的。因此,當數(shù)據(jù)描述事實、再構(gòu)事實和檢視事實的時候,就既不是前定邏輯的再現(xiàn),也不是任意組合的混亂,更不是神創(chuàng)論的無中生有。大模型要實現(xiàn)功能有效性,必須在其挖掘數(shù)據(jù)來實現(xiàn)“抽象-具象”生成[23]、功能有效預測時遵循某種基本規(guī)則。而且事實證明,大模型特別是視覺大模型“與人類在一系列識別任務中的表現(xiàn)是相匹配的”[24]。也就是說,雖然大模型挖掘數(shù)據(jù)的過程具有弱可解釋性甚至黑箱屬性,但是其遵從數(shù)據(jù)的客觀性使其表征收斂獲得了“本體論承諾”,而大模型基于不同觀念、功能和算法的挖掘獲得了處理能力,既在描述客體、預測結(jié)果和處理任務等方面表現(xiàn)出趨同性,又在處理數(shù)據(jù)的表征能力上呈現(xiàn)收斂性。顯然,經(jīng)由大模型挖掘的數(shù)據(jù),一是進一步呈現(xiàn)了其中隱藏的可能性;二是形成了對大模型表征能力的限制;三是超越了數(shù)據(jù)本身,呈現(xiàn)了新的理想性。如此看來,當大模型立足于數(shù)據(jù)在生成系統(tǒng)的處理能力時,一方面,在唯物主義層面上貫徹了“萬物源于比特”[25]的存在論原則,以表征的收斂性回避了“中文屋”的詰難,使“計算機可以通過操縱字符串做到即使并不理解問題含義,也能給出似乎理解了的答案”[26]。另一方面,大模型的表征收斂本身意味著,基于數(shù)據(jù)挖掘所形成的認知事實上是一種“參與型”的認知,[27]這既以高階自動化的技術(shù)邏輯肯定了“我們是通過觀察和研究行為來理解世界”[28]的事實,又意味著以思維建構(gòu)的大模型在大數(shù)據(jù)的訓練中,能夠獲得穩(wěn)定的理解世界的方式,這已被諸如AlphaFold等科研助手的強大功能所證明。
如此看來,大模型的表征收斂具有超越人工智能系統(tǒng)完備性和功能性的人類學意義。大模型不是將數(shù)據(jù)作為物理系統(tǒng)和社會歷史映射對象的產(chǎn)物,從而在數(shù)據(jù)的趨同性中獲得表征的收斂性。大模型的表征收斂顯然不僅是海量參數(shù)、巨量數(shù)據(jù)和強大算力帶來的技術(shù)穩(wěn)定性與功能一致性,更是對智能認知內(nèi)涵與邏輯的時代性拓展與歷史性創(chuàng)新:其一,人類認知成果的內(nèi)容和結(jié)構(gòu)由人類自身參與建構(gòu);其二,人類創(chuàng)建的高階自動化體系獲得了認知能力;其三,智能的認知既是還原與解釋對象的自洽邏輯,更是生成全新內(nèi)容的建構(gòu)邏輯。因此,與其說大模型肯定了數(shù)據(jù)之后的數(shù)據(jù)挖掘結(jié)果具有重要意義,是人類既有知識的豐富與擴展,倒不如說大模型以獨特的運行機制提出了人類智能自我理解和發(fā)展的道路問題。
“大力出奇跡”與學習獲智能
一方面,大模型以超強算力將人類智能費時費力也難以發(fā)現(xiàn)的事實揭示出來,超越了生物智能的有限性,使其表征收斂的結(jié)論不僅構(gòu)成了知識的全新內(nèi)容,而且深化了自近代以來注意經(jīng)驗形而上學的認知觀念,并以反向傳遞內(nèi)化經(jīng)驗為先驗方式揭示了人類實踐改變認識方式的具體過程。另一方面,大模型以超強算力體現(xiàn)出的表征收斂獲得了生成式能力,確證了深度學習獲得智能的事實。大模型的表征收斂使“我們有了一種新型的知識,它讓我們無須借助數(shù)學分析進行理解,便可以作出預測”[29]、生成對象和驗證結(jié)論。顯然,如此的成績緣于大模型不斷以強大的算力從數(shù)據(jù)中進行學習。雖然大模型的底層學習邏輯是對控制輸入與輸出的參數(shù)進行修正,但這一學習過程使大模型刻畫的既有對象更加完美,通過“模型縫合”[30]形成了參數(shù)之間的交叉影響與相互制約,從而管理和更新“在不同模型中擁有相同概念的神經(jīng)元”[31]。
大模型是在強大算力加持下,化經(jīng)驗為數(shù)據(jù),以數(shù)據(jù)為基礎(chǔ)進行的系統(tǒng)的自我建構(gòu),[32]在迭代中達到的表征收斂是學習成智的機器表達。在技術(shù)領(lǐng)域內(nèi)已形成這樣的基本共識,即模型的規(guī)律擴大和性能提升推進了模型表征數(shù)據(jù)的對齊能力。[33]支持大模型有如此表現(xiàn)的根本在于大模型處理大數(shù)據(jù)時的強算力。顯然,強算力以獨特的方式支持了大模型的表征收斂。從發(fā)生學的角度看,強算力可以充分挖掘數(shù)據(jù)刻畫對象的邏輯與方式。一方面,強算力使計算概率、判斷回歸和校驗齊一的計算行為獲得了類概念的表達能力,使模型既學習到了數(shù)據(jù)刻畫對象的邏輯,又學習到了數(shù)據(jù)中蘊涵的邏輯,從對象存在對齊的層面和刻畫對象對齊的層面保證了表征收斂的可能性。另一方面,強算力的迭代雖然不斷地調(diào)用模型的基本規(guī)則,卻是以經(jīng)驗先驗化的方式不斷審視大模型表征能力自身。強算力的時間疊加不僅能夠保障數(shù)據(jù)挖掘的寬度與廣度,而且“具有類似的內(nèi)部活動”,并且“隨著模型擴展的持續(xù)積累,模型的表征對齊的能力也會隨著時間的推移而增強”。[34]再一方面,大模型的強算力使得多層網(wǎng)絡在技術(shù)上具有可行性,在深度學習上可收斂,其在保障結(jié)果收斂的過程中不再依賴因果邏輯將數(shù)轉(zhuǎn)換成智,而是將“無理變?yōu)榉蔷€性的有理”[35],這在機器學習中體現(xiàn)為“通過可能的隱性或顯性正則化極度降低經(jīng)驗風險”[36],而在哲學上則表達為大模型獲得了類概念的理解力和處理力。當然,這里的理解顯然就是表征收斂的一致性刻畫能力、預測邏輯和調(diào)適過程。大模型訓練之所以極度依賴強算力,一方面是因為達到表征收斂本身是多層嵌入縫合的結(jié)果,而這本身就是一個極度消耗算力的過程,另一方面則是因為表征收斂是通過整合“簡單的表示來表達復雜表示”[37]達到的,而這意味著多層迭代。因此,強算力賦予大模型提取數(shù)據(jù)信息、形成模式判斷、呈現(xiàn)有效規(guī)劃的表征收斂性,使其具有“從對象化樣本(比如許多葉子圖像)學到非對象化的對象識別(比如辨認出從未見過的或千變?nèi)f化的葉子)的能力”[38]。這既是滿足大模型技術(shù)初衷的智能學習,又體現(xiàn)了大算力、高強度和多對象的學習是“累事成識”“化識為釋”“升釋獲智”[39]的重要方式。
大模型的表征收斂特別強調(diào)與強算力直接相關(guān)的規(guī)模與性能,原因在于大模型學習本身是高度復雜的數(shù)據(jù)學習,這也意味著學習獲智是一個長期的、開放的過程。就大模型表征收斂的存在論指向而言,大模型的表征收斂絕不意味著人工智能達到了全知全能的“奇點”[40]狀態(tài)。大模型的“神經(jīng)網(wǎng)絡與大腦中的生物表征表現(xiàn)出實質(zhì)性的一致性”[41],本身就是由積累而生成的開放性,并具有三方面的意義:其一,表征收斂是“大力出奇跡”所呈現(xiàn)的大規(guī)模處理數(shù)據(jù)、形成策略和解決問題的邏輯穩(wěn)定性和功能穩(wěn)定性,而非系統(tǒng)的封閉性。否則,大模型的表征收斂就會走向其反面:如果大模型的表征收斂運作良好,那么大模型的邏輯就會固化、功能就會單一,[42]從而與大模型表征收斂通用化的事實與追求相悖。其二,大模型強算力與大規(guī)模所集成的是人類社會歷史生成的“一般智力”[43],其加持的物質(zhì)體系獲得表征收斂性并不是物質(zhì)體系自在發(fā)展的成果,而是人類智能激活物性力量的成果。因此,大模型收斂性是“以大力出奇跡”的方式“對現(xiàn)有文化的大規(guī)模挪用”[44]所獲得的發(fā)展性。這顯然預示著大模型不僅作為人工智能的物質(zhì)體系具有強大的力量,也必然構(gòu)成當今人類智能的組成部分,更表明大模型“大力出奇跡”的學習具有活動的穩(wěn)定性、知識邏輯的延續(xù)性和智能內(nèi)容的開放性。大模型“大力出奇跡”本身并非是靠量取勝的機械積累,而是一個以深度學習表達獲取智能的過程。[45]其三,大模型的表征收斂是“大力出奇跡”的學習所獲得的一種“能力”,是由既定現(xiàn)實規(guī)定和潛在現(xiàn)實引領(lǐng)的收斂性?;蛘哒f,大模型收斂性并非是由喬姆斯基的“抄襲斷定”[46]所決定的,而是由大規(guī)模本身依據(jù)的學習機制所形成的。一方面,“大力出奇跡”的機制能夠在大模型的學習中直接實現(xiàn)“吃一塹長一智”的積累機制,從而使模型在調(diào)節(jié)參數(shù)、形成連接和衍生關(guān)系時實現(xiàn)自我學習機制的迭代改進;另一方面,“大力出奇跡”能夠使系統(tǒng)同時兼顧輸入系統(tǒng)的“外部經(jīng)驗”與系統(tǒng)生成的“內(nèi)部經(jīng)驗”,并通過遞歸的、有限的“無上限自舉(bootstrap heaven)”[47]而實現(xiàn)內(nèi)外的一致性。因此,以大語言模型為代表的大模型不僅具有專業(yè)領(lǐng)域的適配性,而且還具有通用領(lǐng)域的穩(wěn)定性。表面上看,這是因為大模型“大力出奇跡”能夠盡可能地實現(xiàn)分析的邏輯可能性,本質(zhì)上而言卻呈現(xiàn)出大模型學習的可行性和習以獲智的必然性。當然,也正是因為大模型本身內(nèi)置了“大力出奇跡”的原則,雖產(chǎn)生了難以闡明的智能過程的黑箱問題,但從根本上肯定了學習獲智是智能發(fā)展的基本方式。
大模型的表征收斂并非是以高容量模型來窮舉復雜多樣的內(nèi)容信息形成的有限歸納,而是以大模型本身的“大力”去表達信息有效的結(jié)構(gòu)。或者說,大模型的表征收斂不是暴力計算的還原論,不是“通過簡單現(xiàn)象的疊加‘涌現(xiàn)’出來”[48]的一致性和穩(wěn)定性,而是在實際對比的學習中建構(gòu)起獨立于時間和空間的表現(xiàn)形式。大模型的表征收斂有兩個基本面:一是“信息等同于底層世界的信息”[49]的收斂性,二是轉(zhuǎn)換信息能力的收斂性。顯然,這兩種收斂都不是事先定義好標準和目的的收斂,而是寬容信息的增減,并是利用隨機機制基于“經(jīng)驗數(shù)據(jù)的方法”[50]達到的收斂。因此,收斂的大模型和大模型的收斂,本身只是以“大力出奇跡”的方式“找到了一條較好的路徑”[51],但并非是最好或最佳的唯一路徑,這一事實已被不同公司開發(fā)的大模型表現(xiàn)出同一能力的收斂性所證明。當然,無論是體現(xiàn)為結(jié)果的收斂性,還是呈現(xiàn)為挖掘數(shù)據(jù)能力的收斂性,本身都表達知識的有效性,能夠有效地解釋更多發(fā)生的現(xiàn)象、深入地挖掘更多的可能、高效地實現(xiàn)更遠的目標,等等。比如,“訓練有素的自動回歸生成文本的模型還捕獲了許多其他模式的統(tǒng)計關(guān)系,如符號推理、視覺生成、蛋白質(zhì)折疊和機器人學”[52]。無論這一過程是自上而下還是自下而上,大模型的表征收斂本身就意味著不斷的學習本身可以增加系統(tǒng)的智識穩(wěn)定性,這一方面緣于大模型神經(jīng)網(wǎng)絡的可塑性,另一方面則與“大力出奇跡”的學習相關(guān)。因此,大模型本身就是不斷“改進對經(jīng)驗的表征,就是通過已有的內(nèi)在條件對外部實在作出適當?shù)谋碚?rdquo;[53],事實上就是以支持隱喻的方式肯定了“實踐出真知”這一基本的認識論命題。大模型以“大力出奇跡”的方式不斷地將系統(tǒng)運行的結(jié)論(可能是外在干預的,可能是預先設(shè)定的,可能是動態(tài)判定的)內(nèi)化為系統(tǒng)表征的構(gòu)成要素。
因此看來,大模型的表征收斂雖然是“大力出奇跡”的技術(shù)成功,但本質(zhì)上卻指向了學習尤其是充分而有效的學習之于智能的意義與價值。大模型的表征收斂之所以能夠突破傳統(tǒng)人工智能“大數(shù)據(jù)小任務”的限制,在于其引入了學習機制。不論是向?qū)ο髮W習的復刻式再現(xiàn),還是向自我學習的反思式改進,都是獲取穩(wěn)定知識的不二途徑。無論是對人還是對人工智能,在“智力的獲得是人與外界交流學習的結(jié)果”[54]這一點上是相同的。因此,人工智能表征的收斂必然依賴于數(shù)據(jù)的大、算力的強和領(lǐng)域的廣。這意味著人工智能這一“以我們自身的形象創(chuàng)造的、具有智能的人工造物”[55]正在以社會歷史性的力量拓展我們的認知、擴展我們的視野、豐富我們的知識。因此,人工智能大模型的成功,不僅意味著人類獲智的方式得到了拓展,更意味著人類智能必須學習新的內(nèi)容,人工智能大模型已然成為人類學習必須面對的客觀對象。
跨越現(xiàn)統(tǒng)一與高維達簡潔
大模型的表征收斂意味不同模型通過訓練后具有處理數(shù)據(jù)能力的一致性,這對于當今人工智能一直追求的通用化絕對是一個利好的進展。按照一般的觀點看,這是大模型高度的復雜性“涌現(xiàn)”出來的智能所致,不過仔細分析就會發(fā)現(xiàn),大模型雖然存在黑箱的解釋難題,但卻以強大的算力實現(xiàn)了數(shù)據(jù)的高維處理。而大模型本身又是以指令、存儲和自動運行為基本邏輯,這使得大模型可以在高維中以多模型的轉(zhuǎn)譯來再造真實、以浸入式讀寫來豐富知識、以通用化生成來生成現(xiàn)實。[56]因此,大模型表征收斂顯然不是其處理數(shù)據(jù)維度的收斂性,而是高維達到的降維的簡潔。一方面,“不要從技術(shù)角度想,從哲學高度想”[57]大模型的表征收斂,才能夠真實地把握為什么不同模型表示數(shù)據(jù)的方式愈發(fā)一致。另一方面,大模型的表征收斂本身既是技術(shù)標準和目的之事,更是以技術(shù)方式展示的智能之事。
大模型拼接不同模型,表面上增加了表征收斂的復雜度,實質(zhì)上卻通過增加維度的方式實現(xiàn)了模型類別的跨越。從當前人工智能的發(fā)展路徑看,系統(tǒng)的冗余雖有限度,但卻允許增加維度的模型拼接。顯然,這并非表明一個經(jīng)過系統(tǒng)訓練后的模型就能夠直接運用于其他模型之中,而是表明不同種類的組合、處理維度的增加并非把系統(tǒng)的表征能力推向發(fā)散的方向,恰恰相反,其反而加強了系統(tǒng)的收斂性。即是說,拼接之后的高維度系統(tǒng)對于降維之后的對象而言更具有簡潔性的表征能力。因此,今天的大模型之所以特別依賴于強算力和大數(shù)據(jù),雖然有通過挖掘數(shù)據(jù)適配更多情形的動因,但卻更是為了讓系統(tǒng)能夠獲得高維的處理能力。只有高維度地解析屬性、分析要素和組合特質(zhì),才能超越對象特殊屬性泛化成一般屬性的同維度歸納,使系統(tǒng)能夠在對特征的響應中更直接地把握整體,從而生成收斂性的表征能力。或者說,拼接的高維度事實上是大模型實現(xiàn)整體知覺的有效方式。一方面,如果沒有拼接的高維度,表達為數(shù)據(jù)的實體或經(jīng)驗不可能構(gòu)成表征收斂的存在規(guī)定性,大模型也不可能具有跨越的靈活性;另一方面,拼接雖然并非直接運用格式塔的接近律、相似律和連續(xù)律來實現(xiàn)模型的跨越,但是卻真正體現(xiàn)了大模型在設(shè)計中運用了人類認知的一般結(jié)構(gòu)。正如“人體解剖對于猴體解剖是一把鑰匙”[58]一樣,如此而來的大模型也就自然獲得了跨越的形而上學根據(jù);再一方面,大模型正是通過拼接獲得了類整體知覺的表征結(jié)構(gòu)。雖然其有邏輯推理的根據(jù),但卻是由高維度的數(shù)據(jù)挖掘來保障。大模型的拼接事實上構(gòu)造了一條整合以往經(jīng)驗的技術(shù)道路,從而為獲得跨越的簡潔奠定了存在論基礎(chǔ)??梢哉f,大模型的拼接構(gòu)造了一種結(jié)構(gòu),這種結(jié)構(gòu)既解決了蘊涵于數(shù)據(jù)的規(guī)律和特質(zhì)進入模型知識內(nèi)容的道路,使其具有更廣的適應性和更好的跨越性,又解決了模型“感知”對象的廣泛性問題,因為拼接的大模型能夠構(gòu)成一種高維度的“看”,同時這一過程充分實現(xiàn)了大模型輸入與輸出的簡化原則,即“得出一個最簡單、最有可能的形象去與刺激模式相匹配”[59],Sora所引發(fā)的一系列哲學議題就是最好的證明。
大模型雖然是由數(shù)據(jù)訓練出來的系統(tǒng),但是卻有“可以學習感知概念的表征”[60]能力,顯然不是概念基礎(chǔ)的物理再現(xiàn),而是高維計算收斂的簡潔智能。大模型是由多層神經(jīng)網(wǎng)絡構(gòu)成的高維計算體系,但卻能夠跨越視覺和語言模式,并以線性變換來實現(xiàn)同一表征的不同表達。大模型已創(chuàng)造出解決“高維并行計算”的諸多算法,多處理器協(xié)調(diào)、分布式系統(tǒng)和云計算等為高維度表征提供了可能。雖然引發(fā)了一直為人詬病的黑箱問題,但是卻以“站得高看得遠”的隱喻預示了大模型表征收斂的哲學意象。其一,高維度計算的并行響應,事實上和“大腦以并行的方式對景物的很多不同‘特征’進行響應,并以以往經(jīng)驗為指導,把這些特征組合成一個有意義的整體”[61]在邏輯上是同構(gòu)的。當然這并非簡單地因為硅基人工神經(jīng)網(wǎng)絡和碳基生物神經(jīng)網(wǎng)絡在物理結(jié)構(gòu)上的一致性,而是由于前者在面對任務、喚回記憶、跨越類別和泛化結(jié)構(gòu)等領(lǐng)域與后者的一致?;蛘哒f,雖然表征收斂直接達成了大模型和人腦認識能力與成效上的對齊,但實質(zhì)上卻是人類建構(gòu)高維結(jié)構(gòu)、統(tǒng)觀降維對象的一致性。這和人類通過復雜訓練來完成簡單任務,通過精深專業(yè)而達到觸類旁通并無二致。其二,大模型的表征收斂是高維的簡單計算在復雜函數(shù)約束化下的收斂性問題,高維為多任務的縮放、多通道的融合和多層面的交互提供了可能,這就從技術(shù)路徑上回避了哥德爾不完全定律對系統(tǒng)完備性要求的問題?;蛘哒f,高維計算“通過可能的隱性或顯示正則化降低了經(jīng)驗對系統(tǒng)收斂的影響”[62],使大模型能夠以升維的方式而非構(gòu)造完備系統(tǒng)的方式來解決系統(tǒng)表征原則的收斂性問題。一方面,這符合人類自近代以來注意經(jīng)驗形而上學本質(zhì)的哲學傳統(tǒng);另一方面,意味著大模型充分考慮了人類實踐活動中打破既定因果邏輯、開創(chuàng)全新聯(lián)結(jié)的客觀事實;再一方面,表明高維雖不能完全保證系統(tǒng)降維之后的完備性問題,但卻具有現(xiàn)實的實踐有效性。因此,作為邁向通用智能重要成果的大模型的表征收斂,如果是類人智能的“思維”,那么其“是否具有客觀的真理性,這不是一個理論的問題,而是一個實踐的問題”[63]。這也就是為什么在人工智能通用化的過程中,無論是技術(shù)專家還是哲學學者,都特別注重用以訓練人工智能大模型的原始數(shù)據(jù)的多與廣、真與大的根本原因之所在。因為對于大模型而言,高維的簡潔雖然表現(xiàn)了表征的穩(wěn)定性,但實質(zhì)上卻意味著在更高的維度上本身有可能形成簡單的透視和簡潔的規(guī)則。
大模型高維達簡潔的表征收斂,顯然不是對人腦智能的復刻,而是人類理智智能對象化具有的一種能力。因此,大模型推進通用智能實現(xiàn)本身并不意味著創(chuàng)造與人類等量齊觀的認知主體,而是再一次推進了人類認知追求超越的必要性。本質(zhì)上講,大模型的跨越模型呈現(xiàn)的表征的統(tǒng)一性,是借助于高維達簡潔的泛化來達成的一種智能模型的通用性。高維計算能夠在多模態(tài)認知、多任務處理和多層次生成方面幫助模型在其本身的泛化能力與模型結(jié)構(gòu)之間達到平衡狀態(tài),否則系統(tǒng)就會成為停不下來的圖靈機。一種模態(tài)的數(shù)據(jù)進行訓練,另一種模態(tài)的數(shù)據(jù)進行測試,再一種模態(tài)的數(shù)據(jù)表達生成,是常用且有效的技術(shù)開發(fā)方法,這種方法不僅是“檢驗模型在跨模態(tài)特征學習和共享表示學習方面的能力”[64]的重要方式,更能夠呈現(xiàn)模型本身跨越能力的關(guān)鍵。因為,只有高維計算才有可能挖掘出跨數(shù)據(jù)、跨模態(tài)和跨模型的邏輯結(jié)構(gòu),才能使大模型形成的判斷知識體系、生成對象的邏輯原則和處理對象的思維鏈條表現(xiàn)收斂性,成為具有公理的表征能力。[65]通觀大模型表征收斂跨越并實現(xiàn)統(tǒng)一的上述邏輯,可以發(fā)現(xiàn)這樣一個事實,即人類對智能本質(zhì)的理解、對思維邏輯的分析、對物質(zhì)力量的調(diào)用所構(gòu)成的高階自動化體系能夠獲得類人的智能。顯然,這并非物自發(fā)獲得了智能,也不是人類創(chuàng)造出來了跨越物種奇點論的全新主體,更不是“圖靈人”[66]必將成為人類未來宿命的暗示,而是現(xiàn)實性地說明在人工智能時代探討智能一直在途中。大模型的表征收斂作為人類自我認知旅途中創(chuàng)造出來的映射自我形象的存在,雖然存在著“數(shù)字的普遍理性”鄙夷受生物限定性的人之理智能力的可能,但卻永遠不可能理解也無法達到人類從高維降維和從低維升維的心智能力和歷史理性。因為,唯有人類智能才有秉持“高維即智能”的實踐智慧。
結(jié)論
誠如《三體》中所說,“基礎(chǔ)理論決定一切”[67],“柏拉圖式的表征假設(shè)”[68]決定了大模型表征必然收斂。這與其說是技術(shù)專家在為技術(shù)發(fā)展趨向?qū)で笮味蠈W的根基,倒不如說需要對人工智能自身的發(fā)展和特質(zhì)進行深入的哲學探討。雖然人工智能表征收斂體現(xiàn)出強大的功能,不僅使其成為創(chuàng)造知識的高階自動化體系,而且使得人工智能生產(chǎn)知識的邏輯也成為今天知識的內(nèi)容。但這顯然不是人工智能這一被人創(chuàng)造出來的系統(tǒng)獲得主體感知力和實踐創(chuàng)造力所致,而是人類一般知識對象化、自動化的社會歷史成就。因此,大模型的表征收斂顯然不是智能機器獲得獨立認知的成功,而是人認知對象、探尋自我和驅(qū)動對象的巨大成功。人工智能大模型的表征收斂本質(zhì)上是以技術(shù)邏輯表達哲學敘事:其一,數(shù)據(jù)記錄了類人實踐的邏輯,大模型以表征收斂的方式呈現(xiàn)了實踐的穩(wěn)定性、認知的過程性和存在的一致性。因此,大模型雖然對于人類當下的理論而言還是黑箱,但卻是人類認知挖掘能力的延伸。這樣的延伸雖然并不直觀,但并沒有超越人對象化認知能力、升華認知經(jīng)驗和創(chuàng)新認知范式的范疇。其二,大模型以人類生產(chǎn)的數(shù)據(jù)和系統(tǒng)生成的數(shù)據(jù)為學習對象,不僅以表征收斂的方式刻畫了數(shù)據(jù)描述對象的能力,而且還生成了生產(chǎn)數(shù)據(jù)的能力,并且體現(xiàn)出了結(jié)構(gòu)的創(chuàng)新性、預測的有效性和學習的深入性。因此,大模型通過深度學習達致的表征收斂,本身指向的是社會歷史性和人性的穩(wěn)定性,人類通過大模型不斷擴展自我的學習能力本身并沒有止境,人總是在奔向真理的途中。其三,大模型不僅能夠跨越數(shù)據(jù),而且能夠跨越模型的收斂性,顯然不是模型必將走向單一所致,也并非是對通用智能必將取代人類智能的預言,而是以大模型表征出來的人類智能的靈活性、發(fā)展性和歷史性。因此,大模型以技術(shù)邏輯的哲學敘事表明,人類智能是在高維抽象和降維具體之間達到的社會歷史性平衡。人類今天創(chuàng)造了人工智能大模型,明天也許會創(chuàng)造其他更為智能的社會歷史性存在,總是走在愈發(fā)智能的途中。
(本文系國家社會科學一般項目“馬克思主義哲學視域中的人工智能奇點論研究”的階段性成果,項目編號:21BZX002)
注釋
[1][4][6][11][14][30][33][34][36][41][49][52][62][68]H. Minyoung et al., The Platonic Represtation Hypothesis, https://arxiv.org/abs/2405.07987.
[2]涂良川:《人工智能“無生命之生命化”技術(shù)敘事的歷史唯物主義審視——再論人工智能奇點論的哲學追問》,《學術(shù)交流》,2023年第12期。
[3][5][16][26][28][29][48][50]約瑟夫·希發(fā)基思:《理解和改變世界》,唐杰、阮南捷譯,北京:中信出版社,2023年,第114、87、85、113、113、117、19、27頁。
[7][13][63]《馬克思恩格斯選集》第1卷,北京:人民出版社,2012年,第134、669、134頁。
[8]瑪格麗特·博登:《AI:人工智能的本質(zhì)與未來》,孫詩惠譯,北京:中國人民大學出版社,2017年,第829頁。
[9]呂其鎂、涂良川:《“圖靈測試”技術(shù)敘事的哲學追問》,《哲學動態(tài)》,2023年第3期。
[10][15]派利夏恩:《計算與認知——認知科學的基礎(chǔ)》,任曉明、王左立譯,北京:中國人民大學出版社,2007年,第28、27頁。
[12]梅瑞狄斯·布魯薩德:《人工不智能:計算機如何誤解世界》,陳少蕓譯,北京:中信出版社,2021年,第23頁。
[17]王天恩:《大數(shù)據(jù)和創(chuàng)構(gòu)認識論》,《上海大學學報(社會科學版)》,2021年第1期。
[18][19][20]Y. Bansal, P. Nakkiran, B. Barak, "Revisiting Model Stitching to Compare Neural Representations," Advances in Neural
Information Processing Systems, 2021, pp. 225–236.
[21][22][42]斯拉沃熱·齊澤克:《連線大腦里的黑格爾》,朱羽譯,西安:西北大學出版社,2023年,第9、9、215頁。
[23][56]涂良川:《Sora“抽象—具象”生成邏輯的真理觀敘事》,《思想理論教育》,2024年第5期。
[24]D. L. Yamins et al., "Performance-Optimized Hierarchical Models Predict Neural Responses in Higher Visual Cortex," Proceedings of the National Academy of Sciences, 2014, pp. 8619–8624.
[25][27]大衛(wèi)·查默斯:《現(xiàn)實+:每個虛擬世界都是一個新的現(xiàn)實》,熊祥譯,北京:中信出版社,2023年,第185頁。
[31]A. Dravid et al., "Rosetta Neurons: Mining the Common Units in a Model Zoo," In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 1934–1943.
[32][54]楊立昆:《科學之路:人、機器與未來》,李皓、馬躍譯,北京:中信出版社,2021年。
[35][38]宋冰編著,《智能與智慧:人工智能遇見中國哲學家》,北京:中信出版社,2020年,第42、43頁。
[37]伊恩·古德費洛、約書亞·本吉奧、亞倫·庫維爾:《深度學習》,趙申劍等譯,北京:人民郵電出版社,2017年,第3頁。
[39][51]特倫斯·謝諾夫斯基:《深度學習》,姜悅兵譯,北京:中信出版社,2019年,第4、114頁。
[40]涂良川:《馬克思歷史唯物主義視閾中的人工智能奇點論》,《東北師大學報(哲學社會科學版)》,2020年第1期。
[43]《馬克思恩格斯全集》第31卷,北京:人民出版社,1998年,第102頁。
[44]S. ?i?ek, Artificial Idiocy, Project Syndicate, 23 March 2023, https://www.project-syndicate.org/commentary/ai-chatbots-naive-idiots-no-sense-of-irony-by-slavoj-zizek-2023-03.
[45]涂良川:《深度學習追問學習本質(zhì)的哲學敘事》,《學術(shù)交流》,2022年第11期。
[46]熊明輝:《多維考察ChatGPT》,《中國社會科學報》,2023年3月6日,第5版。
[47]安迪·克拉克:《預測算法:具身智能如何應對不確定性》,劉林澍譯,北京:機械工業(yè)出版社,2020年。
[53]高新民、付東鵬:《意向性與人工智能》,北京:中國社會科學出版社,2014年,第457頁。
[55]喬治·扎卡達基斯:《人類的終極命運》,陳朝譯,北京:中信出版社,2017年,第288頁。
[57]劉慈欣:《三體III》,重慶出版社,2010年。
[58]《馬克思恩格斯全集》第30卷,北京:人民出版社,1995年,第47頁。
[59]周昌樂:《將“芯”比心:“機”智過人了嗎?》,杭州:浙江大學出版社,2024年,第22頁。
[60]J. Ngo, and Y. Kim, "What Do Language Models Hear? Probing for Auditory Representations in Language Models," arXiv, 2024.
[61]弗朗西斯·克里克:《驚人的假說——靈魂的科學探索》,汪云九等譯,長沙:湖南科學技術(shù)出版社,2001年,第36頁。
[64]J. Ngiam et al., "Multimodal Deep Learning," Proceedings of the 28th International Conference on Machine Learning (ICML–11), Stanford University, 2011.
[65]吳靜:《“世界模擬”的擬像迷思——基于通用視覺大模型技術(shù)的哲學反思》,《南通大學學報(社會科學版)》,2024年第3期。
[66]尼爾·波斯曼:《技術(shù)壟斷:文化向技術(shù)投降》,何道寬譯,北京:中信出版社,2019年,第121頁。
[67]劉慈欣:《三體II》,重慶出版社,2008年。
責 編∕楊 柳 美 編∕梁麗琛
The Consistency of Representation and Its Philosophical Enlightenment
of Artificial Intelligence Large Models
Tu Liangchuan
Abstract: Large models of AI trained with big data, strong computing power, multimodality and high dimensionality are becoming more and more intelligent, reflecting human-like "smartness". Based on the requirements of system stability, functional effectiveness and optimisation possibilities, large models embed the attention mechanism into the system, so that different large models trained based on different data reflect the tendency of representational convergence when processing data. Representational convergence of the large models, on the one hand, shows that the deep learning based on neural networks has the technical potential to realise general artificial intelligence, and on the other hand, it also confirms that the intelligence formed by big data mining, large models transcendence, strong computing power iteration and high-dimensional perspectives has a human-like nature. Thus, while representational convergence of large models of AI is a technical embodiment of artificial intelligence, it is essentially a philosophical inquiry that quizzes the nature of intelligence in the form of an objectification of the essential power of humanity. It is not so much the stability of the large model that attempts to represent reality that drives the representational convergence of the system, Rather, it is the experiential sublimation of observation by large models with "mining as cognition", "learning to gain intelligence" and "high-dimensional simplicity", which constitutes the intelligent motivation for representational convergence.
Keywords: representational convergence, philosophical narratives, large models, artificial intelligence