2022年11月30日,OpenAI發(fā)布了ChatGPT,在全球范圍內(nèi)引發(fā)了人工智能熱潮。ChatGPT(Chat Generative Pre-trained Transformer),即聊天生成式預(yù)訓練轉(zhuǎn)換器。它通過與人類做文字對話的方式,“與人進行實時對話,即時回答問題;可以做到理解上下文,實現(xiàn)連續(xù)對話;可以撰寫和修改計算機代碼;編寫文案、腳本、大綱、策劃;快速生成新聞報道、創(chuàng)作詩歌”等,提供相應(yīng)的文字回答,且回答的內(nèi)容“形式上合理”。
創(chuàng)新困境者的突圍
人類從誕生開始,就一直不斷地認識自然,改造自然。但當人類感到自己本體機能受限時,技術(shù)就應(yīng)運而生。技術(shù)加強了人類的本體技能,其本質(zhì)是人類的延伸。體力(手腳、軀干)的延伸促進了機械化的產(chǎn)生,感知力(眼耳鼻舌身)的延伸促進了信息化的產(chǎn)生,從工具到汽車,從PC機到AlphaGo,再到ChatGPT,認知力(意即大腦)的延伸促進了智能化的發(fā)展。
從AI技術(shù)層面來看,ChatGPT所能實現(xiàn)的人類意圖,來自于機器學習、深度學習、轉(zhuǎn)換器和多層感知機模型的多種技術(shù)架構(gòu)及模型積累,最終形成針對人類反饋信息學習的大規(guī)模自然語言處理模型。截至2023年1月,ChatGPT的用戶超過1億,成為迄今為止增長最快的消費者應(yīng)用程序。這是因為人們主觀的認知和表達,以及自然科學和社會科學都要以具有實質(zhì)性的內(nèi)容作為基礎(chǔ)和前提,沒有內(nèi)容就沒有人類文明。ChatGPT的500多位開發(fā)科學家突破的就是“內(nèi)容”這個困境!
突破困境,就會形成質(zhì)的突變。數(shù)據(jù)表明,ChatGPT用了5天漲粉到100萬,而蘋果用了74天,推特用了2年,奈飛用了3年半。
理想主義者的堅持
ChatGPT是由OpenAI團隊研發(fā)創(chuàng)造,OpenAI是由SpaceX創(chuàng)業(yè)者埃隆·馬斯克、美國創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全球在線支付平臺PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等人于2015年在舊金山創(chuàng)立。OpenAI的創(chuàng)立目標是與其他機構(gòu)合作進行AI的相關(guān)研究,并開放研究成果以促進AI技術(shù)的發(fā)展。
ChatGPT經(jīng)歷多類技術(shù)路線演化,逐步成熟與完善。其GPT(Generative Pre-trained Transformer,生成式預(yù)訓練轉(zhuǎn)換器)模型是一種自然語言處理模型,使用轉(zhuǎn)換器來預(yù)測下一個單詞的概率分布,通過訓練在大型文本語料庫上學習到的語言模式來生成自然語言文本。
從1950年AI始祖圖靈提出基于規(guī)則的少量數(shù)據(jù)處理,給出判斷機器是否具有“智能”的方法——圖靈測試開始,AI技術(shù)開始了漫長的探索。直到30年后,機器學習出現(xiàn),才以可根據(jù)一定范圍的數(shù)據(jù)進行參數(shù)分類,但受限于技術(shù)水平,AI僅限于小范圍實驗。到了20世紀90年代,基于機器學習延伸出來的一個新的領(lǐng)域——深度學習出現(xiàn)了,它是以受人大腦結(jié)構(gòu)為啟發(fā)的神經(jīng)網(wǎng)絡(luò)算法為起源加之模型結(jié)構(gòu)深度的增加發(fā)展,并伴隨大數(shù)據(jù)和計算能力的提高而產(chǎn)生的一系列新的算法。進入21世紀,獲得突破的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其后來發(fā)展的生成式對抗網(wǎng)絡(luò)(GAN)開始模仿人腦進行大量數(shù)據(jù)的標記和訓練,分別在計算機視覺和自然語言處理領(lǐng)域得到廣泛使用,帶動了人工智能領(lǐng)域的蓬勃發(fā)展。
深度學習的發(fā)展讓我們第一次看到并接近人工智能的終極目標,AI從實驗性向?qū)嵱眯赞D(zhuǎn)變,但缺陷是受限于算法瓶頸,無法直接進行內(nèi)容生成。
2017年,Ashish Vaswani et.al的論文《Attention Is All You Need》中,提出了一種新的簡單架構(gòu)——轉(zhuǎn)換器(Transformer),徹底顛覆了過去的理念,沒用到卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),它完全基于注意力機制,不用重復(fù)和卷積,因而這些模型在質(zhì)量上更優(yōu),同時更易于并行化,并且需要的訓練時間明顯更少。該論文被評為自然語言處理領(lǐng)域的年度最佳論文。
Transformer出現(xiàn)以后,迅速躋身主流模型架構(gòu)基礎(chǔ),使深度學習模型參數(shù)達到了上億的規(guī)模。AI技術(shù)的發(fā)展也呈現(xiàn)出模型之爭,重大研究方向就是自然語言處理任務(wù)。隨之,自然語言處理任務(wù)就轉(zhuǎn)入了兩大流派的競賽,按轉(zhuǎn)換器架構(gòu)可分OpenAI的自回歸系列(例如GPT-3,偏好生成性任務(wù));谷歌的雙向Transformer+Mask的自編碼系列(例如BERT,偏好自然語言理解)。
從2018年開始,谷歌率先提出了3億參數(shù)模型BERT,陸續(xù)又推出了ELNet、RoBERTa、T5等,到了2021年則推出高達1.6萬億的參數(shù)量的Switch Transformer模型。2023年2月4日,谷歌注資3億美元投資Anthropic,Anthropic 開發(fā)了一款名為Claude的智能聊天機器人,據(jù)稱可與ChatGPT相媲美(仍未發(fā)布)。
而OpenAI也在兩年左右的時間,先后推出了GPT- 1到GPT- 3,再到ChatGPT,參數(shù)實現(xiàn)了從億級到上千億級的突破,并能夠?qū)崿F(xiàn)作詩、聊天、生成代碼等功能。作為OpenAI最大投資方的微軟,開始利用ChatGPT提高產(chǎn)品競爭力,將ChatGPT整合進Bing搜索引擎、Office全家桶、Azure云服務(wù)、Teams程序等產(chǎn)品中。
此外包括微軟、Meta、英偉達、華為、百度、阿里等巨頭在內(nèi)的全球領(lǐng)先企業(yè)紛紛參與其中,預(yù)訓練大模型已經(jīng)成為整個AI領(lǐng)域的競爭焦點。
混沌和近臨界邊緣者的沖浪
2022年,在ChatGPT溫和聚變式的科技革命中,人工智能生成內(nèi)容后來居上,以超出人們預(yù)期的速度成為科技歷史上的重大事件,迅速催生了全新的科技生態(tài)。
在國內(nèi),2021年成為中國AI大模型的爆發(fā)年。眾多公司和研究機構(gòu)正在積極開展對大模型的研發(fā)。代表性的有華為云聯(lián)合循環(huán)智能發(fā)布的基于昇思MindSpore打造的1000億參數(shù)盤古NLP模型、聯(lián)合北京大學發(fā)布2000億參數(shù)的盤古α模型;百度推出基于PaddlePaddle 開發(fā)的2600億參數(shù)ERNIE3.0 Titan模型;而阿里達摩院聯(lián)合清華大學發(fā)布的中文多模態(tài)模型M6參數(shù)達到10萬億,將大模型參數(shù)直接提升了一個量級。
2022年,基于清華大學、阿里達摩院等研究成果以及超算基礎(chǔ)實現(xiàn)的“腦級人工智能模型”——八卦爐(BAGUALU)完成建立,其模型參數(shù)模型突破了174萬億個,完全可以與人腦中的突觸數(shù)量相媲美。
目前,大模型參數(shù)規(guī)模最高可達百萬億級別,數(shù)據(jù)集達到TB量級,且面向多模態(tài)場景(同時支持文字、圖像、聲音、視頻、觸覺等兩種及以上形態(tài))的大模型已成為趨勢。大模型生態(tài)已初具規(guī)模。
值得期待的是,百度宣布將在2023年3月的某個時候推出一項中文名為“文心一言”或英文名為“ERNIE Bot”的ChatGPT式服務(wù)。
新一輪認知力延伸的競賽是否又開始了呢?
《Attention Is All You Need》幾位作者的選擇或許有一定的代表性:時隔5年,8位作者僅有一位還留在谷歌。其中6人選擇創(chuàng)業(yè)或加入創(chuàng)業(yè)公司,還有一位去了OpenAI。
2022年4月26日,一家名為Adept的公司官宣成立,以Ashish Vaswani為首的共同創(chuàng)始人有9位,Ashish Vaswani在南加州大學拿到博士學位,師從華人學者蔣偉和黃亮,主要研究現(xiàn)代深度學習在語言建模中的早期應(yīng)用。2016年,他加入了谷歌大腦并領(lǐng)導(dǎo)了Transformer的研究。
Adept是一家致力于用AI來增強人類能力并最終實現(xiàn)通用智能的公司。在闡述公司創(chuàng)立初衷時,Ashish Vaswani寫道:“在Google,我們訓練出了越來越大的Transformer,夢想著有朝一日構(gòu)建一個通用模型來支持所有ML用例。但是,這其中有一個明顯的局限:用文本訓練出的模型可以寫出很棒的文章,但它們無法在數(shù)字世界中采取行動。你不能要求GPT-3給你訂機票,給供應(yīng)商開支票,或者進行科學實驗”。
因此,他們打算創(chuàng)建一個通用系統(tǒng),“你可以把它想象成你電腦里的一個overlay,它和你一起工作,使用和你一樣的工具。使用Adept,你能專注于你真正喜歡的工作,并要求模型承擔其他任務(wù)”。
也許,對于國內(nèi)大多數(shù)在混沌和近臨界邊緣上沖浪的人來說,都應(yīng)該好好思索一個問題:“是沿著Transformer和ChatGPT競賽,還是換一個類似Adept的新賽道呢?”