小13箩利洗澡无码视频免费网站-亚洲熟妇无码av另类vr影视-国产精品久久久久乳精品爆-宅女午夜福利免费视频

最聰明的大腦、最火爆的話(huà)題——清華大學(xué)張亞勤和朱民暢談ChatGPT|天天短訊
時(shí)間:2023-05-02 19:44:52  來(lái)源:引領(lǐng)外匯網(wǎng)  
1
聽(tīng)新聞

顛覆認(rèn)知的AI時(shí)代與產(chǎn)業(yè)機(jī)遇。


(相關(guān)資料圖)

編輯丨沃特敦

4月28日,清華論壇迎來(lái)了本校的兩位大神級(jí)人物。一位是科學(xué)家張亞勤,12歲就讀中科大少年班,之后擔(dān)任微軟亞洲研究院院長(zhǎng)和百度總裁,目前是清華智能產(chǎn)業(yè)研究院院長(zhǎng)。另一位是經(jīng)濟(jì)學(xué)家朱民,曾任IMF副總裁、中國(guó)人民銀行副行長(zhǎng),現(xiàn)在是清華國(guó)家金融研究院院長(zhǎng)。兩顆最聰明的大腦圍繞當(dāng)前最火爆的話(huà)題ChatGPT展開(kāi)了長(zhǎng)達(dá)100分鐘的對(duì)話(huà)。

創(chuàng)業(yè)邦經(jīng)授權(quán)刊發(fā)此次主題對(duì)話(huà)《顛覆認(rèn)知的AI時(shí)代與產(chǎn)業(yè)機(jī)遇》,內(nèi)容經(jīng)編輯整理。

朱民:我們先談?wù)勀愕闹悄墚a(chǎn)業(yè)研究院。三年了,你現(xiàn)在做的怎么樣,主要在做什么?

張亞勤:2019年底我離開(kāi)百度,一直想做一個(gè)研究院,和當(dāng)年20多年前微軟亞洲研究院在某些方面相似,都是從事基礎(chǔ)研究。但這個(gè)研究要為產(chǎn)業(yè)服務(wù),解決真正的問(wèn)題。另外,微軟研究院是企業(yè)做的,我希望研究是面向整個(gè)產(chǎn)業(yè)開(kāi)放的。還有一點(diǎn)在于清華,有最優(yōu)秀的學(xué)生和老師。所以,研究院的縮寫(xiě)AIR的意思也很簡(jiǎn)單,就是AI for industry research。這里I的話(huà)有三個(gè)含義,就一個(gè)是國(guó)際化(international),一個(gè)是AI,一個(gè)是產(chǎn)業(yè)(industry)。

現(xiàn)在我們有21位全職老師,還有博士生、博士后研究人員,還有學(xué)生一共200多人。目前研究院的主要研究還是人工智能。由于我們面向產(chǎn)業(yè),所以選擇了我們認(rèn)為有很大機(jī)遇的三個(gè)方向:機(jī)器人和自動(dòng)駕駛、生命和生物科學(xué),另外是物聯(lián)網(wǎng),特別是面向雙碳的領(lǐng)域,我們叫綠色計(jì)算。

朱民:最新的突破在哪里?

張亞勤:我們一直從事這些算法,包括模型方面的研究,我們和很多企業(yè)合作,在語(yǔ)言模型,比如多模態(tài)、強(qiáng)化學(xué)習(xí)、聯(lián)邦學(xué)習(xí),然后也做一些垂直模型,比如說(shuō)面向自動(dòng)駕駛機(jī)器人的,面向生命科學(xué)的。前幾天還開(kāi)源了一個(gè)生物醫(yī)療的GPT,叫BioMap。在自動(dòng)駕駛方面,我們也有一個(gè)基礎(chǔ)決策感知的模型。

朱民:所以你的研究也是和現(xiàn)在崛起的ChatGPT和GPT大模型的趨勢(shì)是一致的。我們就聊聊大模型,這是現(xiàn)在最熱的事兒。ChatGPT當(dāng)然是驚艷,一出來(lái)以后又能畫(huà)畫(huà),作詩(shī)、寫(xiě)歌??赡艽蠹衣?tīng)說(shuō)了它做了一個(gè)貝多芬的音樂(lè)。

當(dāng)然,作為一個(gè)老貝多芬的愛(ài)好者,我覺(jué)得它做的不怎么樣,但它居然也是能裝模裝樣做作曲了,還有4個(gè)樂(lè)章,太搞笑了,但它確實(shí)影響很大,寫(xiě)代碼做文件檢索都做的很好。關(guān)于它的爭(zhēng)論很多,有觀點(diǎn)認(rèn)為它已經(jīng)走向AGI,也有觀點(diǎn)認(rèn)為它還不成熟,技術(shù)上并沒(méi)有很大突破,只是商業(yè)模式用的好,路徑好,它很聰明。你是真的專(zhuān)家,你怎么看這件事?

張亞勤:你剛才講的是過(guò)去這2-3年,一個(gè)大的趨勢(shì)就是生成式AI。ChatGPT可能做的最成功,其它的也包括比如像DALL-E、stable diffusion,等等一系列的生成式AI。

ChatGPT推出之后對(duì)我的震撼還是挺大的。前段時(shí)間談到“我的GPT時(shí)刻”是什么樣的?我有三個(gè)想法,第一個(gè)我感到就是人類(lèi)歷史上第一次我們有了一個(gè)智能體,然后通過(guò)了圖靈測(cè)試。

朱民:通過(guò)了圖靈測(cè)試,我們回頭再說(shuō)這一點(diǎn),這個(gè)是個(gè)了不得的結(jié)論。

張亞勤:對(duì),圖靈測(cè)試,咱們知道是圖靈1950年提出的,機(jī)器可以thinking,是可以思考的機(jī)器,然后提出了圖靈測(cè)試。它是我們做計(jì)算機(jī)科學(xué)這么多年夢(mèng)想的一個(gè)目標(biāo)。ChatGPT我認(rèn)為是第一個(gè)軟件智能體通過(guò)了圖靈測(cè)試。我太太是ChatGPT或者GPT這些產(chǎn)品系列的大粉絲,當(dāng)時(shí)我在看的時(shí)候,她說(shuō)ChatGPT也能幻想,也經(jīng)常說(shuō)錯(cuò)話(huà),也會(huì)說(shuō)謊,我說(shuō)那和人類(lèi)就更像了。

所以,第一點(diǎn)還是通過(guò)了統(tǒng)一測(cè)試,包括語(yǔ)言對(duì)話(huà)的引擎(conversational AI),其實(shí)對(duì)話(huà)引擎也很多年歷史了。1966年MIT第一個(gè)做出了對(duì)話(huà)的引擎ELIZA,這么多年有很多次迭代,到了Siri,到了Alex,到了Cortana,然后國(guó)內(nèi)有小度,有天貓精靈,有很多對(duì)話(huà)的產(chǎn)品,都是針對(duì)某一些領(lǐng)域或者聊聊天,或者某些領(lǐng)域。

朱民:包括微軟的小冰。

張亞勤:是的。包括小冰,都是對(duì)話(huà)引擎的產(chǎn)品。但ChatGPT在功能和通用性方面遠(yuǎn)遠(yuǎn)超過(guò)了早期的產(chǎn)品,它用了大規(guī)模Generative AI,這是我第一個(gè)感受。第二個(gè)感受,我認(rèn)為它是AI時(shí)代的一個(gè)新的操作系統(tǒng),就像在PC時(shí)代Windows,移動(dòng)時(shí)代的iOS。一會(huì)我們可以再展開(kāi)講。

朱民:我覺(jué)得這個(gè)比你的第一個(gè)結(jié)論更重要,因?yàn)檫^(guò)了圖靈測(cè)試,這是過(guò)去。如果是新操作系統(tǒng)的話(huà),那是一個(gè)巨大的未來(lái)。

張亞勤:就會(huì)重寫(xiě)、重塑、重建整個(gè)生態(tài)系統(tǒng)。第三點(diǎn)咱們?cè)瓉?lái)也討論過(guò),我認(rèn)為它是我們從面向具體任務(wù)的AI走向通用AI的一個(gè)起點(diǎn)。雖然ChatGPT更多的是大語(yǔ)言模型,大基礎(chǔ)模型,但它開(kāi)啟了一個(gè)亮光。因?yàn)槲覀兌嗌倌暌彩窃谕莻€(gè)方向走。這就是“我的ChatGPT時(shí)刻”。

我經(jīng)常跟我們的學(xué)生老師講,這么多年來(lái)AI,還有整個(gè)IT領(lǐng)域,出現(xiàn)了有好多熱詞,一會(huì)兒是區(qū)塊鏈、加密貨幣、比特幣;一會(huì)兒又是Web3.0、NFT、元宇宙。有些可能是真的,有些可能是個(gè)概念,但整個(gè)大語(yǔ)言模型,包括ChatGPT,GPT4.0,這是一個(gè)大的變革。

朱民:所以這次是真的讓你興奮了,讓一個(gè)科學(xué)家興奮就表明something is happening。所以這個(gè)還是挺有意思,圖靈測(cè)試過(guò)了,因?yàn)闄C(jī)器和人對(duì)話(huà),當(dāng)然還有很多誤差,它會(huì)撒謊等等,因?yàn)樗莟oken system,這個(gè)都是在不斷完善,并且通過(guò)人類(lèi)的反饋機(jī)制訓(xùn)練,我覺(jué)得Fine-tuning都會(huì)不斷提高,這個(gè)沒(méi)問(wèn)題。

張亞勤:你們聽(tīng)朱民講,他在講算法,他完全不像是央行的副行長(zhǎng)。

朱民:這個(gè)是跟你學(xué)的。但是你大操作平臺(tái)可有意思了,因?yàn)楝F(xiàn)在ChatGPT出現(xiàn)了API,然后出現(xiàn)了插件,所以它逐漸可以把專(zhuān)業(yè)的東西放進(jìn)去,垂直系統(tǒng),然后現(xiàn)在出現(xiàn)了plugins,plugins出來(lái)又是一個(gè)特殊的路,很多東西又可以往上放。所以,如果以后變成生態(tài)的話(huà),真的是一個(gè)大的操作平臺(tái),然后就會(huì)出現(xiàn)一個(gè)我們以前討論過(guò)的super app,整個(gè)的產(chǎn)業(yè)就被徹底顛覆了。這個(gè)在什么情景下會(huì)發(fā)生呢?

張亞勤:盡管目前有新的插件也好,API也好,或者新的應(yīng)用也好,本質(zhì)其實(shí)并沒(méi)有變化。大家都記得在PC上面本身也有很多應(yīng)用,Office就是一個(gè)大的超級(jí)應(yīng)用,到移動(dòng)時(shí)代的話(huà),有的操作系統(tǒng)上面有應(yīng)用商店,上面也有很多超級(jí)應(yīng)用,微信、短視頻、淘寶、搜索等等,都是上面的超級(jí)應(yīng)用。

我覺(jué)得AI時(shí)代也會(huì)很像,有一個(gè)大模型作為操作系統(tǒng),plugin也好,API也,在上面你就可以有APP。有很多APP可能需要有垂直的模型,因?yàn)橛行┬袠I(yè)比較深,比如自動(dòng)駕駛、生物計(jì)算等等,但這些垂直模型可以建立在橫向的大語(yǔ)言上,這個(gè)大語(yǔ)言不僅僅是語(yǔ)言,其實(shí)是多模態(tài)的,也包括視頻、圖像,語(yǔ)音等等。有了這個(gè)之后,你的垂直模型也好,包括你剛才講的,它都有更多的應(yīng)用。

你剛才提到一點(diǎn)很重要,現(xiàn)在大語(yǔ)言模型,或者說(shuō)我們的基礎(chǔ)模型,它自己是個(gè)工具,它也可以使用別的工具,它可以去使用比如說(shuō)Hugging Face各種開(kāi)源的這些數(shù)據(jù)、模型,然后去執(zhí)行新的任務(wù)或者構(gòu)建新的應(yīng)用。同樣,我們也可以用不同的大模型,然后去構(gòu)建新的應(yīng)用。也就是說(shuō),大模型可以使用你,你也可以使用大模型,彼此互相使用。

朱民:以后想象中的世界,因?yàn)橹悄芰?,機(jī)器就自己講話(huà)了,它已經(jīng)脫離人了。一旦你給了數(shù)據(jù),機(jī)器自己生成,生成完又出現(xiàn)智能,然后它就可以自己交流,自行不斷地改進(jìn),那是不是一種新的物種正在出現(xiàn)?

張亞勤:可以這么理解。

朱民:這又是一個(gè)很重要的概念,我們理解的物種都是電影里的外星人。如果把AI大模型看成一個(gè)物種的話(huà),那就是大家討論的關(guān)于人類(lèi)面臨的根本挑戰(zhàn)了。是這樣嗎?

張亞勤:首先是一種新的能力吧,叫物種也好,能力也好,比如說(shuō)現(xiàn)在GPT4plus,之后還有4.5、4.9、5.0。5.0主要的開(kāi)發(fā)者是誰(shuí)呢?是4.0,所以它自我在開(kāi)發(fā),自我在迭代,自我在進(jìn)化,所以這是一種和人類(lèi)一樣的、很強(qiáng)的能力。

但我并不認(rèn)為人類(lèi)會(huì)被替代,我覺(jué)得AI還是一個(gè)工具,是我們的延伸。也就是說(shuō),我們?nèi)祟?lèi)、我們碳基生命有這樣的一個(gè)智慧,我們可以發(fā)明東西,我們也可以去控制它,讓它按照我們的方向去演化。我是樂(lè)觀者。

朱民:對(duì),你是樂(lè)觀者,我也是樂(lè)觀者,但最怕的是過(guò)分樂(lè)觀,我們要小心。這其實(shí)是很有意思的一件事,我們先不講人類(lèi)和機(jī)器的對(duì)比,現(xiàn)有的人其實(shí)提出了哲學(xué)命題,或者提出了一個(gè)根本的問(wèn)題,就是AI是人的智能的一部分,還是人的智能之外的,一種新的或者人還沒(méi)有悟到的智能。你怎么看?

張亞勤:這是一個(gè)特別好的問(wèn)題。我認(rèn)為現(xiàn)在的大語(yǔ)言模型,它的很多智能是我們不知道的。我們可能有,但我們沒(méi)有認(rèn)識(shí)到的,因?yàn)槲覀兯J(rèn)識(shí)到的知識(shí),我們所看到的所謂的智能,其實(shí)是我們?nèi)祟?lèi)很少一部分。然后,機(jī)器把一部分我們有的但不知道的,找出來(lái)了。但它可能會(huì)有新的能力,但我不希望大家有一種想法,就是新能力會(huì)像科幻電影里說(shuō)的那樣把人替代了。未來(lái)的智能一定是Human Intelligence,一定是人類(lèi)的智能和機(jī)器智能的一個(gè)融合,而且機(jī)器一定是我們的一個(gè)很強(qiáng)的延伸,它很多事做了我們可能做不了。就像汽車(chē)一樣的,汽車(chē)跑得比人快,它比人有更強(qiáng)的能力,但它并沒(méi)有替代人。

朱民:工業(yè)革命是擴(kuò)展了人的肌肉,現(xiàn)在是AI要擴(kuò)展人的智能,我覺(jué)得這是一個(gè)很大的判斷?,F(xiàn)在關(guān)于機(jī)器智能究竟是人的智能的發(fā)現(xiàn),還是一種人的潛在不知道的智能的挖掘出現(xiàn),或者是更新的一個(gè)我們根本就不知道的智能,所以你認(rèn)為是?

張亞勤:我覺(jué)得三者都有。

朱民:這個(gè)很有意思,所以從這意義上來(lái)說(shuō),根本的一個(gè)fundamental的哲學(xué)問(wèn)題是,智能不只是人類(lèi)獨(dú)有的。

張亞勤:是的,就看你怎么定義。比如生存的能力、繁殖的能力。繁殖能力很強(qiáng)的物種,最強(qiáng)的不是人,是細(xì)菌,是病毒,你像新冠那么小的一個(gè)病毒,可以給我們?cè)斐蛇@么大的麻煩,對(duì)吧。而且它上幾十億年就存在,它的壽命也一定會(huì)比我們?nèi)祟?lèi)要長(zhǎng),所以我覺(jué)得我們智能有很多不同的維度,不同的方面。發(fā)展到現(xiàn)在,給我們提供了很多新的啟示,包括就是延伸我們。

我再講一下,就是說(shuō)我們可能還是要把智能分成幾個(gè)不同的層次,然后有些東西我們要有邊界。

這個(gè)又回到圖靈了,還是機(jī)器第一個(gè)層次是感知,就是我要聽(tīng)得見(jiàn),要能說(shuō)話(huà)。就是視覺(jué)、語(yǔ)音識(shí)別、語(yǔ)音合成、人臉識(shí)別,圖像識(shí)別,包括文字OCR都屬于這種感知層面的方面。現(xiàn)在機(jī)器已經(jīng)比人厲害了,機(jī)器識(shí)別人臉比人可能厲害,我覺(jué)得這個(gè)可能5年前基本上就和人是同樣一個(gè)水平了。

第二層次智能的話(huà)是可以思考,可以決策,可以推理,在這個(gè)認(rèn)知層面,現(xiàn)在的大語(yǔ)言模型出來(lái)之后,和人的距離就差距就越來(lái)越小。過(guò)幾年,在這個(gè)方面,就和人類(lèi)差不多了?,F(xiàn)在大家看到說(shuō)ChatGPT考試比人還厲害,能考SAT。兩個(gè)星期前,我的一個(gè)朋友在北大教量子力學(xué),量子學(xué)是很難的,她期中考試已經(jīng)高于班里的50%,它也沒(méi)有經(jīng)過(guò)任何專(zhuān)門(mén)的學(xué)習(xí)。所以說(shuō)機(jī)器在認(rèn)知方面也會(huì)和人類(lèi)差不多。

另外還有幾個(gè)層次,我覺(jué)得是我們不應(yīng)該去觸碰的。我一直在講,我們做AI倫理也好,治理也好,比如說(shuō)它的個(gè)體能不能作為獨(dú)立個(gè)體?人工智能有沒(méi)有自我意識(shí)?它有沒(méi)有感情?這些方面我不認(rèn)為我們可以達(dá)到,但我也不認(rèn)為我們?nèi)祟?lèi)應(yīng)該做這樣的研究,就像基因編輯某些方面我們不應(yīng)該去觸碰。

另外就是人工智能的治理。人工智能需要一個(gè)邊界。咱們有信息社會(huì)、有物理世界、有生物世界。在這些世界,其實(shí)這些空間都在走向一種融合,新的數(shù)字化走向融合,但我們需要有一些邊界。比如ChatGPT可能先把它放到信息世界里面,然后如果真正去到了物理世界。自動(dòng)駕駛我們可能要小心點(diǎn),還有金融系統(tǒng)。

我剛在新加坡開(kāi)會(huì),在兩個(gè)不同的場(chǎng)合。一個(gè)是WPP公司,做廣告策劃的。如果是做創(chuàng)意,我就鼓勵(lì)多用ChatGPT這樣的東西。但在銀行,我覺(jué)得你先別用,你可以用作為信息類(lèi)的,但牽涉到核心金融系統(tǒng),涉及交易的,還是要比較小心。

朱民:所以,科學(xué)家既有樂(lè)觀也有謹(jǐn)慎。從樂(lè)觀的方面,毫無(wú)疑問(wèn)這是個(gè)顛覆,但從謹(jǐn)慎的方面,我們還是要很小心地劃個(gè)邊界。在我們不知道的情況下,我們先謹(jǐn)慎,我覺(jué)得這個(gè)還是很有意思的。但這個(gè)邊界是會(huì)被不斷地突破的。你剛才講了一個(gè)特別重要的概念,就是工程應(yīng)用。人工智能現(xiàn)在越來(lái)越多地被認(rèn)為是工程學(xué),你可以應(yīng)用大模型,大模型也可以應(yīng)用你的這個(gè)東西,所以它越來(lái)越變成一個(gè)工程了。如果從工程學(xué)角度看大模型,大模型的發(fā)展會(huì)怎么樣?

張亞勤:我覺(jué)得它肯定是會(huì)變得越來(lái)越準(zhǔn)確,然后變得越來(lái)越成熟,而且它進(jìn)化的速度也會(huì)越來(lái)越快。但是,在我們沒(méi)有很清楚它的成熟度之前,我們需要給它個(gè)劃邊界。

我相信對(duì)我們以后整個(gè)物理世界,比如說(shuō)機(jī)器人自動(dòng)駕駛,對(duì)于物聯(lián)網(wǎng)都會(huì)有很大的應(yīng)用,但我覺(jué)得根據(jù)你的需要不一樣,應(yīng)用不一樣,就更要謹(jǐn)慎一些。比如對(duì)于核心的任務(wù)(mission critical),我們還是要有更多的可控性,因?yàn)楝F(xiàn)在生成式AI,它生成什么東西我們并不完全知道。而且,不僅我們知道,我們甚至不知道為什么會(huì)發(fā)生這樣的事。我們只知道一部分。

朱民:所以這又涉及到我們現(xiàn)在大模型的根本概念,emergence「涌現(xiàn)」,這個(gè)是以前沒(méi)有的。因?yàn)樗_(kāi)始有數(shù)據(jù)邏輯推演以后,它開(kāi)始「涌現(xiàn)」一些非線(xiàn)性的發(fā)展。這個(gè)「涌現(xiàn)」怎么講?它未來(lái)的發(fā)展前景怎么樣?我覺(jué)得這是一個(gè)很重要的問(wèn)題。

張亞勤:朱民行長(zhǎng)講了一個(gè)特別重要的概念,這個(gè)都是比較專(zhuān)業(yè)的詞匯,叫做「涌現(xiàn)」emergence。

emergence確實(shí)目前是在這種大模型里面,當(dāng)模型的參數(shù)體量大到一定程度的時(shí)候,基本上是到了百億參數(shù)的時(shí)候,開(kāi)始「涌現(xiàn)」,就是你可以看到它在準(zhǔn)確度還是可預(yù)測(cè)性都跳躍式提高。為什么這個(gè)時(shí)候出現(xiàn)「涌現(xiàn)」,具體這些數(shù)學(xué)模型或者因果關(guān)系,現(xiàn)在并不是很清楚。

但你可以這樣想,當(dāng)我的數(shù)據(jù)量體量大到一定程度的時(shí)候,參數(shù)到一定程度的時(shí)候,而且我的訓(xùn)練方法是正確的。這個(gè)很重要,數(shù)據(jù)是高質(zhì)量數(shù)據(jù),我訓(xùn)練的方式是正確的,可以利用這么多數(shù)據(jù),有好的方法時(shí)候。

如果用一個(gè)擬人化的來(lái)比喻,我們每天讀書(shū),讀到一定的時(shí)候忽然就開(kāi)竅了。靈光一閃,開(kāi)始的時(shí)候,讀書(shū)只是填補(bǔ)個(gè)知識(shí),但到了一定程度我就可以掌握這個(gè)規(guī)律了。比如我建的大模型,參與到一定程度之后,它把真正的架構(gòu)(Structure)找出來(lái)。

朱民:這里又提出一個(gè)重大哲學(xué)問(wèn)題。如果「涌現(xiàn)」是像靈光一閃那樣的跳躍式的變化。我們?nèi)说慕?jīng)歷都講有頓悟,但頓悟是有點(diǎn)智慧含義的,「涌現(xiàn)」是智慧嗎?

張亞勤:你可以這樣理解。如果擬人的話(huà),就是參數(shù)到一定程度之后,它忽然就很準(zhǔn)確了,就像語(yǔ)音識(shí)別,貫通了。這個(gè)非常重要。如果你直接看的話(huà),由于我數(shù)據(jù)量特別大,參數(shù)很多,因?yàn)樗鲱A(yù)訓(xùn)練的時(shí)候用的是這個(gè)叫自監(jiān)督學(xué)習(xí),然后它自己是In-context learning,在它這個(gè)語(yǔ)料很大的時(shí)候,它要把里面一些mask出去,然后自己去訓(xùn)練自己,所以模型大到一定程度時(shí)候,它準(zhǔn)確率就比較高。

但是為什么會(huì)在那么多參數(shù)的時(shí)候會(huì)這樣,而且不僅僅ChatGPT,很多別的大的模型,不僅是openAI的,很多別的模型也有類(lèi)似的這么一些現(xiàn)象了。

所以這個(gè)現(xiàn)象我不能講是這個(gè)靈光一閃,是哲學(xué)或者宗教的概念,但是我們現(xiàn)在并不清楚為什么,清楚一部分,但不清楚全部。所以這個(gè)是emergence.

然后包括另外一個(gè)是統(tǒng)一性,這也是現(xiàn)在GPT里面T很重要一部分。過(guò)去可能對(duì)不同的任務(wù)有不同的算法,現(xiàn)在有了transformer之后,不管你是語(yǔ)言也好,還是語(yǔ)音也好,還是圖像或者是視頻或者是蛋白質(zhì),你都可以用token based里的token轉(zhuǎn)化。這跟人的大腦思維方式比較像,我們的neural,都是neural。

朱民:所以我們現(xiàn)在又往里走一步,現(xiàn)在如果回到深層的方法上面來(lái)看的話(huà),兩三年前都有一種議論,說(shuō)深度學(xué)習(xí)已經(jīng)不行了,是嗎?

張亞勤:我沒(méi)有聽(tīng)到。

朱民:大概四五年以前開(kāi)始,有很多這樣的說(shuō)法,就是覺(jué)得深度學(xué)習(xí),大數(shù)據(jù)的應(yīng)用開(kāi)始出現(xiàn)了小數(shù)據(jù)。那么現(xiàn)在的新的工具transformer是一個(gè)foundation。這個(gè)是一個(gè)很重要的基本結(jié)構(gòu)。GCAI或者AIGC是一個(gè)很重要的方向approach,那么技術(shù)上來(lái)說(shuō),你覺(jué)得transformer模式成型了?還是以后會(huì)有怎么樣的發(fā)展?因?yàn)槟闶强茖W(xué)家,咱們得想一想科學(xué)的問(wèn)題。

張亞勤:第一個(gè)我認(rèn)為transformer確實(shí)是挺了不起的,當(dāng)時(shí)2017年Vaswani在Google,當(dāng)時(shí)一開(kāi)始是為了其實(shí)在做Google translate來(lái)做的這么一個(gè)算法。這個(gè)算法出現(xiàn)之后,確實(shí)是把整個(gè)深度學(xué)習(xí)的進(jìn)展推到更高的一個(gè)層次。但是,如果我們看一下transformer或者看一下包括現(xiàn)在大模型,其實(shí)它的效率還是比較低的。

我們?cè)俸痛竽X比一下,我們?nèi)说拇竽X經(jīng)過(guò)幾十萬(wàn)年的進(jìn)化,確實(shí)不得了,差不多不到三斤的大腦,然后有860多億個(gè)神經(jīng)元,每個(gè)神經(jīng)元差不多有1萬(wàn)個(gè)Synapse突觸,你如果把每個(gè)連接做一個(gè)相當(dāng)于參數(shù)的話(huà),我們大腦比現(xiàn)在GPT4,我假定是1萬(wàn)億,比它要高上千倍。我們就三斤重,而且我們功耗30瓦,你這GPT功耗多少瓦,所以我覺(jué)得我們效率還是很高的。而且目前這種大模型,雖然讓很多工作變得更高效,但耗電和運(yùn)算的效率還是很差的。transformer當(dāng)然是很好的一種算法,但在計(jì)算方面確實(shí)十分耗能。

朱民:所以從能耗來(lái)說(shuō)還會(huì)有很大的突破的空間。

張亞勤:我認(rèn)為5年之后也許就會(huì)有一個(gè)不同的算法。

朱民:怎么叫不同的算法?

張亞勤:就也許就不是transformer算法,也許是,也許不是。

朱民:你會(huì)發(fā)明一個(gè)嗎?

張亞勤:我把希望寄托在我們的博士生上。

朱民:回到工程學(xué),工程學(xué)就很有意思了,因?yàn)樗扔谝粋€(gè)輔助工具,它無(wú)所不能了。所以我覺(jué)得現(xiàn)在比較有意思的一點(diǎn),用我的語(yǔ)言來(lái)說(shuō),是大模型的脫虛向?qū)?。所謂虛就它離開(kāi)了服務(wù)業(yè),實(shí),就是說(shuō)它進(jìn)入了物理世界,去操縱和管理物理世界。我覺(jué)得這是一個(gè)工程學(xué)的很重要的概念和一個(gè)很重要的應(yīng)用場(chǎng)景。

所以現(xiàn)在我們出現(xiàn)了AI for science,而且現(xiàn)在科學(xué)研究進(jìn)入了第四范式。那么就把整個(gè)科學(xué)研究的方法全部變掉了,是數(shù)據(jù)主導(dǎo),不再是獨(dú)立的由根開(kāi)始往上走,而是逆向發(fā)展,這個(gè)就很厲害了。最近的很多事,比如說(shuō)常溫超導(dǎo),這個(gè)鹵是算出來(lái)的,最近的可控核聚變,可控是大模型控的。蛋白質(zhì),現(xiàn)在我們已經(jīng)有了那么多三維的蛋白質(zhì)的結(jié)構(gòu)分析,你也做生命是吧?大模型在科學(xué)研究方式的方面,對(duì)它將來(lái)會(huì)怎么樣?

張亞勤:這是特別好的問(wèn)題,我稍微花半分鐘講一下范式這個(gè)定義,其實(shí)提出第四范式,包括最近提到的第五范式,都是微軟的科學(xué)家提出來(lái)的。范式從最早在亞里士多德,后面到了伽利略。牛頓是第一次把所謂的第一范式數(shù)學(xué)化方程式化,包括到Maxwell,包括薛定諤,愛(ài)因斯坦后面是方程式的第二范式。第三范式是計(jì)算機(jī)出來(lái)之后的事。后面大數(shù)據(jù)來(lái)了之后是圖靈獎(jiǎng)獲得者Jim Green提出的數(shù)據(jù)驅(qū)動(dòng),就是第四范式。

最近微軟英國(guó)的科學(xué)家又提出第五范式,就是深度學(xué)習(xí)。作為科研的一個(gè)新范式,我認(rèn)為第四和第五基本上是不同階段,你可以都叫第四范式。

這里面有很多新的工具,比如剛才你講的工程學(xué),新的工具可以使用,就是我們可以把我們方程式的東西,結(jié)合到我們觀察的,測(cè)量的數(shù)據(jù)里面來(lái)。比如我們現(xiàn)在可以生成大數(shù)據(jù),用方程式來(lái)生成,加上我們觀測(cè)的數(shù)據(jù)把它結(jié)合起來(lái),開(kāi)始預(yù)訓(xùn)練,然后結(jié)合起來(lái)。

朱民:是?,F(xiàn)在的科學(xué)研究上或者說(shuō)是第四范式也好,出現(xiàn)了兩種流的合作,一個(gè)是人的流,他把一些觀察到想象中的參數(shù)什么放進(jìn)去,一個(gè)是數(shù)據(jù)位自由,就機(jī)器深度學(xué)習(xí),然后讓這兩種東西結(jié)合起來(lái),是朝我們想象中的用預(yù)訓(xùn)練的模式來(lái)實(shí)現(xiàn)它的未來(lái),所以這個(gè)很有意思。人工智能和人的智能開(kāi)始合作,那么現(xiàn)在看的比較多的是材料科學(xué),數(shù)字材料現(xiàn)在是很明顯,生物對(duì)蛋白,做three dimensional structure這個(gè)也是很多的。你覺(jué)得像物理或者數(shù)學(xué)這種根本的科學(xué)研究,在方法論上會(huì)被顛覆嗎?我覺(jué)得化學(xué)是很容易突破的。

張亞勤:我認(rèn)為會(huì)的,但是怎么顛覆我也不是很清楚。我那天開(kāi)玩笑說(shuō)我現(xiàn)在比較保守了。我說(shuō)5年意義,我們所有的奧林匹克的冠軍,數(shù)學(xué)、物理包括所有的考試,冠軍一定是機(jī)器,從阿爾法狗開(kāi)始,一定是機(jī)器。另外,我認(rèn)為AI可以證明一些我們沒(méi)有證明的事兒,哥德巴赫猜想等。

朱民:我覺(jué)得科學(xué)家還是很?chē)?yán)謹(jǐn)?shù)?,哲學(xué)家可以在這個(gè)天空里思索。

張亞勤:新的方程式以后可能是AI發(fā)明的,這都有可能。

朱民:量子力學(xué)就會(huì)可能會(huì)有很大的突破,所以這是一個(gè)很大的事情。如果科學(xué)有這么大這么變化的話(huà),反過(guò)來(lái)人類(lèi)的進(jìn)化速度會(huì)大大加強(qiáng)。5年真的是一個(gè)很短的時(shí)間。

張亞勤:剛才你問(wèn)的特別好,就是科學(xué)的范式。其實(shí)如果看一下我們物理學(xué),每一個(gè)科學(xué)都需要一種描述的語(yǔ)言。數(shù)學(xué)是物理學(xué)最好的描述的語(yǔ)言。我認(rèn)為AI整個(gè)來(lái)講,從我們這種發(fā)展的方向,不一定是GPT,也會(huì)成為一個(gè)好的描述的語(yǔ)言。當(dāng)科學(xué)的東西沒(méi)法去表示出來(lái)的時(shí)候,我就用一個(gè)大的模型加上一個(gè)參數(shù)去表示它,然后它就變成一種新的語(yǔ)言。

朱民:講到現(xiàn)在我們已經(jīng)走得很遠(yuǎn)了,天馬行空。那么落地到現(xiàn)在的話(huà),大家很關(guān)心中國(guó)的大模型發(fā)展怎么樣?現(xiàn)在百度出了文心一言,現(xiàn)在我看能列出的大模型大概有幾十種了。

張亞勤:百模大戰(zhàn)。

朱民:當(dāng)然困難是很明顯的,第一個(gè)是,美國(guó)把芯片卡住了。那么算法當(dāng)然也受到很大的影響;數(shù)據(jù)也有一個(gè)質(zhì)量和規(guī)模的問(wèn)題;對(duì)語(yǔ)言也是個(gè)問(wèn)題,對(duì)中文和英文之間其實(shí)還是在自然語(yǔ)言處理的方面還是有不一樣的。你怎么看百模大戰(zhàn)中國(guó)的差距究竟有多大?我們?cè)趺锤桑?/p>

張亞勤:不想得罪人。(現(xiàn)場(chǎng)笑聲)

朱民:科學(xué)家沒(méi)問(wèn)題的。我先說(shuō)我的觀點(diǎn),我不怕得罪人(現(xiàn)場(chǎng)笑聲)。我1月7號(hào)的時(shí)候我說(shuō),大模型,中國(guó)落后兩年。

張亞勤:對(duì),我覺(jué)得大模型方面肯定是落后的,具體落后多少我就不說(shuō)了。但是,目前這么多企業(yè),包括BAT、華為、字節(jié)在內(nèi)的很多大公司都在做大語(yǔ)言模型,包括新創(chuàng)公司,大家都在做,最后就是充分競(jìng)爭(zhēng)。只有經(jīng)歷充分競(jìng)爭(zhēng)的企業(yè)才是好企業(yè)。而且中國(guó)的競(jìng)爭(zhēng)有中國(guó)的特點(diǎn),這些人都是經(jīng)過(guò)互聯(lián)網(wǎng)時(shí)代的千錘百煉,經(jīng)歷過(guò)血腥的競(jìng)爭(zhēng),知道怎么競(jìng)爭(zhēng)。第二點(diǎn)就是在競(jìng)爭(zhēng)的過(guò)程中,每個(gè)企業(yè)的人都很聰明,他自己會(huì)去定位,就讓市場(chǎng)去檢驗(yàn)它。政府就別管了,政府鼓勵(lì)競(jìng)爭(zhēng)就行。

我個(gè)人看的話(huà),可能最后會(huì)有五六個(gè)大模型。所有的操作系統(tǒng),大部分的話(huà)可能還是面向行業(yè)的很多垂直模型,它會(huì)結(jié)合大模型解決行業(yè)大的問(wèn)題,但在每個(gè)行業(yè)可能也需要細(xì)分。

你剛才提到芯片和數(shù)據(jù),我稍微講一下。數(shù)據(jù)是問(wèn)題也不是問(wèn)題,就第一點(diǎn)你看目前大模型也沒(méi)有人把充分把自己的數(shù)據(jù)都用了,以及比如企業(yè)外面我們有很多這種公用的數(shù)據(jù),然后每個(gè)企業(yè)剛才我講的大企業(yè)都有自己好多數(shù)據(jù),他都沒(méi)有用完,可能用了很少一部分,因?yàn)闀r(shí)間不夠,這幾個(gè)月。然后第二點(diǎn)就是你看現(xiàn)在做多模態(tài),剛才講的語(yǔ)言多模態(tài)里面多少視頻的數(shù)據(jù),多少這些圖像的數(shù)據(jù)也都去使用。

還有一點(diǎn)。你看GPT用了很多中文的數(shù)據(jù),用了很多法文的很多各種不懂語(yǔ)言的數(shù)據(jù),咱們也可以用別的語(yǔ)言,我們完全可以用英文的數(shù)據(jù),對(duì)吧。

這些數(shù)據(jù)能用就用,所以我認(rèn)為長(zhǎng)期不是大問(wèn)題,短期也不是大問(wèn)題。而且說(shuō)實(shí)話(huà),數(shù)據(jù)不僅量要大,重要的是你怎么樣去清洗它,怎么樣把它變成高質(zhì)量的數(shù)據(jù)。其實(shí)做大語(yǔ)言模型也很有意思,就是數(shù)據(jù)太輕,太干凈也不行,還是需要一些有免疫力的,就像人身上需要一點(diǎn)有要和細(xì)菌和病毒共存的時(shí)候需要一點(diǎn)免疫力,所以怎么樣去獲得這個(gè)數(shù)據(jù),其實(shí)是做大語(yǔ)言模型,1/3的工作是關(guān)于怎么樣把這些數(shù)據(jù)叫data engineering很重要。

算力的確是比較挑戰(zhàn),如果咱們把中國(guó)所有的算力加在一塊,現(xiàn)在至少也有50萬(wàn)個(gè),至少50萬(wàn)個(gè)A100這么一個(gè)體量加在一塊,你訓(xùn)練100個(gè)模型有點(diǎn)小問(wèn)題,但是訓(xùn)練5個(gè)模型是沒(méi)問(wèn)題的。另外一點(diǎn),這個(gè)東西你也不是永遠(yuǎn)在用它,你在預(yù)訓(xùn)練的時(shí)候用它,用了之后你幾個(gè)月可能就不需要用這個(gè)東西了。

還有一點(diǎn),現(xiàn)在很多的工作是怎么樣把這個(gè)模型簡(jiǎn)化,然后怎么樣小型化邊緣化。所以我認(rèn)為這些東西是有挑戰(zhàn),但不能是我們兩三年之后沒(méi)做好的一個(gè)借口。我認(rèn)為我們一定會(huì)做的不錯(cuò)的。

然后還有一點(diǎn)就是中國(guó)自己也在做芯片,現(xiàn)在你看到有昆侖,汽車(chē)的地平線(xiàn)等等許多公司都在做這些芯片。

朱民:所以你還是樂(lè)觀的,算力算法和這個(gè)數(shù)據(jù),我們還是有資源可以解決,是吧?但是大模型它有幾個(gè)特點(diǎn),第一個(gè)是它進(jìn)入的門(mén)檻很高,它不是一個(gè)可以自由競(jìng)爭(zhēng)的世界,是第二個(gè)它有些地方具有天然的壟斷性,算是有壟斷性的,算法取決于你是不是開(kāi)源。而且這個(gè)規(guī)模也使得進(jìn)去不那么容易。所以在這個(gè)情況下,那是一種市場(chǎng)充分競(jìng)爭(zhēng),還是一種類(lèi)似于寡頭競(jìng)爭(zhēng)。未來(lái)的中國(guó)發(fā)展大模型的路徑大概是個(gè)什么情況?

張亞勤:如果把大模型比喻成42公里的馬拉松,現(xiàn)在跑了5公里,目前是春秋戰(zhàn)國(guó),大家要充分競(jìng)爭(zhēng)。等競(jìng)爭(zhēng)到一定程度,肯定就不可能有那么多大模型了。就像操作系統(tǒng)和云一樣,一開(kāi)始有多少朵云?現(xiàn)在的云,不管美國(guó)也好,中國(guó)也好,最后可能就四五朵云。所以我認(rèn)為最后肯定是要收斂的。

朱民:你還是很樂(lè)觀,中國(guó)人會(huì)長(zhǎng)出自己的大腦模型。

張亞勤:對(duì)。但我想講一點(diǎn),我們現(xiàn)在不能假設(shè)就是那幾個(gè)大公司的事兒,初創(chuàng)公司也有希望,OpenAI就是一個(gè)小公司。所以大家都有機(jī)會(huì)。但平臺(tái)的門(mén)檻很高。比如我們這樣的研究院,我們一開(kāi)始就說(shuō)不要自己去做大型語(yǔ)言模型,我們也不會(huì)去買(mǎi)上萬(wàn)個(gè)GPU,很多工程的東西我們也不會(huì)去做,我們可以和企業(yè)去合作。

朱民:這就提出了很重要的一點(diǎn)。在我們追趕的道路上,第一個(gè)是算力算法數(shù)據(jù),你有沒(méi)有底氣?第二個(gè)是市場(chǎng)準(zhǔn)入競(jìng)爭(zhēng)公平,這個(gè)結(jié)果會(huì)怎么樣?但形成生態(tài)合作共贏還是很重要的。你看大概會(huì)是怎么樣的一個(gè)生態(tài)呢?

張亞勤:比如說(shuō)N年多之后,4-5年之后會(huì)有幾個(gè)大的模型,就是可能主要在云上面,在云上面有大量算力的,有這么橫向的,我把它叫做AI的云的操作系統(tǒng),在這個(gè)上面有很多的vertical很大的一些apps,而且我認(rèn)為有些apps會(huì)在一個(gè)云上一些APP在很多云上,有些souper apps可能它會(huì)調(diào)用不同的models的,剛才你講的工程化和工具化,你可以用你的操作系統(tǒng)可以用別的,別的APP,我也可以用我這個(gè)APP也可以用好多不同的模型,然后可以用open source模型,也可以用這些商業(yè)化的模型,還有一個(gè)open source,現(xiàn)在這是很重要一個(gè)力量,不在我們剛才講的這些里面。

朱民:你看現(xiàn)在美國(guó)出現(xiàn)了stability。對(duì)這樣一個(gè)平臺(tái),作為一種生態(tài)的構(gòu)造形式的培訓(xùn),像這樣的模式可采用。

張亞勤:我覺(jué)得都會(huì),各種不同的模式都會(huì)發(fā)生。

朱民:這里又回到了平行模型和垂直模型的區(qū)別,我看現(xiàn)在的大模型現(xiàn)在主要是做美國(guó)和中國(guó),但美國(guó)的模型還是平行的,廣義的模型多一些,中國(guó)現(xiàn)在來(lái)看是垂直模型比較多一些。

張亞勤:不能這么講,我覺(jué)得都有。橫向的模型很多,但是解決某一些問(wèn)題的也都有垂直模型。

朱民:所以現(xiàn)在市場(chǎng)競(jìng)爭(zhēng)的是橫向模型,現(xiàn)在是“百模大戰(zhàn)”,對(duì)競(jìng)爭(zhēng)的結(jié)果活下來(lái)的人會(huì)支撐垂直模型。

張亞勤:對(duì),可以這樣講。垂直模型、以及面向一些任務(wù)總是要做的。橫向模型會(huì)幫你解決很多橫向的問(wèn)題,比如說(shuō)自動(dòng)駕駛長(zhǎng)尾的問(wèn)題。但是,它沒(méi)法去替代垂直模型。咱們回到操作系統(tǒng)這個(gè)比喻,操作系統(tǒng)里面安卓和iOS也很強(qiáng)大,它上面有商店,但是很多Super APP還在上面。

你不可能操作系統(tǒng)做所有的這些應(yīng)用,特別我們?nèi)绻嫦蚬I(yè)互聯(lián)網(wǎng),它更細(xì)分,更加深度。就像在PC時(shí)代,微軟很強(qiáng)大,但也只能做個(gè)office,上面別的應(yīng)用還是要靠生態(tài)。我經(jīng)常講,生態(tài)操作系統(tǒng)如果算一的話(huà),它整個(gè)生態(tài)是乘100倍,在上面它的價(jià)值是100倍。

朱民:這個(gè)世界不可能只有唯一,一定是一個(gè)生態(tài)的,在上面會(huì)產(chǎn)生更豐富的應(yīng)用場(chǎng)景,等等。

張亞勤:而且我覺(jué)得對(duì)以后垂直領(lǐng)域,或者對(duì)一些創(chuàng)業(yè)者其實(shí)是件好事。我看了很多言論說(shuō)大模型出來(lái)之后別創(chuàng)業(yè)了,都被大公司做了。我認(rèn)為不是這樣,我覺(jué)得恰恰相反。比如,現(xiàn)在做某些面向某些任務(wù)的時(shí)候,我更容易做了。再比如說(shuō),過(guò)去我做一個(gè)什么事,我自己沒(méi)數(shù)據(jù)或者數(shù)據(jù)很少,我需要收集數(shù)據(jù),現(xiàn)在很多這些數(shù)據(jù)已經(jīng)被預(yù)訓(xùn)練變成模型了,你就去靠那個(gè)模型,然后加上你自己這個(gè)領(lǐng)域的精準(zhǔn)數(shù)據(jù),或者結(jié)合你自己的模型,你可以開(kāi)發(fā)應(yīng)用出來(lái)。

這有點(diǎn)像云計(jì)算的時(shí)候,創(chuàng)業(yè)公司過(guò)去要買(mǎi)一大堆服務(wù)器,自己要有it方面的人。有了云之后,你買(mǎi)云服務(wù)就行了。你的算力、存儲(chǔ),你的網(wǎng)絡(luò)能力都按需分配。所以,我覺(jué)得這是件好事,但創(chuàng)業(yè)公司可能要注意別做太簡(jiǎn)單的東西。如果太簡(jiǎn)單,大模型馬上就幫你做了。創(chuàng)業(yè)者稍微要做一些有門(mén)檻的事。

朱民:創(chuàng)業(yè)的門(mén)檻高了。

關(guān)鍵詞: