作為一個(gè)在上海工作的東北人,香港中文大學(xué)教授湯曉鷗不失東北人與生俱來的幽默感。
(資料圖片)
在7月6日的世界人工智能大會(huì)開幕式發(fā)言中,作為人工智能領(lǐng)域前沿的知名學(xué)者與實(shí)踐者,湯曉鷗說,自己每天晚上睡覺前,都是一邊聽著于謙老師的相聲,一邊在想:“機(jī)器怎么可能超過這樣有趣的靈魂?我不信。”
在今天的演講中,他分享了三名學(xué)生王曉剛、何愷明、林達(dá)華在深度學(xué)習(xí)領(lǐng)域追夢的故事,強(qiáng)調(diào)了中國年輕學(xué)者在大模型研究中所作出的原創(chuàng)貢獻(xiàn)。
他同時(shí)感慨:在人工智能領(lǐng)域,新一代的學(xué)生已經(jīng)在上海成功起步。
回溯歷史,湯曉鷗提到,2018年度圖靈獎(jiǎng)授予了約書亞·本吉奧(Yoshua Bengio)、杰弗里·辛頓(Geoffrey Hinton)和楊立昆(Yann LeCun) 三位深度學(xué)習(xí)之父,而摁下這扇大門第一聲門鈴的,是2011年杰弗里·辛頓和微軟的中國學(xué)者鄧力在深度學(xué)習(xí)語音識(shí)別上劃時(shí)代的突破,此后2012年,在圖像識(shí)別比賽中同樣取得了劃時(shí)代的突破。
在深度學(xué)習(xí)剛剛開始的幾年,湯曉鷗和他的學(xué)生們在做什么?他講到了第一個(gè)學(xué)生:王曉剛。
王曉剛本科是中國科大少年班,并且是00班的第一名,碩士期間他在湯曉鷗實(shí)驗(yàn)室就讀,后來去了MIT讀博士,博士畢業(yè)后回到湯曉鷗在香港中文大學(xué)的實(shí)驗(yàn)室做教授。2011至2013年期間,在CVPR(國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)和ICCV(計(jì)算機(jī)視覺國際大會(huì))兩個(gè)視覺領(lǐng)域頂級(jí)會(huì)議上,全球共有29篇文章做了深度學(xué)習(xí),其中有14篇出自湯曉鷗的實(shí)驗(yàn)室,全世界其他的實(shí)驗(yàn)室做了15篇。
“我們有18項(xiàng)工作在全世界第一次將深度學(xué)習(xí)用到視覺問題上,包括人臉識(shí)別、人臉檢測、人臉重建、物體檢測、人體姿態(tài)、圖像超分、三維形狀識(shí)別等計(jì)算機(jī)視覺最核心的問題。在深度學(xué)習(xí)的大門上,我們按了18次門鈴。”湯曉鷗說。
他介紹,王曉剛還有一項(xiàng)工作是讓機(jī)器做的人臉識(shí)別超過了人的眼睛,這比Facebook做得還要早。 2015年,王曉剛帶隊(duì)打敗了谷歌團(tuán)隊(duì),取得了中國學(xué)者史上第一個(gè)ImogeNet(一個(gè)基于圖像分類和物體識(shí)別的國際競賽)世界冠軍。
第二個(gè)學(xué)生是何愷明是2003年廣東高考狀元,本科在清華大學(xué)就讀物理專業(yè),博士是在湯曉鷗的香港中文大學(xué)實(shí)驗(yàn)室取得的。湯曉鷗說,何愷明在實(shí)驗(yàn)室讀碩士期間就發(fā)了第一篇文章,取得了CVPR最佳論文,這是CVPR25年歷史上從亞洲出來的第一篇最佳論文。當(dāng)時(shí)的湯曉鷗和何愷明開玩笑,說他一出手就到了巔峰,從此以后的學(xué)術(shù)生涯就只能往下走了。結(jié)果他去微軟和Facebook工作后一路走高。
何愷明第一項(xiàng)工作是在MSR(微軟研究院)進(jìn)行。在2015年之前,深度學(xué)習(xí)最多只能訓(xùn)練到20多層,何愷明在網(wǎng)絡(luò)的每一層引入了一個(gè)直聯(lián)通道,從而解決了深度網(wǎng)絡(luò)梯度傳遞的問題,獲得了2016年的最佳論文。在這之后可以有效的訓(xùn)練超過百層的深度學(xué)習(xí)。在大模型時(shí)代,以Transformer為核心的大模型,包括GPT系列,也是普遍采用了這個(gè)結(jié)構(gòu),以支撐上百層的堆疊。
湯曉鷗總結(jié)起來,何愷明把網(wǎng)絡(luò)做深了,谷歌把網(wǎng)絡(luò)的入口拉大了,這才成就了今天的大模型。
何愷明的第二項(xiàng)工作Mask R-CNN是在Facebook做的,他首次提出了一個(gè)真正高性能的物體檢測和算法框架,獲得了ICCV2017年最佳論文。湯曉鷗表示,何愷明是世界上唯一一個(gè)在畢業(yè)不到十年內(nèi),三次以第一作者的身份獲得CVPR、ICCV最佳論文的人。他首次把基于原碼的自編碼思想用于視覺領(lǐng)域的非監(jiān)督學(xué)習(xí),開啟了計(jì)算機(jī)視覺領(lǐng)域自監(jiān)督學(xué)習(xí)的大門,并被推廣到三維、音頻甚至是AI領(lǐng)域。
第三個(gè)學(xué)生林達(dá)華本科就讀于中國科大,碩士在香港中文大學(xué),博士是MIT。他2010年在MIT讀博士期間,獲得NIPS最佳學(xué)生論文,2014年回到湯曉鷗的實(shí)驗(yàn)室做教授。
林達(dá)華的第一項(xiàng)工作是OpenMMLab,在2018年從一個(gè)小團(tuán)隊(duì)開始,在沒有推廣投入的情況下,以口口相傳的形式成為國際上最具影響力的視覺算法開源體系,目前用戶遍及全球140多個(gè)國家和地區(qū)。
湯曉鷗還介紹了林達(dá)華的其他兩項(xiàng)工作成果,即將正式發(fā)布的千億參數(shù)、8K的多語種大語言模型“書生·浦語”,和有2000億參數(shù)、覆蓋100平方公里的城市級(jí)實(shí)景三維大模型LandMark。
對于三名學(xué)生在人工智能領(lǐng)域的成就,湯曉鷗評(píng)價(jià):王曉剛在深度學(xué)習(xí)興起的最初幾年,灑下了很多原創(chuàng)的種子;何愷明將深度學(xué)習(xí)的根基打得非常牢、非常深;林達(dá)華通過開發(fā)和大模型讓它枝繁葉茂。
湯曉鷗表示:“讓我非常欣慰的是,這顆大樹已經(jīng)開始開花結(jié)果。就在兩周前,我們的自動(dòng)駕駛大模型從9155篇文章中脫穎而出,獲得了CVPR2023年的最佳論文獎(jiǎng)。”
他援引谷歌學(xué)術(shù)統(tǒng)計(jì),稱這是改革開放40多年來第一篇全部由中國學(xué)者完成的國際計(jì)算機(jī)視覺三大頂會(huì)的最佳論文,文章的牽頭作者是王曉剛帶出來的博士。此外,OpenMMLab是林達(dá)華帶出來的博士陳愷做出來的,當(dāng)年湯曉鷗實(shí)驗(yàn)室做的另一篇超過人眼的人臉識(shí)別的文章的作者陸超超,也從劍橋大學(xué)博士畢業(yè)回到了上海,正在和中國唯一的圖靈獎(jiǎng)獲得者姚期智先生在上海期智研究院合作,從事AI基礎(chǔ)理論研究。“新一代的學(xué)生已經(jīng)在上海成功起步。”
在演講的最后,湯曉鷗再一次感謝上海,感謝這些學(xué)生,并援引了他認(rèn)為AI難以超越的“有趣靈魂”于謙在電影《老師好》里的一句臺(tái)詞: “我不是在最好的時(shí)光遇見了你們,而是遇見了你們,才有了這段最好的時(shí)光。”