開源中國董事長馬越
(相關(guān)資料圖)
出品 | 搜狐科技
作者 | 梁昌均
“谷歌在人工智能方面并沒有護(hù)城河,OpenAI也沒有?!边@是不久前谷歌內(nèi)部一份研究給出的判斷,理由則是開源的AI模型正在與它們有力競爭。
開源的力量終于在激烈的百模大戰(zhàn)中涌現(xiàn),并越發(fā)不可忽視。Meta開源的LLaMA 2引起轟動,智源、智譜、百川等先后開源,阿里也在上周打響國內(nèi)大廠大模型開源的第一槍。
在頭部AI開源社區(qū)HuggingFace中,已有超過27萬個開源模型,其中對話和文本生成模型接近2萬個,不少都是今年新增的大模型。
在開源中國董事長馬越看來,開源本身是一種研發(fā)模式,也是一種競爭策略,是否開源跟產(chǎn)品研發(fā)能力有關(guān),也是一件特別市場化的事。因此Meta、阿里云等開源模型,更多是市場競爭策略的選擇。
不過,馬越對搜狐科技強(qiáng)調(diào),絕對領(lǐng)先的技術(shù)不太可能會開源,因為閉源的商業(yè)變現(xiàn)反射弧相對更短、更直接?!癘penAI從GPT-3絕對領(lǐng)先后不再開源,如果持續(xù)一騎絕塵大概率今后還是不會開源。”
馬越認(rèn)為,國內(nèi)先天性投入較差,說幾個月、半年追上OpenAI不太可能,反倒可能是半年之后它把我們拋得更遠(yuǎn)。但幸虧有開源,為很多追趕者提供了超越的可能,且從中也一定會誕生類似ChatGPT的殺手級應(yīng)用。
在他看來,AI大模型的關(guān)鍵是要有人用,沒需求、沒反饋,就無法迭代,不能閉門造車?!安灰獮榱四P投P?,不要去追逐富人的游戲,要從現(xiàn)在的用戶去倒推,從能夠創(chuàng)造的商業(yè)價值去倒逼技術(shù)選擇。”
同時,馬越認(rèn)為,國內(nèi)巨頭在大模型上不可能齊頭并進(jìn),只會有一兩個領(lǐng)先,且會選擇掙錢更快的方式?!叭绻]源能讓大家以很低的成本用起來,就沒必要去開源?!?/p>
但開源也存在風(fēng)險,如果是好的模型開源,能夠推動AI普惠,降低個人和組織去賦能千行百業(yè)的成本。如果技術(shù)和產(chǎn)品本身沒有競爭力,開源也不是靈丹妙藥,反倒會更快“見光死”。
“開源本身也會形成競爭,如果用戶都不下載使用,那也沒意義。開源模型好不好絕不是靠權(quán)威來背書,而是要靠大眾點評,關(guān)鍵是看可持續(xù)增長的用戶量和使用量。”馬越表示。
在互聯(lián)網(wǎng)時代,開源的力量不容小覷,相關(guān)的開源軟件都是服務(wù)器和移動端操作系統(tǒng)的市場主力。馬越就此給出論斷:未來AI大模型開源的市場份額會更大,閉源只會為少量用戶服務(wù),但因它的商業(yè)反射弧快,變現(xiàn)效率高,會吃掉大部分利潤。
面對當(dāng)前正酣的百模大戰(zhàn),馬越認(rèn)為這是熱度剛開始時的正常競爭,就像當(dāng)年的“百團(tuán)大戰(zhàn)”?!暗ㄓ么竽P妥詈髸勤A者通吃,只有少量幾家能夠勝出?!?/p>
對垂直模型來說,則需要類似HuggingFace的分發(fā)平臺。“大模型開源是為愛發(fā)電,通過開源相當(dāng)于節(jié)約了90%的成本,這是成本最低的方式?!?/p>
馬越還認(rèn)為,AI和開源是相互成就的乘法關(guān)系,會讓對方加速發(fā)展?!安豢块_源,大模型沒法傳播落地;沒有大模型,開源也不能在互聯(lián)網(wǎng)時代的未來實現(xiàn)新高峰的增長?!?/p>
談及這些年國內(nèi)開源生態(tài)的發(fā)展,馬越則用“超出預(yù)期”來形容。十六年前,他回國成立了國內(nèi)第一家開源技術(shù)服務(wù)公司,打造了國內(nèi)最早的開源社區(qū),并帶領(lǐng)Gitee成為全球第二大代碼托管平臺。
馬越回憶到,2007年剛回國時,沒多少人理解開源的概念,但現(xiàn)在中國已是全球第二大開源生態(tài)貢獻(xiàn)國,有了開源基金會和國際通用的開源協(xié)議,開源還被寫入十四五規(guī)劃。他認(rèn)為,開源能夠驅(qū)動自主創(chuàng)新、提高創(chuàng)新速度。
開源中國最近也完成一輪7.75億元的融資,20多家股東中有一半是國資,百度、華為、聯(lián)想也有投資。馬越表示,開源中國重組為中立平臺后,新使命是打造中國版的HuggingFace,希望借此早點結(jié)束百模大戰(zhàn),讓千行百業(yè)都能用上大模型。
以下是對話實錄(經(jīng)編輯整理)
搜狐科技:AI涉及很多要素,AI開源開的到底是什么?這塊誰做得比較領(lǐng)先?
馬越:當(dāng)前需要多關(guān)注HuggingFace,這是AI領(lǐng)域的GitHub。開源除了代碼,還有模型、數(shù)據(jù)集等,每家企業(yè)可能不一樣。好的開源模型能夠推動AI普惠,極大降低個人和組織去賦能千行百業(yè)的成本。
搜狐科技:阿里、智譜、百川等先后開源自己的模型,怎么看這些企業(yè)開源的行為?
馬越:OpenAI遙遙領(lǐng)先,其它企業(yè)不開源的話其實很難有建樹,拿著模型也沒多大意義,還不如開源。通過開源免費(fèi)先把用戶獲取過來是個極好的做法,也十分重要,否則很難在百模大戰(zhàn)中上桌。如果靠開源靠免費(fèi),還是吸引不來用戶,只能說明產(chǎn)品競爭力實在不行,被淘汰了也能更早地發(fā)現(xiàn)問題,反過來也能印證開源行為的價值。
企業(yè)開源也會面臨商業(yè)回報的問題,反射弧長,變現(xiàn)效率低,前期研發(fā)成本打水漂。但換個思路來看,開源的目的是更好地獲得用戶,塑造口碑和品牌,獲得用戶反饋,也可以看作是市場營銷的行為。
搜狐科技:阿里打響國內(nèi)大廠大模型開源第一槍,未來會有更多大廠開源嗎?
馬越:國內(nèi)這幾家巨頭不可能齊頭并進(jìn),以后只會有一兩個遙遙領(lǐng)先,且一定會選擇掙錢更快的方式。如果閉源就能讓大家以很低的成本就用起來,何必開源?但如果閉源沒有好的商業(yè)回報,自身也沒那么強(qiáng),不開源的話很難坐上牌桌。
大模型關(guān)鍵是要有人用,沒需求,沒反饋,就無法迭代,閉門造車有什么用?ChatGPT沒有開源,但短短幾個月就有上億人用,它何必開源呢?這是個市場博弈問題,市場競爭、用戶受益壓倒一切,不是為了開源而開源,它只是手段。
搜狐科技:OpenAI最初開源,但在GPT-3之后不再開源,又有消息稱在開發(fā)開源模型,怎么看這種搖擺?
馬越:開源本身是一種研發(fā)模式,也是個競爭策略,本質(zhì)上是個方法論。是否開源跟產(chǎn)品研發(fā)的能力進(jìn)度有關(guān),也是一件特別市場化的事。GPT-3之后的版本非常厲害,不需要開源,后面很多追趕者卻需要用開源的方式去追趕。所以絕對領(lǐng)先的技術(shù)不太可能會開源,因為閉源的商業(yè)變現(xiàn)反射弧相對更短、更直接。
搜狐科技:開源的大模型能追上Open AI嗎?從中會誕生出類似ChatGPT的殺手級應(yīng)用?
馬越:開源模型一定會誕生類似ChatGPT這樣的應(yīng)用。垂直場景商機(jī)無限,就看誰能應(yīng)用。不要為了模型而模型,不要去追逐富人的游戲,要從現(xiàn)在的用戶去倒推,從能夠創(chuàng)造的商業(yè)價值去倒逼技術(shù)選擇。
OpenAI做了好幾年,燒了很多錢,相比之下國內(nèi)先天性的投入較差,幾個月、半年追上不太可能,更大可能是半年之后它把我們拋得更遠(yuǎn)。我甚至覺得可能永遠(yuǎn)跟不上它的腳步,因為它沒有算力卡脖子等問題,還在加速度成長。但幸虧有開源,提供了競爭的可能。
搜狐科技:楊立昆認(rèn)為,Meta開源LLaMA2會改變大模型行業(yè)的競爭格局,您怎么看?
馬越:看看歷史就很清楚。開源的安卓能占有移動操作系統(tǒng)80%的市場份額,但利潤可能只有百分之二三十,大頭讓份額只有20%左右的iOS拿走。開源也差不多,它在策略上是讓閉源無法通吃,未來大多數(shù)人和企業(yè)會使用開源模型,市場份額會更大。閉源只為少量用戶服務(wù),但反射弧快,變現(xiàn)效率高,會吃掉大部分利潤。
搜狐科技:國內(nèi)已進(jìn)入百模大戰(zhàn),您怎么看這股熱潮?這些大模型都能活下去嗎?
馬越:很多人起哄、追熱點,反正人口多、場景多、不缺錢,這是無序盲目的競爭,很多投資人哪怕知道只會贏一兩家,也不敢錯過,有些創(chuàng)業(yè)者可能也抱著投機(jī)心態(tài)。它會持續(xù)一段時間,如同當(dāng)年的“百團(tuán)大戰(zhàn)”。
但通用模型是大廠的游戲,最后只有少數(shù)幾家巨頭能勝出,其它家可能都會消失,我不太相信會有多少純創(chuàng)業(yè)公司能做出殺手級的通用模型。垂直模型則需要類似HuggingFace的分發(fā)平臺,市場化自由競爭。
目前看,大模型開源就是為愛發(fā)電,通過在已經(jīng)用數(shù)據(jù)集訓(xùn)練過的開源模型上推理和調(diào)優(yōu)比從頭訓(xùn)練一個模型可以節(jié)約90%的成本,這是使用門檻最低的方式。
搜狐科技:開源對AI的落地應(yīng)用會有什么樣的作用?怎么看兩者之間的關(guān)系?
馬越:開源第一波浪潮是從互聯(lián)網(wǎng)開始,開源的操作系統(tǒng)、數(shù)據(jù)庫等基礎(chǔ)設(shè)施給了互聯(lián)網(wǎng)公司野蠻生長的機(jī)會,互聯(lián)網(wǎng)使得獲取開源項目更加容易,它們是相輔相成的乘法關(guān)系。
AI類似互聯(lián)網(wǎng),跟開源也是相互成就的乘法關(guān)系,會讓對方加速發(fā)展。不靠開源,大模型沒法很好地傳播落地;沒有大模型,開源也不能在互聯(lián)網(wǎng)時代的未來實現(xiàn)新高峰的增長。
搜狐科技:過去國內(nèi)比較依賴國外開源軟件,現(xiàn)在強(qiáng)調(diào)自主創(chuàng)新,開源如何推動創(chuàng)新?
馬越:開源可以讓我們站在巨人的肩膀上,是驅(qū)動生產(chǎn)力發(fā)展的一個不可避免的方式,也能驅(qū)動自主創(chuàng)新,提高創(chuàng)新的速度。現(xiàn)在有人指出我們應(yīng)該在什么地方上投入,我覺得那就利用好開源的方法論。但現(xiàn)在想要薅羊毛的太多了,最大問題是不敬畏專業(yè),開源是個專業(yè)的事,代碼托管平臺技術(shù)含量很高,不是誰都能干,也不是一蹴而就。
搜狐科技:開源越來越受重視,開源中國希望起到什么樣的作用或達(dá)成什么目標(biāo)?
馬越:新使命是要把軟件產(chǎn)品研發(fā)平臺升級為AI工程平臺,幫助軟件工程師升級為AI工程師,打造中國版的HuggingFace。我們是中立第三方,以開發(fā)者利益出發(fā),做這件事比大廠合適。我們希望借此讓百模大戰(zhàn)早點結(jié)束,讓每家企業(yè)、每個人都能用上大模型,未來將是千模甚至是萬模大戰(zhàn)。我們目前引進(jìn)的7000多個模型會在今年底隨著新平臺上線,但要先解決算力問題。
搜狐科技:開源中國如何商業(yè)化?在獲得融資后,接下來的重點規(guī)劃是什么?
搜狐科技:開源中國現(xiàn)在是徹底商業(yè)化的軟件工具廠商,已經(jīng)實現(xiàn)盈虧平衡。接下來會加大信創(chuàng)產(chǎn)品線的開發(fā),并擁抱人工智能。未來我們希望作為一家高科技公司在科創(chuàng)板上市,成為國內(nèi)軟件工程和AI工程的第一股。