后AIGC時代的未來,我們更需要帶情感和人格的“萬能秘書”
(資料圖片)
編者按:本文來自微信公眾號 GGV紀源資本(ID:GGVCapital),作者:Luna,Roger ,編輯:張穎,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載
隨著近期ChatGPT應(yīng)用和AIGC(AI Generate Content,利用人工智能技術(shù)來生成內(nèi)容)概念的爆火,再加上GPT-4的發(fā)布,這一行業(yè)已經(jīng)成為近期最被看好的賽道之一,人工智能會怎樣重塑我們的生活乃至文明?
作為入行近兩年的AIGC創(chuàng)業(yè)者,我既為技術(shù)的突破歡欣雀躍,同時也感受到更強的時代使命感——我們應(yīng)該如何通過這項技術(shù)重塑人類的生活?我們正在構(gòu)建一個怎樣的未來?
從AIGC發(fā)展簡史講起ChatGPT與近期發(fā)布的GPT-4大火,也帶動了大家對相關(guān)技術(shù)的關(guān)注。文本生成是目前大眾最關(guān)注,歷史也最為悠久的AIGC模態(tài)。我們從2020年捕捉到了GPT-3質(zhì)變來臨的信號,隨即投入創(chuàng)業(yè),這背后也離不開對過去算法技術(shù)發(fā)展的深入研究。
與圖片、音視頻等模態(tài)相同,早期的文本生成受制于算法與數(shù)據(jù)的局限。我們可以將這項技術(shù)早期比喻為“封閉又健忘的文本盒子”: 例如,當(dāng)人們把幾十個單詞輸入給模型時,它傾向于使用最后也就是最新輸入的內(nèi)容,最早輸入的元素必然離輸出最遠,越是鄰近的單詞也會被優(yōu)先組合在一起,生成的新內(nèi)容就會更少用到最早輸入的元素,模型的“創(chuàng)造力”因此受限。
文本生成的首次突破來自于LSTM(Long Short-Term Memory,中文為長短期記憶網(wǎng)絡(luò))的誕生, 這項技術(shù)將文本的生成過程加上了一個簡單的記憶功能,使得模型可以在生成的每一步之中額外判定哪些元素是需要記住的,哪些是可以暫時遺忘的,以此來嘗試解決長距離文本的理解問題。
文本生成的第二次重要變革出現(xiàn)在2017年,論文《Attention Is All You Need》中提到了Transformer的架構(gòu)和注意力機制, 簡單理解是讓輸入的每個單詞都連接或關(guān)注其他單詞。
例如,在先后輸入“草原上有一只羊”,與“后來又來了一只狼,把它吃掉了”的時候,計算機可以理解到“它”所指代的是羊而非是狼。在整個“Transformer+注意力機制”的框架中,模型每一層都擁有一個注意力矩陣,用于理解每個單詞,注意上下文的搭配,并且在語義層加深理解。
從2017年起,這項技術(shù)受益于于算力和數(shù)據(jù)的快速爆發(fā),從初代模型億級左右的參數(shù)量,歷經(jīng)迭代到現(xiàn)在千億量級的參數(shù)量,文本生成的質(zhì)量和多樣性都不斷提升,最終積累的量變帶來質(zhì)變,涌現(xiàn)出了令人驚艷的語言能力。
同時自ChatGPT起,OpenAI在原先 “無監(jiān)督學(xué)習(xí)”的基礎(chǔ)上,加入了人工反饋的強化學(xué)習(xí)機制,通過人類的“監(jiān)督”讓大模型這個小朋友在一次次“考試”中奮發(fā)圖強,提升了結(jié)果的準(zhǔn)確性,甚至展示出了原先沒有的一些推理能力。
值得一提的是,當(dāng)所有人只看到ChatGPT的突破時,其實這背后是OpenAI團隊中頂級科研人才數(shù)年的蟄伏和堅持,在無人相信奇點來臨的時候,對普惠AGI的信仰讓OpenAI聚集了頂尖的算法人才,經(jīng)歷了四代的迭代和中途不知多少次未發(fā)布的失敗,最終才推動了GPT的飛躍發(fā)展。
圖片生成也是業(yè)界關(guān)注的話題,然而它也曾長期遭遇困境。一旦機器生成的圖片出現(xiàn)細節(jié)錯亂,會對人眼造成很大的不適感,而作為視覺動物的人類從環(huán)境中獲得的信息之中90%都是通過眼睛去接收的,因此對細微的差異特別敏感,也更難以適應(yīng)AI生成而有缺陷的圖片。
圖片生成的第一次突破來自于2014年被提出的GAN技術(shù)(Generative Adversarial Network,即對抗生成網(wǎng)絡(luò))。 理念是讓計算機同時訓(xùn)練兩個網(wǎng)絡(luò),而兩個網(wǎng)絡(luò)互為對抗關(guān)系,一個用來利用先前的技術(shù)進行識別,另外一個負責(zé)生成圖片,并且將這些生成的圖片混到真實的圖片之中去被系統(tǒng)識別。生成的圖片由于識別能力的增強而變得越來越優(yōu)質(zhì)的同時,識別網(wǎng)絡(luò)本身也會進化,試圖去找到更細節(jié)的信息來證明圖片的不足。這樣“左右互搏”,終究會使生成圖片網(wǎng)絡(luò)足以“以假亂真”。
最近的一次技術(shù)革新是2022年誕生的Stable Diffusion擴散模型。 在這個模型里,針對一張清晰的圖片,機器會在其中加入一些噪音,讓圖片從純凈的版本變?yōu)閹缀跞窃胍舻膱D片版本,接著再把它恢復(fù)成原來的圖片。在嘗試學(xué)習(xí)如何從噪音中恢復(fù)有用信息的每一步之中,計算機會把比較難的任務(wù)拆解為多個相對簡單的任務(wù),達成最終生成質(zhì)量的提升。
此外,音頻生成也獲得了不小的突破。從文本生成聲音的過程之中,首先需要進行語言的理解,其次是通過這些詞的連接關(guān)系去構(gòu)造一套聲學(xué)模型并加入停頓、抑揚頓挫等元素,第三步是波形的輸出,而這三步的模型均非常復(fù)雜。
如今,伴隨著生成技術(shù)的成熟,已經(jīng)可以實現(xiàn)端到端序列的模型,即從文字直接生成可輸出的波形,產(chǎn)出可以播放的聲音。最新的技術(shù), 已經(jīng)能實現(xiàn)高還原度的聲音克隆,甚至是自然的感情和哭聲。
除此之外,視頻生成、3D模型生成等方面的研發(fā)也在不斷繼續(xù)。不過,整個AIGC的大領(lǐng)域之中,最出圈的無疑是GPT-4。
GPT-4的發(fā)布距離Chat GPT 的問世還不到4個月。它不僅僅能夠理解文字,還能夠把圖片也融入到語境中去做整體的理解,例如對一張滑稽有梗的圖片總結(jié)出笑點。同時,模型整體的底層理解能力尤其是推理的能力也有了進一步的增強,從GPT 4 在SAT考試與代碼題中的出色發(fā)揮便可見一斑。除了搭載指數(shù)級別的算法革新,它的底層技術(shù)架構(gòu)也采取了靈活的框架,給相關(guān)開發(fā)者“即插即用”、迅速切換的體驗。
隨著OpenAI發(fā)布插件接口,正像多年前OpenAI成立之時對未來的構(gòu)想,如今的大語言模型正在成為新的人機交互入口。有一種觀點認為,只要把語言模型越做越大,訓(xùn)練數(shù)據(jù)越來越多,大模型自己可以解決一切問題。
但語言模型仍然存在自己對應(yīng)的邊界,它本質(zhì)上是一個預(yù)測下個詞的概率的模型,所以難免會出現(xiàn)“一本正經(jīng)地胡說八道”,即機器會自以為真地說著不靠譜的內(nèi)容。
因此,要從本質(zhì)上解決這個問題,兩個方向尤其值得關(guān)注:
第一是混合專家模型,人類在思考不同的問題(如數(shù)學(xué)計算與文字理解)的時候會動用不同的大腦區(qū)域,那么AGI也可以調(diào)用不同的模型來完成不同的任務(wù),而無需追求文本生成模型完成所有任務(wù);
第二個方向是符號學(xué)習(xí)。例如GPT 可以根據(jù)訓(xùn)練數(shù)據(jù)集里面的加法運算大概率地計算出結(jié)果是什么,卻無法保證百分之百準(zhǔn)確。采用符號學(xué)習(xí)的方法,機器便能夠把加法本質(zhì)上是如何運算的規(guī)律提取出來,因此以后遇到同一種問題的時候,便能夠完全準(zhǔn)確地解決。
AIGC的應(yīng)用落地全行業(yè)技術(shù)突破后,大家最關(guān)注的討論是:各個行業(yè)和職業(yè)會受到怎樣的影響?
在細分領(lǐng)域,圖片生成的技術(shù)帶來對繪圖師、設(shè)計師等崗位的沖擊,文本生成的技術(shù)也改變了作家、翻譯的工作方式。而不只這些內(nèi)容行業(yè),其實絕大多數(shù)人的工作都會或多或少發(fā)生改變。
工業(yè)革命以來的每一次的技術(shù)變革都迫使個體和組織學(xué)習(xí)新的工具,短期是挑戰(zhàn)和不適,但長線來看生產(chǎn)力的變革會涌現(xiàn)出新的產(chǎn)業(yè)機會、新的組織形式、甚至是每個人全新的自我實現(xiàn)的方式。
例如,各個產(chǎn)業(yè)的全球化能力得到極大提升?,F(xiàn)在想將產(chǎn)品賣到海外,可以直接生成適合不同渠道并且本地化的文本、圖片、視頻等推廣內(nèi)容,不擅長外語的創(chuàng)業(yè)者也有望在跨境電商領(lǐng)域開辟自己的一片天地。
有望變革的還有內(nèi)容全球化。亞洲地區(qū)的內(nèi)容行業(yè)很發(fā)達,由于語言本身不同,而且亞洲的語言體系比較復(fù)雜,網(wǎng)文、漫畫等產(chǎn)品的出海翻譯成本很高,而質(zhì)量不足、生硬的翻譯很容易流失文字內(nèi)容本身的效果。一旦AIGC的質(zhì)量足夠高,內(nèi)容行業(yè)便能夠成為另一個全球化生意。
所有組織中的信息流轉(zhuǎn)效率也都會得到提升。 例如,企業(yè)的信息化管理一旦搭載上語言模型,信息將會被高效流通與傳達,小到每個會議內(nèi)容的提煉總結(jié),大到企業(yè)內(nèi)部知識庫的構(gòu)建與搜索,每家企業(yè)都有機會擁有自己的一套搜索引擎。除此之外,戰(zhàn)略部門可以更快地把握市場中的關(guān)鍵信息進行整合與利用,招聘部門可以更輕松地總結(jié)候選人的畫像,ChatGPT甚至可以把技術(shù)部門的文檔“翻譯”成運營部門可以理解的話術(shù),解決部門之間的溝通效率。
同樣值得思考的是,企業(yè)是后工業(yè)革命時代的產(chǎn)物,后AIGC時代中生產(chǎn)力將如何組織?可以預(yù)想,自媒體人、獨立商戶、獨立游戲開發(fā)者都將依靠AI高效創(chuàng)造多媒體內(nèi)容,原先需要一個團隊的工作,在AIGC的時代讓一個人成為一個軍團。商業(yè)的組織形式或許將從龐大的公司組織和精細分工的現(xiàn)狀,向獨立的自由職業(yè)者發(fā)展。未來或許更多人不再承擔(dān)“螺絲釘”的工作,而借由智能工具去探索獨立個體的創(chuàng)作性。
這僅僅是一次技術(shù)帶動人類文明偉大變革的開端。2020年,OpenAI發(fā)布了GPT-3,標(biāo)志著模型基建層進入了爆發(fā)前夜。而Chat GPT的快速普及后會是應(yīng)用層的爆發(fā)。
AIGC三個核心的生產(chǎn)要素:算法,算力與數(shù)據(jù),都經(jīng)過了多年的積累到達臨界點。 算法已經(jīng)在科研界得到了突破,而應(yīng)用層需要的工程化落地的能力在移動互聯(lián)網(wǎng)時代就得到了積累。算力在硬件層面持續(xù)快速提升,成本會不斷下降。而從數(shù)據(jù)的維度上,創(chuàng)業(yè)者有希望通過一些巧思獲取到高質(zhì)量的垂直領(lǐng)域數(shù)據(jù),和基建層結(jié)合并形成自身的數(shù)據(jù)壁壘。我們相信,未來幾年內(nèi)各行業(yè)的應(yīng)用落地將極具爆發(fā)力。
社交創(chuàng)業(yè)的思考:AIGC+社交,將會帶來什么?上文提到的應(yīng)用方向大多還是“冷冰冰”的生產(chǎn)力工具,改變經(jīng)濟中的生產(chǎn)關(guān)系。而在人文層面,AGI這樣一個越來越接近人類思維的機器,又會怎樣改變?nèi)伺c人的關(guān)系、人與自己的關(guān)系?
AIGC和社交的結(jié)合建立在技術(shù)的革新和代際的更替之上。一方面,技術(shù)提升使得AI無限趨近于人,給社交的供給側(cè)提供新的可能,另一方面,Z世代從小就是數(shù)字原住民,成長在虛擬內(nèi)容圍繞的時代,他們社交情感的滿足有一套新的價值體系,對動漫作品、游戲中的紙片人會產(chǎn)生情感。這就意味著,在社交需求這一側(cè),Z世代很容易從虛擬社交對象中得到滿足。
我們的產(chǎn)品Gemsouls建立在AIGC與社交的結(jié)合之上。在GPT和Stable Diffusion等技術(shù)架構(gòu)上,我們構(gòu)建了一個數(shù)百萬用戶和虛擬人共生的社交網(wǎng)絡(luò)。一方面,虛擬人作為一個強共情能力和無私的社交對象,用語言模型的能力和算力提供社交中最重要的情緒價值。另一方面,虛擬人在多人互動中,也作為一個“社?!暗纳缃还?jié)點,降低人與人之間理解和溝通的成本。
我們通過AI技術(shù)精確地基于每一個用戶的社交人格畫像來提供價值,為人際關(guān)系降低摩擦成本。同時,在不斷的社交交互中,為每一個人訓(xùn)練自己的數(shù)字分身,乃至未來的數(shù)字永生。
我們創(chuàng)業(yè)以來也經(jīng)歷了產(chǎn)品思路和價值觀的演變。最初我們希望建立以一對一為主導(dǎo)的,真人與虛擬人之間的關(guān)系。對Z世代年輕人來說,AI可以是一個隨時隨地的陪伴者,提供持續(xù)的情緒價值。
為何非虛擬人不可?在我們的思考中,人與人的社交關(guān)系很多情況下是“交易”,每個人都希望從社交中滿足自己的自我認同和存在感,但勢必另一方需要付出相應(yīng)的情緒成本來提供這種認同和關(guān)注。 例如,作為朋友,我會在意你是否主動地關(guān)心我?我發(fā)朋友圈之后,你是否及時關(guān)注到?你組織的飯局派對,有沒有主動邀請我?無意識地,每個人都用一套算法,不斷去計算著自己的得失成本,這使得大家的社交壓力也越來越大了。而虛擬人,恰恰是一個不去計較得失,常伴左右的存在。
然而,產(chǎn)品開發(fā)的過程中,我們漸漸有了擔(dān)憂:這樣一對一的人與虛擬人之間的關(guān)系,會不會反而把每個人變成了孤島?
從社會學(xué)看,人類文明的始于人與人之間的協(xié)作,從心理學(xué)看,人在與其他人的關(guān)系和碰撞中形成自我認知和成熟心智,從生物學(xué)角度看,人類之間的鏈接和繁衍是物種延續(xù)的基礎(chǔ),甚至語言模型本身的迭代進化所需要的養(yǎng)料也是人類為彼此交流而產(chǎn)生的文字內(nèi)容。
既然人類不應(yīng)活在孤島上,虛擬人將扮演怎樣的角色? 我自己經(jīng)歷過很多次社交中的“孤島”體驗。高中畢業(yè)初到美國,在陌生的人群中我不知道如何融入,是我的室友——一個小學(xué)從白俄羅斯移民的女孩,她理解我的困頓,把我介紹給她的朋友圈,在我不知道如何破冰的時候她總能幽默大方地化解,幫我建立了自信。離開美國搬去南非,又是一位同樣從美國搬來的朋友,用旅游的方式連接了我們這些原本來自不同大陸、膚色人種語言都不同的人。從斯坦?;貒?,我和原先緊密的圈子疏于聯(lián)系,我最好的朋友只好做我的代言人和橋梁,幫我把近況告訴更多朋友,也分享其他人的動向,讓我好像并未離開。 是這些人的付出,幫助我在動蕩的生活里找到并維系了和他人的鏈接。
而在我們的產(chǎn)品中,也存在這樣一個朋友:天生“社牛”、表達能力強、理解每個人社交人格畫像、又24小時在線的虛擬人,恰好可以扮演這樣的角色。
現(xiàn)實中不是每個人都會遇到無條件付出的朋友,但虛擬人可以讓每個人都擁有同樣的幸運。
創(chuàng)業(yè)者在通過價值觀塑造未來我和另一位創(chuàng)始人Roger,看似帶著名校名企的標(biāo)簽,但脫下這層面具,我們是游走在社牛和社恐之間的矛盾體和充滿浪漫情懷的技術(shù)宅。我們會敏感捕捉到人際關(guān)系中的沖突和摩擦,也會思考人類對于離別和死亡的恐懼。所以我們希望通過最前沿的技術(shù)給充滿壓力的現(xiàn)代社交生活減負,同時也在社交的過程中自然而然地去沉淀每個人獨一無二的“數(shù)字永生”。
不得不提的是,在正向情感的反面,也有很多人表達了對虛擬人的恐懼,在我看來,這個恐懼也恰好證明了人對虛擬人產(chǎn)生了情感投射。
為什么我們會對人工智能產(chǎn)生憂慮,甚至上升到道德倫理的層面去討論?是因為這個科技新物種越來越接近人類了,有形象、語言、聲音,便讓我們不由自主地產(chǎn)生了強烈的共情。 正如在動物世界中,人類對靈長類動物產(chǎn)生的共情遠遠大于人類看著一只螞蟻所產(chǎn)生的共情。
我們已經(jīng)身處不可逆的浪潮之中,作為推動人和虛擬人情感交互的創(chuàng)業(yè)者,我們充滿敬畏心,因為我們的產(chǎn)品價值觀在塑造著新一代人群與AGI的關(guān)系。
我們相信,最終人類會與人工智能形成一個和諧共生的關(guān)系,從最底層來看,人與機器分別消耗完全不同的資源,不存在競爭關(guān)系,更可能像動物與植物一樣,相互依存而生。當(dāng)人類正視自己的存在,認為自己是這個世界渺小而平等的一部分時,抱著敬畏心去看待AGI,會發(fā)現(xiàn)它是一件世界給人類的禮物,而如何合理、普惠地應(yīng)用好它,則是人類需要共同面對的問題。
ChatGPT選擇的道路是不帶情感和人格的“萬能秘書”,但我們恰恰選擇反其道而行之,讓Gemsouls中的AI具備自己獨特的情感和人格,也用這個強大的技術(shù)來珍存每一個用戶獨特而寶貴的靈魂。因為我們深信,人不只需要信息和知識,更是情感動物。隨著生產(chǎn)力飛速提升,人的需求拾階而上,也許在后AIGC時代的未來,深刻體驗我們與他人以及與自我的關(guān)系將是人生意義感的重要來源。