小13箩利洗澡无码视频免费网站-亚洲熟妇无码av另类vr影视-国产精品久久久久乳精品爆-宅女午夜福利免费视频

這家公司賺麻了!AI爆火的背后,其實(shí)是廉價(jià)勞動(dòng)力|環(huán)球觀點(diǎn)
時(shí)間:2023-03-21 12:43:37  來源:引領(lǐng)外匯網(wǎng)  
1
聽新聞

國產(chǎn)ChatGPT還沒火,數(shù)據(jù)標(biāo)注公司已經(jīng)漲了幾輪。

創(chuàng)業(yè)邦(ID:ichuangyebang)原創(chuàng)

作者丨洪雨晗


(資料圖)

編輯丨昝立永

題圖丨unsplash

國內(nèi)又一AI領(lǐng)域的大牛宣布進(jìn)軍大模型領(lǐng)域創(chuàng)業(yè)。

3月19日晚,創(chuàng)新工場董事長兼CEO李開復(fù)在朋友圈發(fā)布消息稱其正在親自籌組 Project AI 2.0,一個(gè)致力打造 AI 2.0 全新平臺(tái)和 AI-first 生產(chǎn)力應(yīng)用的全球化公司。李開復(fù)認(rèn)為目前的人工智能應(yīng)用,僅僅是AI 2.0 能力的開端,而在他的計(jì)劃中,Project AI 2.0 不僅僅要做中文版 ChatGPT,更要去引領(lǐng)全球的人工智能浪潮。

李開復(fù)表示:“AI 2.0帶來的平臺(tái)型機(jī)會(huì)將比移動(dòng)互聯(lián)網(wǎng)大十倍,這也是中國第一次迎來平臺(tái)競逐的機(jī)會(huì)。新平臺(tái)上所有用戶入口和界面都將被重寫,能夠建立下一代平臺(tái)的公司將會(huì)取得巨大的優(yōu)勢和話語權(quán)?!?/p>

上周是人工智能領(lǐng)域有史以來最瘋狂的一個(gè)星期,從GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,再到周末晚李開復(fù)朋友圈發(fā)布“英雄帖”,人工智能領(lǐng)域的一枚枚重磅炸彈讓人應(yīng)接不暇。

在大模型以及ChatGPT的消息刷屏,各AI領(lǐng)域的大牛集結(jié)向國產(chǎn)大模型發(fā)起沖擊之時(shí),其實(shí)有一家公司在數(shù)月前ChatGPT火熱之時(shí)已經(jīng)賺麻了。

站上風(fēng)口,老天喂飯

從上周微軟正式宣布,將Microsoft 365服務(wù)全面接入聊天機(jī)器人技術(shù)AI Copilot,以海天瑞聲為代表的數(shù)據(jù)標(biāo)注企業(yè)漲幅就已超過15%,如果將時(shí)間線延長至今年1月份,海天瑞聲的股價(jià)已從當(dāng)時(shí)的每股60元上下暴漲至每股近200元,股價(jià)翻了三倍多。

即便海天瑞聲緊急發(fā)布公告作出風(fēng)險(xiǎn)提示:“自然語言業(yè)務(wù)對公司整體貢獻(xiàn)大約在10%左右”“公司尚未與OpenAI開展合作,其ChatGPT的產(chǎn)品和服務(wù)尚未給公司帶來業(yè)務(wù)收入”,但資本市場的熱情仍然不減,公司的股價(jià)一直在高位徘徊。

資本市場對以海天瑞聲為代表的數(shù)據(jù)標(biāo)注企業(yè)的偏愛不難理解,有投資人打趣道:“有實(shí)際產(chǎn)品就是不一樣,AI這三個(gè)月的熱度超過了元宇宙三年間積攢的熱度?!痹贑hatGPT火熱之時(shí),相關(guān)概念股自然也是水漲船高,更何況根據(jù)海天瑞聲的招股書顯示,其主要客戶名單中有Open AI背后的投資公司微軟的身影。

也就是說海天瑞聲雖然沒有給ChatGPT母公司Open AI提供相關(guān)數(shù)據(jù)標(biāo)注服務(wù),但其在投資者互動(dòng)平臺(tái)表示微軟一直是公司多年合作的頭部客戶,而且除了微軟外,百度、騰訊、阿里、字節(jié)等國內(nèi)有實(shí)力做中文大模型的互聯(lián)網(wǎng)大廠幾乎都是海天瑞聲的重要客戶。

海天瑞聲可以說非常幸運(yùn),雖然沒有去刻意追尋時(shí)代的風(fēng)口,但其自2005年成立以來卻數(shù)次乘上人工智能爆發(fā)的東風(fēng),實(shí)現(xiàn)了迅猛發(fā)展,當(dāng)然,這和海天瑞聲創(chuàng)始人賀琳的專業(yè)技術(shù)背景密不可分。

據(jù)公開資料顯示,海天瑞聲創(chuàng)始人賀琳是68年生人,從北京大學(xué)畢業(yè)后就一直在中國科學(xué)院聲學(xué)研究所,從事語音識(shí)別、語音合成、漢語語言理解、語音心理測試等方面的研究工作,先后參與了“漢語人機(jī)語音對話系統(tǒng)工程”、“漢語語音參數(shù)合成”等國家自然科學(xué)基金重點(diǎn)項(xiàng)目。

賀琳35歲創(chuàng)立海天瑞聲的原因在于基礎(chǔ)訓(xùn)練數(shù)據(jù)的缺乏:“當(dāng)時(shí)我認(rèn)為這是未來的一個(gè)方向,因?yàn)榇蠹以诠ぷ髦卸紩?huì)遇到這樣的瓶頸。一些企業(yè)的研究員更想專注于做算法,但又缺乏數(shù)據(jù)?!?/p>

海天瑞聲成立初期主要從事語音采集及利用方面的業(yè)務(wù),很明顯,憑借賀琳的專業(yè)技術(shù)底蘊(yùn)對采集的開源語音進(jìn)行加工處理,也因此海天瑞聲在智能語音方面積累了深厚的研究成果。

隨著人工智能行業(yè)的迅猛發(fā)展,數(shù)據(jù)標(biāo)注訓(xùn)練的市場需求開始涌現(xiàn),海天瑞聲拓展了業(yè)務(wù)范圍,在訓(xùn)練數(shù)據(jù)方面進(jìn)行了技術(shù)研發(fā),并在此期間拿下了微軟、百度、三星等大客戶。

“我們的許多客戶都是全球性的大型科技公司和頭部人工智能企業(yè),他們的產(chǎn)品需要推廣到世界各個(gè)角落,所以產(chǎn)品中的語種/語言功能也需要能夠匹配其所布局的地方區(qū)域。”賀琳表示,隨著人工智能行業(yè)的進(jìn)一步發(fā)展,海天瑞聲的業(yè)務(wù)量猛增,根據(jù)海天瑞聲2022年半年報(bào),其在國內(nèi)市場占有率達(dá)12.9%。

還能火多久?

賀琳曾對外表示:“數(shù)據(jù)是算法發(fā)展和演進(jìn)的‘燃料’,算法、算力、數(shù)據(jù)這三個(gè)要素一定要互相作用,才能使AI行業(yè)得以發(fā)展?!?/p>

AI數(shù)據(jù)標(biāo)注是訓(xùn)練AI大模型過程中不可或缺的一環(huán),AI數(shù)據(jù)的處理過程包括對數(shù)據(jù)的收集、原始數(shù)據(jù)的清洗以及對數(shù)據(jù)進(jìn)行標(biāo)注,數(shù)據(jù)標(biāo)注通常被視為沒有什么技術(shù)含量的“dirty work(臟活累活)”,因?yàn)閿?shù)據(jù)標(biāo)注僅僅是工人對文本、圖像、視頻進(jìn)行分類劃分,把數(shù)據(jù)轉(zhuǎn)化為機(jī)器模型可以理解的信息。

海天瑞聲的NLP數(shù)據(jù)標(biāo)注服務(wù),圖源:海天瑞聲官網(wǎng)

早期的AI模型訓(xùn)練有一個(gè)廣為流傳的說法——“有多少人工,就有多少智能”。舉一個(gè)簡單的例子,一個(gè)AI模型想要學(xué)會(huì)識(shí)別狼和狗的圖像,那么一種方法就是先用人工識(shí)別標(biāo)注好的數(shù)據(jù)進(jìn)行分類,喂給AI模型進(jìn)行學(xué)習(xí),AI模型的能力越強(qiáng),背后人工的付出就越多。

因而這項(xiàng)工作對勞動(dòng)力幾乎沒有要求,所以不少企業(yè)把這項(xiàng)工作外包給第三方。像Open AI就將部分?jǐn)?shù)據(jù)標(biāo)注工作外包給肯尼亞勞工,但因工作環(huán)境糟糕,加之低廉的薪水,從而被不少媒體報(bào)道批評。

Meta首席人工智能科學(xué)家Yann LeCun就曾評論ChatGPT稱:“(它)并不具有創(chuàng)新性,也不具有革命性……它只是個(gè)巧妙的組合”。

其實(shí)不僅是Open AI,國內(nèi)不少專門的數(shù)據(jù)標(biāo)注公司也是設(shè)立在十八線的鄉(xiāng)鎮(zhèn)城市,國內(nèi)媒體《三聯(lián)生活周刊》就有一篇報(bào)道專門講述了黃土高原縣城里的一群寶媽成了AI訓(xùn)練師。就連海天瑞聲也不例外的將其最基礎(chǔ)的數(shù)據(jù)分類、標(biāo)注公司外包給了第三方。

可以說,很長一段時(shí)間以來,AI數(shù)據(jù)的處理和標(biāo)注其實(shí)就是一個(gè)簡單的人力“內(nèi)卷”的生意。誰的人工更便宜,誰就能接到更多的訂單,誰的勞動(dòng)力更多,誰就能接到更大的數(shù)據(jù)包標(biāo)注工作。

然而,隨著行業(yè)對ChatGPT研究越多,發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)標(biāo)注工作已難以支撐起GPT-4這樣的人工智能模型,GPT-4可以根據(jù)人工標(biāo)注的反饋結(jié)果來不斷優(yōu)化自身模型,專業(yè)的標(biāo)注、評估和反饋相當(dāng)于ChatGPT進(jìn)化過程中的獎(jiǎng)勵(lì)函數(shù)。

海天瑞聲CV標(biāo)注,圖源:海天瑞聲官網(wǎng)

不少有志于自身打造中文世界大模型的公司已開始意識(shí)到這件事情,不再外包數(shù)據(jù)標(biāo)注的工作。不少標(biāo)注師的工作也從圖像是貓還是狗變成了一些涉及意識(shí)形態(tài)和價(jià)值觀判斷的工作,在一些專業(yè)細(xì)分領(lǐng)域還涉及了行業(yè)的Know-How,工作門檻已開始提高,普通標(biāo)注師進(jìn)行簡單的圖像、文字劃分已難以完成這部分工作。

這些變化已開始對現(xiàn)在的AI數(shù)據(jù)標(biāo)注行業(yè)造成了沖擊,雖然在人工智能迅猛發(fā)展的今天,部分初始階段的普通數(shù)據(jù)標(biāo)注需求依然存在,但數(shù)據(jù)標(biāo)注公司想要長久發(fā)展,就需要在無監(jiān)督(含自監(jiān)督)、半監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)上有投入和積累,還需要不斷提高數(shù)據(jù)標(biāo)注師的素質(zhì)能力,升級自己的人才梯隊(duì),而不是簡單的外包給人力成本更低的第三方。

從“dirty work”到有一定技術(shù)門檻的工作,沒有人能躺著掙到錢,海天瑞聲想要繼續(xù)站在風(fēng)口,必須開始行動(dòng)起來了。

關(guān)鍵詞: