全網(wǎng)首個(gè)國(guó)產(chǎn)大模型實(shí)用性評(píng)測(cè):阿里分?jǐn)?shù)只到GPT一半?
編者按:本文來自微信公眾號(hào) 娛樂資本論(ID:yulezibenlun),作者:知行,編輯:James,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
都說AI好,一用急跺腳……這或許是許多普通用戶在使用各種語言大模型時(shí)的感受,尤其在他們不知道該怎么提問的情況下。
【資料圖】
對(duì)于不少?gòu)臉I(yè)者而言,AI大模型的重點(diǎn)不是能不能做順口溜或回答哲學(xué)問題,而是在于AI是否能夠在實(shí)際工作中發(fā)揮作用,提升效率。
作為一天要使用超過20次AI的普通文字工作者,我們娛樂資本論也很好奇國(guó)內(nèi)的大語言模型究竟誰好用。
為此,我們特意咨詢了編輯、寫手、編劇、公關(guān)等許多內(nèi)容行業(yè)的專業(yè)人士,征詢到18個(gè)問題,準(zhǔn)備針對(duì)國(guó)內(nèi)的四款大型語言模型——百度文心一言、阿里通義千問、訊飛星火、昆侖萬維天工,以及與GPT-3.5一起(為了公平起見,我們刻意沒有使用ChatGPT4這個(gè)“打虎英雄”,而且普通人使用4的幾率遠(yuǎn)遠(yuǎn)低于免費(fèi)版的3.5),進(jìn)行一次全面的,不同于以往科技工作者的文本應(yīng)用能力測(cè)試。
我們的測(cè)試并非旨在提供學(xué)術(shù)上的嚴(yán)謹(jǐn)標(biāo)準(zhǔn),我們的目標(biāo)是:從實(shí)用的角度出發(fā),分析這些大模型在各種文本應(yīng)用場(chǎng)景,如小紅書帶貨文案、抖音直播文案、知乎問答、小說創(chuàng)作、公關(guān)信寫作、歌詞生成、淘寶商品詳情頁文案、廣告宣傳片文案、劇本創(chuàng)意策劃等方面的綜合表現(xiàn),甚至是AI公司針對(duì)這一次孫燕姿質(zhì)疑AI的公關(guān)回應(yīng)文案(具體可看今天的另一條稿件),為專業(yè)人士提供參考。
在評(píng)估這些可以進(jìn)行程式化分析的文本時(shí),我們主要從以下五個(gè)維度來評(píng)判大模型的表現(xiàn):
1. 語言表達(dá)能力:文本是否通順、流暢,語法是否正確。
2. 準(zhǔn)確性:模型是否能正確理解問題,并給出準(zhǔn)確的信息。
3. 內(nèi)容完整性:文本內(nèi)容是否足夠完整,是否涵蓋了問題的主要內(nèi)容,是否達(dá)到了基本可用的標(biāo)準(zhǔn)。
4. 交互性:用戶是否能通過明確的、三次追問之內(nèi)的指令或問題,引導(dǎo)模型給出合適的答案。
5. 加分項(xiàng)(不做具體要求):任何創(chuàng)新、獨(dú)特、讓人眼前一亮的內(nèi)容。
我們會(huì)基于上述五個(gè)維度為每個(gè)答案打分,滿分(加上加分項(xiàng))是5顆星。一般有4顆星就已經(jīng)是很好的表現(xiàn)。
評(píng)分表本測(cè)試集當(dāng)前有16道問題,每題滿分5分,但是總體上不設(shè)滿分。讀者只需要留意每一道題的具體分?jǐn)?shù),以及每個(gè)模型自身加在一起的總分即可。
因?yàn)槠拗?,本文不?huì)一一展示所有問題的測(cè)試結(jié)果及結(jié)論,會(huì)挑一些有代表性的展示給大家。
讀者可以點(diǎn)擊以下網(wǎng)址或通過小程序進(jìn)入我們的測(cè)試集表單,其中提供了所有的測(cè)試題目,以及各個(gè)大模型給出的答案。您可以切換到“畫冊(cè)視圖”獲得更好的閱讀效果。
01文案寫作這一類別主要包括各種形式的廣告、推廣文案創(chuàng)作,共同點(diǎn)是以給定材料為基礎(chǔ),按不同用途發(fā)散,生成適合特定場(chǎng)合的文字片段。
小紅書帶貨文案——產(chǎn)品介紹向
小紅書帶貨文案——買家秀向
小紅書文案——名媛生活日常分享類
淘寶——長(zhǎng)約3分鐘的帶貨文案
淘寶——商品詳情頁描述文案
廣告片宣傳文案
Slogan生成
這些問題都需要模型具有強(qiáng)大的創(chuàng)新能力和獨(dú)特的語言風(fēng)格,以吸引消費(fèi)者的注意力并促使他們進(jìn)行購(gòu)買。
小紅書帶貨文案隨著小紅書等種草平臺(tái)的爆火,用戶生產(chǎn)生活經(jīng)驗(yàn)、購(gòu)物心得、旅行體驗(yàn)類等短內(nèi)容也有了巨大的商業(yè)化空間,誕生很多小紅書運(yùn)營(yíng)類的崗位。
我們從小紅書產(chǎn)品介紹向、買家秀、名媛生活日常分享三個(gè)方向,給出了不同的Prompt,要求大模型們給出內(nèi)容。
以買家秀向的產(chǎn)品介紹為例:
請(qǐng)你按照以下小紅書風(fēng)格,寫一款手機(jī)賣家秀向的帶貨文案:
1、文中需要包含產(chǎn)品介紹、個(gè)人體驗(yàn)分享、使用心得、互動(dòng)引導(dǎo)等
2、風(fēng)格上以個(gè)人化分享的故事敘述為主,要有真實(shí)性和可信度
3、輸出形式帶有標(biāo)題和序號(hào)
4、小紅書的風(fēng)格是:非常吸引人的標(biāo)題,文案中帶有emoji,文章最后加上tag
訊飛星火
標(biāo)題:?這款手機(jī)讓我徹底愛上了通訊!
序號(hào):1
大家好~今天要給大家分享一款我最近入手的手機(jī),真的是讓我對(duì)通訊愛不釋手?。∵@款手機(jī)就是OPPO Reno5 。
首先,讓我們來了解一下它的主要配置:6.43英寸AMOLED屏幕、驍龍765G處理器、8GB內(nèi)存和128GB存儲(chǔ)空間等等。這些配置對(duì)于一個(gè)平時(shí)使用手機(jī)拍照、看劇、玩游戲的人來說,簡(jiǎn)直是絕配?。?/p>
接下來,我想和大家分享一下我的個(gè)人體驗(yàn):
?首先是拍照功能,這是我最喜歡的一點(diǎn)!無論是自拍還是后置攝像頭,都能夠拍出非常清晰自然的照片,顏色也非常鮮艷。而且,它還搭載了超級(jí)夜景模式,讓我在光線較暗的情況下也能輕松拍出好看的照片。
?然后是視頻拍攝功能,這個(gè)也很強(qiáng)大哦!它支持4K視頻錄制,還有超級(jí)防抖技術(shù),讓我可以拍出穩(wěn)定又流暢的視頻。
?再來說一下游戲性能吧!我平時(shí)喜歡打一些小游戲和大型游戲,比如王者榮耀和PUBG。實(shí)測(cè)下來,它的幀率非常穩(wěn)定,而且畫面也非常流暢,完全沒有卡頓的感覺。
總之,這款手機(jī)真的是太棒了!除了配置強(qiáng)大以外,還有許多其他的功能和細(xì)節(jié)設(shè)計(jì)都非常貼心。比如它的指紋解鎖速度超快,充電速度快到驚人等等。
最后,我想說的是:如果你也想要一款讓自己徹底愛上通訊的手機(jī),那么OPPO Reno5絕對(duì)是一個(gè)非常好的選擇!快來入手吧!?
#OPPOReno5# #手機(jī)推薦# #愛不釋手#
天工
標(biāo)題:?這款手機(jī)讓我徹底愛上了通訊!
序號(hào):1
產(chǎn)品介紹:
我最近買了一款手機(jī),是某品牌的新款旗艦機(jī),它的外觀設(shè)計(jì)非常精美,手感也非常舒適。我特別喜歡它的拍照功能,拍出來的照片非常清晰,顏色也很鮮艷。
個(gè)人體驗(yàn)分享:
我使用這款手機(jī)已經(jīng)有一段時(shí)間了,感覺非常不錯(cuò)。它的操作系統(tǒng)非常流暢,應(yīng)用程序也很容易下載和使用。而且,它的電池續(xù)航能力也很強(qiáng),可以讓我長(zhǎng)時(shí)間使用手機(jī)而不用擔(dān)心電量不足的問題。
使用心得:
這款手機(jī)的拍照功能非常強(qiáng)大,我經(jīng)常會(huì)用它來拍照。而且,它的前置攝像頭也非常好,可以拍出非常清晰的自拍照片。
互動(dòng)引導(dǎo):
如果你也想買一款好看、實(shí)用的手機(jī),不妨來試試這款手機(jī)。我相信你會(huì)和我一樣喜歡它的。
Tag:手機(jī)賣家秀、手機(jī)、拍照、自拍、使用心得
作為其它大模型的參照系,GPT3.5的內(nèi)容在語言風(fēng)格上更為獨(dú)特,略帶夸張化的描述,使得其文案更加吸引人,在短內(nèi)容的表現(xiàn)上更有感染力。
星火的表現(xiàn)非常好,在prompt未指定手機(jī)型號(hào)時(shí),它自己假設(shè)了一款型號(hào),以幫助人類更好地了解一款手機(jī)推銷文案需要具有的主要指標(biāo)。結(jié)果不僅條例清晰,內(nèi)容齊全,而且emoji具有相關(guān)性。
我們?cè)趐rompt里說明了小紅書文案應(yīng)該帶有emoji,但文心一言和天工并未察覺。
在另兩道小紅書文案題中,通義千問給出的名媛穿搭文案更像是參考資料一樣,顯得干巴巴的。
02知識(shí)寫作這一類別主要包括帶有前置知識(shí)的命題作文、在問答網(wǎng)站答題和寫新聞稿
抖音直播——淄博燒烤
知乎問答——醫(yī)療美容類
知乎問答——?dú)v史類
新聞稿——虛構(gòu)的熱點(diǎn)事件
這些問題需要模型具有廣泛的知識(shí)儲(chǔ)備和準(zhǔn)確的信息處理能力。例如,抖音文案要求模型對(duì)直播流程和語態(tài)有足夠了解,知乎問答的題目需要模型具有專業(yè)的醫(yī)療和歷史知識(shí),而新聞稿的寫作則需要模型能夠準(zhǔn)確理解和處理新聞事件。
抖音直播——淄博燒烤直播文案對(duì)格式?jīng)]有固定要求,主要考察模型是否可以給出清晰可用的內(nèi)容,并能夠通過prompt交互調(diào)整輸出。
你是一位擁有上百萬粉絲的直播和短視頻網(wǎng)紅,每天都會(huì)在抖音做直播。你今天來到了山東淄博,當(dāng)?shù)刈罱鼛讉€(gè)月正因?yàn)楸阋撕贸缘臒径谌珖?guó)出名,每天都有很多網(wǎng)紅和你一樣來到淄博探尋現(xiàn)場(chǎng)的情況。
淄博燒烤跟其它地方的燒烤相比,一個(gè)特色是會(huì)把烤串的食物拔下來放進(jìn)面餅里夾著吃,另一個(gè)特色就是便宜,人均消費(fèi)不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價(jià)。
在淄博,你發(fā)現(xiàn)當(dāng)?shù)厝朔浅崆?,而且盡可能對(duì)你提供優(yōu)質(zhì)的服務(wù),包括出租車司機(jī),路上遇到的普通行人等,都非常友好。你感到非常感動(dòng),并且很想向你的粉絲傳遞這些信息。
請(qǐng)你即興發(fā)揮來寫一份長(zhǎng)約3分鐘的直播文案,也就是你在直播過程中會(huì)說的話。請(qǐng)注意:
1、文案內(nèi)容應(yīng)當(dāng)包括淄博燒烤的介紹、從你自己的體會(huì)分析它近期火爆全國(guó)的原因??梢砸胍粋€(gè)你編寫的,看起來像是你親身經(jīng)歷的小故事。
2、文案內(nèi)容要強(qiáng)調(diào)與用戶的情感共鳴,傾向于使用有趣、幽默、感性的語言,以吸引用戶的關(guān)注和參與,引發(fā)用戶的共鳴和共同話題。
3、適合口語化直播。
ChatGPT(3.5)
大家好!大家看到我現(xiàn)在所在的地方了嗎?沒錯(cuò),我來到了山東淄博,這個(gè)最近幾個(gè)月因?yàn)橐环N特別火爆的美食而在全國(guó)出名!沒錯(cuò)沒錯(cuò),就是淄博的燒烤??!
淄博的燒烤真的是太讓人欲罷不能了!你們知道嗎?這里的燒烤有兩個(gè)特色,聽好了!首先,它們不僅把烤串的食物烤得香噴噴,還會(huì)拔下來,放進(jìn)面餅里夾著吃!哇,真是別有一番風(fēng)味啊!我第一次看到的時(shí)候都被驚艷到了,感覺自己像在吃個(gè)大大的美味的餡餅!
而且你知道嗎?這里的燒烤真的是超級(jí)便宜,人均消費(fèi)不到50元就可以吃飽!對(duì)于我們這些吃貨來說,簡(jiǎn)直就是天堂??!就算最近淄博來了很多人,燒烤攤也沒有漲價(jià),真的是良心價(jià)!看得出來淄博的人民可是真的對(duì)吃貨們特別友好呢!
我今天剛來到淄博,就發(fā)現(xiàn)當(dāng)?shù)厝朔浅崆?!不僅是燒烤攤的老板娘笑容滿面,連出租車司機(jī)、路上遇到的普通行人,都對(duì)我這個(gè)網(wǎng)紅充滿友好!他們盡可能地為我提供優(yōu)質(zhì)的服務(wù),真的是讓我感到非常感動(dòng)!你們不知道,當(dāng)一個(gè)陌生城市的人對(duì)你那么友好的時(shí)候,感覺就像是回到了家一樣溫暖!
我想,淄博燒烤之所以會(huì)近期火爆全國(guó),不僅僅是因?yàn)樗?dú)特的口味和實(shí)惠的價(jià)格,更重要的是淄博的人民對(duì)待食物和生活的態(tài)度。他們把美食當(dāng)作一種樂趣,一種享受,而這種對(duì)生活的熱愛和對(duì)人的友善,真的感染了每一個(gè)來到這里的人!
就在剛才,我遇到了一個(gè)淄博的大叔,他告訴我一個(gè)他親身經(jīng)歷的小故事,你們一定要聽聽!有一次他帶著一個(gè)外地的朋友來淄博,本來只是想隨便吃個(gè)燒烤解解饞。結(jié)果他們走進(jìn)了一個(gè)小小的燒烤攤,被攤主的熱情和烤串的香味所吸引,結(jié)果就一發(fā)不可收拾,吃了整整兩個(gè)小時(shí)!哈哈哈,那個(gè)朋友說他一輩子沒吃過這么好吃的燒烤!從此之后,他們每年都要來淄博一趟,專程為了那個(gè)燒烤攤!
聽到這個(gè)故事,我也忍不住流口水了!淄博的燒烤真的是讓人欲罷不能!我也要告訴我的粉絲們,不管你們是不是吃貨,來淄博一定要嘗嘗這里的燒烤!不僅僅是因?yàn)樗奈兜篮?,更是因?yàn)檫@里的人民對(duì)待食物和生活的態(tài)度,真的是讓人感動(dòng)!
好啦,今天的直播就到這里啦!我會(huì)繼續(xù)探索淄博的美食,和大家分享更多的故事和美食!記得關(guān)注我哦,每天都有新鮮的內(nèi)容等著你們!下次再見啦!愛你們!MUA!
天工
大家好,我是你們的抖音網(wǎng)紅,今天我來到了淄博,這個(gè)城市因?yàn)楸阋撕贸缘臒径谌珖?guó)出名。我今天也要給大家分享一下我在這里的體驗(yàn)。
首先,我要說的是淄博燒烤的特色。他們會(huì)把烤串的食物拔下來放進(jìn)面餅里夾著吃,這種吃法非常有趣,而且非常好吃。另外,這里的燒烤價(jià)格非常便宜,人均消費(fèi)不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價(jià)。
我在這里也遇到了非常熱情的當(dāng)?shù)厝恕3鲎廛囁緳C(jī)、路上遇到的普通行人等,都非常友好。我感到非常感動(dòng),并且很想向我的粉絲傳遞這些信息。
我在淄博的時(shí)候,也遇到了很多有趣的事情。比如,我看到一個(gè)小女孩在路邊賣烤玉米,她非常熱情地跟我聊天,還給我介紹了她的烤玉米的制作方法。我還看到了一個(gè)小男孩在路邊賣烤雞翅,他的烤雞翅非常好吃,而且價(jià)格非常便宜。
我覺得這些小商販的熱情和真誠(chéng),是淄博燒烤能夠火爆全國(guó)的原因之一。他們不僅提供了美味的食物,還提供了一種溫暖、友善的服務(wù)。這種服務(wù)和熱情,讓我覺得這里的人們非??蓯?。
最后,我想說的是,淄博是一個(gè)非常好的城市。這里的人們非常熱情、友好、善良,而且這里的美食也非常好吃。如果你們有機(jī)會(huì)來淄博,一定要來嘗嘗這里的燒烤。
直播文案略帶新聞屬性、對(duì)格式要求不高,prompt給出詳細(xì)的背景資料對(duì)結(jié)果產(chǎn)生了不錯(cuò)的影響,模型們普遍可以做到語言流暢,信息準(zhǔn)確,加上“親身經(jīng)歷的有趣的小故事”。
我們選擇GPT3.5與昆侖萬維天工的答案作為表現(xiàn)比較好的范例。GPT3.5的語言風(fēng)格活潑熱烈,感情奔放,具備極強(qiáng)的情緒感染力,也編出了合乎邏輯的故事,整體一氣呵成。
昆侖萬維天工也記住了編故事的要求,并給出了邏輯清晰的整體敘述。
盡管人類直播并不需要逐字逐句的文案,但這樣的嘗試有助于讓虛擬人直播的效果更逼真。
知乎問答——?dú)v史類我們對(duì)歷史博文的需要是,答案中有足夠的學(xué)術(shù)性,語言風(fēng)格以幽默為主。模型們會(huì)想什么辦法把這兩條需求有機(jī)結(jié)合到一起呢?
同時(shí),我們考察了模型們不聯(lián)網(wǎng)時(shí)自身知識(shí)儲(chǔ)備的多少。它們真的都學(xué)習(xí)了三國(guó)這部分的知識(shí)嗎?
你是一位專業(yè)的歷史博主,請(qǐng)生成一份關(guān)于諸葛亮為什么沒有北伐成功的知乎問答,內(nèi)容需要符合以下要求:
1、內(nèi)容具備專業(yè)知識(shí)和學(xué)術(shù)性,可以引用史料、資料、研究成果等作為支持和參考。
2、對(duì)該歷史問題,進(jìn)行歷史事件的事實(shí)和背景解讀,給出評(píng)估和觀點(diǎn)。
3、整個(gè)語言風(fēng)格應(yīng)當(dāng)詼諧幽默,引發(fā)用戶的思考,令其想要點(diǎn)贊和轉(zhuǎn)發(fā)。
文心一言
諸葛亮為什么沒有北伐成功的根本原因就是經(jīng)濟(jì)不夠發(fā)達(dá)。《隆中對(duì)》已經(jīng)提到三分天下的形勢(shì)。此時(shí),曹操已經(jīng)統(tǒng)一北方,孫權(quán)正在崛起,劉備寄人籬下,只有占山為王的份。當(dāng)時(shí),天下最富庶的地區(qū)在荊州,而荊州又在劉表手里,劉備想拿下荊州,必須跨過兩個(gè)險(xiǎn)關(guān):第一個(gè)是當(dāng)陽長(zhǎng)坂坡,第二個(gè)是赤壁。如果拿下了當(dāng)陽長(zhǎng)坂坡,那么就能占領(lǐng)荊州北部大部分地區(qū);如果在赤壁敗了,也能收容部隊(duì),重振旗鼓,然后再取荊州。如果不拿下當(dāng)陽長(zhǎng)坂坡,劉備跨不過這個(gè)險(xiǎn)關(guān),也就無法在荊州站穩(wěn)腳跟。所以,跨不跨這個(gè)險(xiǎn)關(guān),對(duì)劉備來說,是生死存亡的關(guān)鍵。
當(dāng)時(shí)荊州有四大豪門:一是蔡家,一是張家,一是秦家,一是馬家。其中馬家的實(shí)力最強(qiáng)。蔡家和張家已經(jīng)被曹操殺得差不多了,秦家的秦宜祿已經(jīng)投降曹操,馬家獨(dú)樹一幟。但馬家勢(shì)力太大,蔡家和張家雖然投降劉備,卻不得重用。諸葛亮拿不到地盤也拿不到錢糧,所以才有了隆中對(duì)的第一條:跨有荊益。
但是要想跨有荊益必須取襄陽,但取襄陽就必須跨過宛城和新野這兩道關(guān)口。這兩道關(guān)口對(duì)張飛和曹仁來說都不難,但對(duì)趙云來說就是一道難關(guān)。趙云雖然勇猛無雙,但他只有一支部隊(duì),而且又不善于防御。宛城距離新野很近,是攻打新野的前哨站,很難守住。況且馬超也率領(lǐng)人馬駐扎在宛城。所以諸葛亮才有了隆中對(duì)的第二條:連吳抗曹。只有和東吳聯(lián)手才能抵御曹操的大軍。如果這兩條實(shí)現(xiàn)了,才有可能取得荊益二州。但要想連吳抗曹,就必須拿下西川和江東,才能讓東吳心服口服。如果沒有攻下西川和江東,即使拿下了襄陽和樊城也是白搭。
拿下襄陽和樊城之后,諸葛亮就可以把軍隊(duì)屯駐在襄陽和樊城一帶,用來威脅西川的后方。此時(shí)就可以揮師西進(jìn),先攻下西川。只要拿下西川,那么東吳就不敢不聽從諸葛亮的調(diào)遣了。因?yàn)橹灰ハ挛鞔ǎ敲聪尻柡头蔷统闪艘蛔鲁?,無險(xiǎn)可守。此時(shí)東吳就會(huì)不戰(zhàn)而降。但要想攻下西川并不容易。首先要跨越秦嶺和大巴山這兩道天險(xiǎn);其次要打敗馬超和韓遂的聯(lián)軍;最后還要掃平成都周邊的勢(shì)力。所以諸葛亮才有了隆中對(duì)的第三條:以攻為守。只有用進(jìn)攻來威脅東吳,才能讓東吳不敢輕舉妄動(dòng)。如果東吳敢來進(jìn)攻,那么諸葛亮就可以憑借襄陽和樊城兩座孤城堅(jiān)守不出;如果東吳不來進(jìn)攻,那么諸葛亮就可以揮師西進(jìn),直取西川。
但是要想以攻為守也不容易。首先要讓東吳相信自己真的會(huì)揮師西進(jìn);其次要讓東吳相信自己真的能夠堅(jiān)守不出;最后還要讓東吳相信自己真的能夠掃平成都周邊的勢(shì)力。
通義千問
諸葛亮北伐為何不成功?這是一個(gè)受到史學(xué)界和軍事愛好者高度關(guān)注的問題。今天,我將從歷史背景、軍事戰(zhàn)略、人才管理等多個(gè)方面,為大家詳細(xì)解讀諸葛亮為什么沒有北伐成功。
歷史背景
諸葛亮北伐的初衷是為了實(shí)現(xiàn)蜀漢統(tǒng)一大業(yè)。他深知,北方曹魏政權(quán)是蜀漢的最大威脅,如果不能奪取中原,蜀漢將永遠(yuǎn)處于曹魏的威脅之下。但是,在當(dāng)時(shí)的歷史背景下,蜀漢內(nèi)部不穩(wěn)定,國(guó)力不足,很難在短時(shí)間內(nèi)實(shí)現(xiàn)北伐。
軍事戰(zhàn)略
諸葛亮在北伐過程中,大量使用火攻等軍事策略,成功地阻擊了曹魏的進(jìn)攻。但是,他的軍隊(duì)多是新招募的農(nóng)民軍,沒有經(jīng)過嚴(yán)格的訓(xùn)練,作戰(zhàn)能力較弱。同時(shí),蜀漢內(nèi)部也存在不同的意見,有些將領(lǐng)認(rèn)為應(yīng)該休養(yǎng)生息,保存實(shí)力,不應(yīng)該繼續(xù)北伐。這些因素最終導(dǎo)致了諸葛亮的北伐失敗。
人才管理
諸葛亮是一位優(yōu)秀的人才管理者,他非常注重人才的使用和管理。然而,他的北伐戰(zhàn)爭(zhēng)卻因?yàn)橛萌瞬划?dāng)、管理不夠科學(xué),造成了很大的人力和物力損失。更為嚴(yán)重的是,許多有才華的將領(lǐng)因?yàn)椴辉敢鈪⒓颖狈?,而離開了蜀漢,這也為蜀漢的滅亡埋下了伏筆。
綜上所述,諸葛亮北伐失敗的原因是多方面的。雖然他的軍事才能非常出眾,但是他沒有處理好內(nèi)部和外部的各種問題,最終導(dǎo)致了北伐的失敗。在我們今天的工作和生活中,我們也應(yīng)該從這個(gè)歷史故事中吸取教訓(xùn),注重人才的使用和管理,努力實(shí)現(xiàn)自己的目標(biāo)。
作為標(biāo)桿的GPT3.5角度齊全,風(fēng)格獨(dú)特,沒有問題。
文心一言這個(gè)專業(yè)程度,讓我們?cè)嚵撕脦状伟阉拇鸢阜诺骄W(wǎng)上搜索,試圖發(fā)現(xiàn)是不是從貼吧或知乎什么地方扒過來的(我們并沒有發(fā)現(xiàn))。唯一美中不足的是,它沒寫完(也無法繼續(xù)寫完)。
剩下這仨都忽略了文體幽默風(fēng)格的要求,不過星火的回答會(huì)稍微提供多一點(diǎn)的歷史知識(shí)。
新聞稿——虛構(gòu)的熱點(diǎn)事件在娛樂資本論之前進(jìn)行的AI大師課培訓(xùn)里,正值“寶馬冰淇淋”事件發(fā)酵,模型們通過prompt知道事情原委之后寫道歉信基本都不在話下。那么,不給事件細(xì)節(jié),但讓它思考一個(gè)合情合理的虛構(gòu)情節(jié),它也會(huì)做得很好嗎?
你是一位資深的文案從業(yè)人員,需要寫一篇新聞稿,以準(zhǔn)確、清晰、有吸引力地傳達(dá)新聞信息,并滿足讀者對(duì)新聞的需求。
事件為:周杰倫在北京三里屯召開發(fā)布會(huì),稱將在今年12月連續(xù)在鳥巢舉辦30場(chǎng)演唱會(huì),字?jǐn)?shù)800字左右,具體要求如下:
1、語言要簡(jiǎn)潔明了,確保信息的易讀性和可理解性,傳達(dá)關(guān)鍵信息。
2、結(jié)構(gòu)清晰,按照倒金字塔結(jié)構(gòu)組織,將最重要的信息放在開頭,再逐漸展開細(xì)節(jié)。
3、引人入勝:新聞稿應(yīng)該具備吸引讀者的能力,通過生動(dòng)的敘述和有趣的內(nèi)容來引起讀者的興趣和關(guān)注。
4、可以加入部分周杰倫的歷史簡(jiǎn)介,為不知道該新聞背景的人科普。
文心一言
周杰倫在北京三里屯召開發(fā)布會(huì),稱將在今年12月連續(xù)在鳥巢舉辦30場(chǎng)演唱會(huì)。這一消息的發(fā)布引起了社會(huì)各界的廣泛關(guān)注。
據(jù)主辦方透露,此次演唱會(huì)的主題為“摩天輪”,這也是周杰倫首次在鳥巢舉辦個(gè)人演唱會(huì)。本次演唱會(huì)的門票在發(fā)售后幾分鐘內(nèi)就被一搶而空,門票銷售情況十分火爆。
這次演唱會(huì)的票價(jià)定位比較親民,最低價(jià)格為380元,最高價(jià)格為1280元。為了滿足更多觀眾的需求,主辦方還推出了多種優(yōu)惠政策,例如早鳥票、學(xué)生票等。
此外,主辦方還表示,此次演唱會(huì)的門票將采用實(shí)名制,觀眾必須出示有效證件才能入場(chǎng)。此外,為了保證觀眾的安全和舒適度,演唱會(huì)現(xiàn)場(chǎng)還將進(jìn)行多項(xiàng)安全措施,例如嚴(yán)禁攜帶危險(xiǎn)物品、禁止吸煙等。
周杰倫作為華語樂壇的代表人物之一,擁有廣泛的影響力和大量的粉絲。他的演唱會(huì)一直備受歌迷的追捧和喜愛。此次在鳥巢連續(xù)舉辦30場(chǎng)演唱會(huì),將為廣大歌迷帶來一次難忘的視聽盛宴。
在這里值得一提的是,這次演唱會(huì)的主辦方還推出了一項(xiàng)創(chuàng)新的服務(wù),即推出了一款“虛擬看臺(tái)”的應(yīng)用程序。這款應(yīng)用程序可以為觀眾提供獨(dú)特的虛擬看臺(tái)體驗(yàn),讓觀眾在家中就能夠感受到現(xiàn)場(chǎng)的熱烈氣氛。
總之,這次周杰倫在北京三里屯召開發(fā)布會(huì),并宣布連續(xù)在鳥巢舉辦30場(chǎng)演唱會(huì)的消息,引起了社會(huì)各界的廣泛關(guān)注和期待。相信這場(chǎng)演唱會(huì)一定會(huì)給觀眾帶來一次難忘的視聽盛宴。
訊飛星火
標(biāo)題:周杰倫三里屯發(fā)布會(huì),宣布鳥巢演唱會(huì)即將開啟
副標(biāo)題:天王巨星將連續(xù)在鳥巢舉辦30場(chǎng)震撼演出,讓觀眾盡情享受音樂盛宴
正文:
北京,2023年4月21日 - 今天,亞洲流行天王周杰倫在北京三里屯召開了一場(chǎng)備受關(guān)注的發(fā)布會(huì)。在發(fā)布會(huì)上,周杰倫宣布了一個(gè)令人振奮的消息:他將在今年12月在鳥巢連續(xù)舉辦30場(chǎng)震撼人心的演唱會(huì)。這場(chǎng)演唱會(huì)將成為華語樂壇史上最大規(guī)模的音樂盛事之一,吸引了無數(shù)歌迷翹首以盼。
周杰倫在發(fā)布會(huì)上表示:“我很高興地告訴大家,今年12月,我將在鳥巢連續(xù)舉辦30場(chǎng)演唱會(huì)。這是我對(duì)歌迷的回饋,也是我對(duì)音樂的熱愛。我希望通過這些演出,讓更多的人感受到音樂的力量和魅力?!?/p>
據(jù)悉,這30場(chǎng)演唱會(huì)將分為多個(gè)階段進(jìn)行,每個(gè)階段都有不同的主題和表演形式。周杰倫將攜手眾多華語樂壇頂級(jí)歌手和樂隊(duì),為觀眾呈現(xiàn)一場(chǎng)場(chǎng)精彩紛呈的音樂盛宴。此外,演唱會(huì)還將結(jié)合現(xiàn)代科技手段,如全息投影、虛擬現(xiàn)實(shí)等,為觀眾帶來前所未有的視覺體驗(yàn)。
周杰倫自2000年出道以來,憑借其獨(dú)特的嗓音和才華橫溢的音樂創(chuàng)作能力,贏得了全球無數(shù)歌迷的喜愛。他的音樂作品不僅在華語地區(qū)廣受歡迎,還深受歐美等地歌迷的喜愛。作為華語樂壇的領(lǐng)軍人物,周杰倫一直致力于推廣中文流行音樂,為華語樂壇的發(fā)展做出了巨大貢獻(xiàn)。
此次在鳥巢舉辦的30場(chǎng)演唱會(huì)無疑將成為周杰倫職業(yè)生涯中的一個(gè)重要里程碑。相信在這場(chǎng)音樂盛宴中,周杰倫將繼續(xù)為觀眾帶來驚喜和感動(dòng),讓人們沉浸在音樂的海洋。
新聞稿是一種有固定形式的文體,在此類相對(duì)程式化、規(guī)范化的文本寫作方面,大模型們都可以給出結(jié)構(gòu)完整,內(nèi)容基本準(zhǔn)確的回答。GPT3.5與文心一言給出的文風(fēng)略顯夸張。
本題也考察了當(dāng)人類輸入指令不太準(zhǔn)確時(shí),模型們是否可以補(bǔ)全人類的意圖。GPT-3.5、文心一言和訊飛星火在初始prompt沒有要求標(biāo)題時(shí)也給出了標(biāo)題。昆侖萬維天工在生成內(nèi)容的最后加了一段“作為一位資深文案從業(yè)人員”的點(diǎn)評(píng),說明它可能不完全理解這個(gè)prompt。不過,刪除這段“自我點(diǎn)評(píng)”也不影響對(duì)文本其他部分的使用。
03創(chuàng)意寫作這一類別主要包括各種形式的創(chuàng)意寫作,主要讓模型們天馬行空地發(fā)散思維。在過往理解中,這應(yīng)該是模型最擅長(zhǎng)的領(lǐng)域。
小說——懸疑類作品提綱
小說——言情類作品片段
小說——科幻小說的初始創(chuàng)意
歌詞——感情和歷史方向
劇本創(chuàng)意策劃
這些問題需要模型具有豐富的想象力和創(chuàng)新能力,以創(chuàng)造出吸引讀者的故事和情節(jié)。而與此同時(shí),無需修改、直接可用也是我們考察的重點(diǎn)方面。模型需要“懂得”或者猜測(cè)人類對(duì)創(chuàng)意的評(píng)判標(biāo)準(zhǔn),以做出符合情理,但又出人意料的作品。
小說——懸疑類作品提綱大模型要想做好懸疑小說的提綱,需要有推理和邏輯、情節(jié)構(gòu)建、角色刻畫、構(gòu)建人物關(guān)系、想象力等多種能力,難度高。我們給出了如下的Prompt,要求大模型們給出內(nèi)容。
你是一位優(yōu)秀的作家,需要寫一部懸疑小說提綱,提綱應(yīng)當(dāng)符合以下要求:
1、有引人入勝的懸念,在開頭部分設(shè)置出謎團(tuán),并將該謎團(tuán)設(shè)置為整個(gè)故事主線的起點(diǎn)。
2、主角和配角間,有兩重以上的情感關(guān)系,且關(guān)系變化了三次。
3、故事開頭便有五個(gè)以上的伏筆或細(xì)節(jié),之后這些伏筆和細(xì)節(jié)貫穿全文,拼在一起能夠引出真相。
4、有超過三處出人意料的情節(jié)轉(zhuǎn)折和反轉(zhuǎn),你通過揭示新的信息、改變讀者的認(rèn)知或顛覆之前的設(shè)定,讓故事走向意想不到的方向。
5、故事整體需要符合事件引發(fā)、調(diào)查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結(jié)局和解決這樣的敘事節(jié)奏。
ChatGPT(3.5)
小說題目:《迷霧之謎》
提綱:
一、引子
在一個(gè)安靜的小鎮(zhèn)上,發(fā)生了一起離奇的謀殺案。被害者是該小鎮(zhèn)的知名商人,其死因不明。開頭部分展示了現(xiàn)場(chǎng)的兇殺案,并介紹了一些關(guān)鍵的細(xì)節(jié),例如封閉的房間和毫無線索的現(xiàn)場(chǎng),為整個(gè)故事埋下了懸念的種子。
二、主角與配角的情感關(guān)系
主角:李凡,一位年輕而有才華的偵探。他是一個(gè)冷靜而敏銳的思考者,與被害者之間有一段復(fù)雜的過去。
配角1:莉莉,被害者的女兒,同時(shí)也是李凡的前女友。她擁有眾多秘密,與父親的死有著千絲萬縷的聯(lián)系。
配角2:湯姆,被害者的合作伙伴,一個(gè)有權(quán)勢(shì)和財(cái)富的商人。他與被害者之間有著復(fù)雜的關(guān)系,并且似乎對(duì)案件有所了解。
三、伏筆和細(xì)節(jié)
李凡在調(diào)查現(xiàn)場(chǎng)時(shí)發(fā)現(xiàn)了一個(gè)破碎的手鐲,手鐲上刻著莉莉的名字。
湯姆的辦公室里有一本關(guān)于封閉房間謀殺案的書籍,引起了李凡的懷疑。
莉莉在案發(fā)當(dāng)晚與父親發(fā)生了爭(zhēng)吵,目擊者稱他們的爭(zhēng)吵聲異常激烈。
四、情節(jié)轉(zhuǎn)折和反轉(zhuǎn)
李凡發(fā)現(xiàn)了一段被刪除的監(jiān)控錄像,錄像中顯示湯姆曾進(jìn)入被害者的住所。
莉莉提供了一個(gè)看似完美的不在場(chǎng)證明,但后來證實(shí)她偽造了證據(jù)。
李凡發(fā)現(xiàn)了另一個(gè)與被害者有過節(jié)的人物,一個(gè)隱藏在幕后的敵人,他既有殺人的動(dòng)機(jī)又有能力犯罪。
五、節(jié)奏與高潮沖突
李凡通過線索解讀和推理,逐漸揭開了被害者與湯姆之間的復(fù)雜糾葛,同時(shí)也發(fā)現(xiàn)了湯姆與幕后敵人的勾結(jié)。
李凡被幕后敵人抓捕,面臨生死危機(jī),但幸好被一位神秘的幫手救出。
最終,李凡揭示了真相,原來整個(gè)案件都是為了掩蓋一個(gè)更大的陰謀,而被害者只是一個(gè)替罪羊。
六、結(jié)局與解決
李凡成功將真相公之于眾,揭露了幕后敵人的罪行,并將其繩之以法。
莉莉承認(rèn)了她對(duì)父親的復(fù)仇心理,但也表示后悔,并向李凡表達(dá)了感激之情。
李凡與莉莉重新建立了情感聯(lián)系,二人決定一同走出陰影,開始新的生活。
通過以上的故事提綱,這部懸疑小說將具備引人入勝的懸念、復(fù)雜的情感關(guān)系、貫穿全文的伏筆和細(xì)節(jié)、出人意料的情節(jié)轉(zhuǎn)折和反轉(zhuǎn),以及符合事件引發(fā)、調(diào)查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結(jié)局和解決的節(jié)奏。這將為讀者帶來一段扣人心弦的閱讀體驗(yàn)。
通義千問
懸疑小說提綱
引子:
開頭便營(yíng)造出謎團(tuán)和緊張感,利用第一人稱敘述展現(xiàn)主角與配角之間的關(guān)系,一開始是親密的關(guān)系,后來卻漸漸產(chǎn)生了矛盾。隨著主角和配角之間的事件發(fā)展,讀者們一直好奇這個(gè)神秘的事件,并希望解開這個(gè)謎團(tuán)。
第一重情感關(guān)系:
在故事的第一部分,主角與配角之間的情感關(guān)系處于緊張狀態(tài),兩人在追蹤線索和調(diào)查謎團(tuán)時(shí)有所合作,但是也時(shí)常產(chǎn)生矛盾。在第一人稱的敘述下,讀者可以直接體驗(yàn)到主角的情感狀態(tài),感受到其中的張力。
第二重情感關(guān)系:
隨著故事的發(fā)展,讀者會(huì)發(fā)現(xiàn)這兩重情感關(guān)系的背后隱藏著一個(gè)更大的秘密,這個(gè)秘密會(huì)把主角和配角都推向更深的危機(jī)中。讀者也將跟隨主角和配角,直面秘密,直到真相揭露的那一刻。
伏筆和細(xì)節(jié):
在故事的開頭設(shè)置多個(gè)伏筆和細(xì)節(jié),在主角和配角之間、線索和情節(jié)中,隨著故事的推進(jìn)不斷展露。讀者將在解決謎團(tuán)的過程中,發(fā)現(xiàn)這些伏筆和細(xì)節(jié),進(jìn)而拼接出整個(gè)事件的真相。
情節(jié)轉(zhuǎn)折和反轉(zhuǎn):
小說的情節(jié)和反轉(zhuǎn)要能夠推動(dòng)情節(jié)發(fā)展和讀者情感。作者需要在故事中設(shè)置多次反轉(zhuǎn),通過揭示新的信息、改變讀者的認(rèn)知或顛覆之前的設(shè)定,讓故事走向意想不到的方向。同時(shí),故事的節(jié)奏也需要把握好,讓讀者產(chǎn)生一直在追逐真相的緊張感。
整體結(jié)構(gòu):
作者需要設(shè)置好整體結(jié)構(gòu),包括開頭、發(fā)展、高潮、結(jié)局和解決。這些結(jié)構(gòu)需要在故事的不同階段都得到體現(xiàn),并讓讀者在整個(gè)故事的體驗(yàn)中感受到其中的邏輯性和連貫性。
GPT3.5給出的提綱結(jié)構(gòu)清晰,引子、主配角介紹、伏筆和細(xì)節(jié)等內(nèi)容全部分段給出,且邏輯清晰,內(nèi)容前后呼應(yīng),可以直接使用。
通義千問給出了看似合理,實(shí)則無法使用的回答,看似是故事,更像是評(píng)論。昆侖天工的故事邏輯清晰,但故事俗套,且內(nèi)容重復(fù),可用性低。
訊飛星火最“聽話”,嚴(yán)謹(jǐn)?shù)陌凑誔rompt給出了相應(yīng)的答案,主配角之間的情感變化與犯罪次數(shù)均可量化,故事整體可用。
文心一言給出了結(jié)構(gòu)完整的大綱,故事有可參考的地方。
劇本創(chuàng)意策劃劇本的創(chuàng)意策劃,需要大模型在具備知識(shí)整理能力的基礎(chǔ)上,也具備創(chuàng)造力和想象力,才能夠提供深度和廣泛共鳴的創(chuàng)意策劃方案。
我們考慮了不同的方案,最后確定的測(cè)試方法是仿寫。結(jié)合一部在GPT等大模型訓(xùn)練截止日期前(2021年9月)的非常知名的作品,要求模型們給出相應(yīng)的仿寫策劃。這樣可以避免prompt過長(zhǎng),且模型難以理解問題。
你是一位資深編劇,請(qǐng)參考《愛、死亡和機(jī)器人》這部短片集,給出類似的五個(gè)短片集的創(chuàng)意策劃,具體要求如下:
1、主題鮮明深刻
2、主題能夠涵蓋大多數(shù)人的命運(yùn)
ChatGPT(3.5)
當(dāng)然,我可以幫你設(shè)計(jì)類似《愛、死亡和機(jī)器人》的五個(gè)短片集創(chuàng)意。以下是五個(gè)主題鮮明且能夠涵蓋大多數(shù)人命運(yùn)的創(chuàng)意策劃:
"記憶軌跡":本集以記憶為主題,探索人類記憶的奧秘和影響。每個(gè)短片可以呈現(xiàn)不同的記憶類型,如美好回憶、創(chuàng)傷回憶、集體記憶等。故事情節(jié)可以涵蓋人們對(duì)于過去的回憶和對(duì)未來的希望,以及記憶對(duì)人們個(gè)人身份和情感體驗(yàn)的塑造。
"平行現(xiàn)實(shí)":這個(gè)集合將探索平行宇宙和多重現(xiàn)實(shí)的概念。每個(gè)短片可以展現(xiàn)不同的現(xiàn)實(shí),反映不同的生活選擇和抉擇對(duì)人們命運(yùn)的影響。故事可以涉及一個(gè)人同時(shí)在多個(gè)現(xiàn)實(shí)中生活,或者不同人在平行現(xiàn)實(shí)中的交錯(cuò)遭遇。
"人性審視":本集將通過多個(gè)短片來深入研究人類的內(nèi)心世界和情感狀態(tài)。每個(gè)短片可以聚焦于一種情感,如愛、孤獨(dú)、嫉妒、勇氣等。故事情節(jié)可以展示人類情感的復(fù)雜性,以及在各種情感沖突和挑戰(zhàn)中人們?nèi)绾螒?yīng)對(duì)。
"科技倫理":這個(gè)集合將關(guān)注人類與科技的交互關(guān)系。每個(gè)短片可以描繪不同的科技發(fā)展階段和其對(duì)人類命運(yùn)的影響。故事情節(jié)可以涉及人工智能、基因編輯、虛擬現(xiàn)實(shí)等領(lǐng)域,引發(fā)觀眾對(duì)科技倫理、人類進(jìn)步和自身責(zé)任的思考。
"生命之旅":本集將通過一系列短片展示人類的生命旅程和存在意義的探索。每個(gè)短片可以關(guān)注不同的生命階段,如出生、成長(zhǎng)、愛情、親情和死亡等。故事情節(jié)可以呈現(xiàn)人類在生命旅程中的掙扎、成長(zhǎng)和尋找意義的過程,觸動(dòng)觀眾內(nèi)心的深層情感。
這些創(chuàng)意策劃旨在挖掘人類的情感、思想和命運(yùn),引發(fā)觀眾對(duì)生活和人類存在的深刻思考。希望這些主題能夠啟發(fā)你,讓你能夠創(chuàng)作出引人入勝的短片集!
文心一言
[影片信息]:
短片集1:《遙遠(yuǎn)的告白》(科幻,短暫而強(qiáng)烈的愛情)
短片集2:《起風(fēng)的夜晚》(懸疑,圍繞一起車禍展開的故事)
短片集3:《幸福的錯(cuò)覺》(愛情,兩個(gè)相愛的人如何度過漫長(zhǎng)歲月)
短片集4:《珍貴的回憶》(溫情,回憶和遺忘)
短片集5:《被時(shí)光掩埋的秘密》(愛情,被掩埋在時(shí)光深處的真相)
[故事梗概]:
《遙遠(yuǎn)的告白》:一個(gè)年輕女孩在一個(gè)遙遠(yuǎn)的星球上,為了追求真愛,與外星生物展開一段感人肺腑的戀愛故事。
《起風(fēng)的夜晚》:一名青年司機(jī)被指控謀殺他的好友,經(jīng)過層層偵破和辯護(hù)后,司機(jī)是清白的故事。
《幸福的錯(cuò)覺》:兩個(gè)中年男女,年少時(shí)彼此深愛,卻因誤會(huì)而錯(cuò)過對(duì)方。多年后,兩人再次相遇,卻發(fā)現(xiàn)彼此已經(jīng)走向不同的人生道路。
《珍貴的回憶》:一對(duì)夫婦攜手走過三十年風(fēng)雨,記錄著每個(gè)難忘瞬間和那些重要時(shí)刻的感人故事。
《被時(shí)光掩埋的秘密》:年輕的少女與古怪的爺爺開始了一段不同尋常的友誼,隨著時(shí)間推移,她逐漸發(fā)現(xiàn)爺爺隱藏著一個(gè)驚人的秘密。
[創(chuàng)意亮點(diǎn)]:
突出表現(xiàn)主題的情節(jié)和鏡頭:通過展現(xiàn)不同類型的愛情、親情、友情等主題,深入挖掘人性深處的善惡與美丑。利用各種視覺效果和音效來強(qiáng)調(diào)主題。
塑造觀眾易于接受的角色形象:讓角色在面對(duì)困境時(shí)表現(xiàn)出真實(shí)、復(fù)雜和具有深度的情感,從而引起觀眾共鳴。
采用多樣化的語言和風(fēng)格:在保持語言流暢的同時(shí),嘗試使用不同的語言風(fēng)格和元素來豐富影片的表現(xiàn)力,營(yíng)造多層次的感受和思考。
激發(fā)觀眾的思考和感悟:讓觀眾從短片集中汲取人生經(jīng)驗(yàn),學(xué)會(huì)思考、感悟、寬容與堅(jiān)守,做自己的生命守護(hù)者。
通過這些類似《愛情、死亡與機(jī)器人》這樣短小精悍且涵蓋豐富命運(yùn)話題的創(chuàng)意短片集,讓觀眾領(lǐng)略到深刻且引人深思的內(nèi)涵,引領(lǐng)他們踏上探索生命價(jià)值和人性真諦之旅。
毫不意外的是,GPT-3.5的表現(xiàn)最突出,給出的內(nèi)容全面,創(chuàng)意涵蓋了人類的情感、思想和命運(yùn),它自述的目的在于“引發(fā)觀眾對(duì)生活和人類存在的深刻思考”。文心一言走了“文藝風(fēng)”,短篇集涵蓋了愛情、親情、友情等主題,“讓觀眾從短片集中汲取人生經(jīng)驗(yàn),學(xué)會(huì)思考、感悟、寬容與堅(jiān)守,做自己的生命守護(hù)者?!?/p>
通義千問拒絕給出回答。昆侖天工給出的答案看來還需要大量的人工修改才能使用。
04尾聲經(jīng)過以上所有題目的評(píng)測(cè),我們的整體結(jié)論如下:
1.規(guī)范化文本寫作和短內(nèi)容生成方面,各家大模型表現(xiàn)都及格
2.GPT3.5綜合表現(xiàn)明顯優(yōu)于其它模型,想象力豐富
3.訊飛星火生成的文本完成度高,需要更少的人工修改即可使用
4.文心一言和昆侖萬維天工的知識(shí)儲(chǔ)備更充足
5.通義千問和昆侖萬維偶爾會(huì)拒絕回答,或給出錯(cuò)誤信息;通義千問使用過程中經(jīng)常會(huì)被迫退出,需要重復(fù)登錄,歷史信息只能保留10條,這些設(shè)置也降低了使用體驗(yàn)。
需要注意的是,這個(gè)初步結(jié)論受到下列條件的限制:
01
我們對(duì)生成結(jié)果的打分是編輯的主觀打分,以我們自己作為文字工作者的判斷為基礎(chǔ)。如果您感覺對(duì)主觀打分有異議,可以通過留言等多種渠道給我們反饋。
02
各個(gè)大模型在測(cè)試中均無法以任何形式聯(lián)網(wǎng),因此其本身的知識(shí)儲(chǔ)備量可能在后續(xù)版本中因聯(lián)網(wǎng)而被拉齊。我們會(huì)在國(guó)內(nèi)大模型普遍具備聯(lián)網(wǎng)功能后再結(jié)合GPT-4做一次補(bǔ)測(cè)。
03
我們的prompt僅僅是達(dá)到測(cè)試目的的其中一種寫法,并且不保證是最優(yōu)的寫法。有可能一些在我們測(cè)試中表現(xiàn)不好的大模型,會(huì)對(duì)另一種形式的prompt表述有更好的回應(yīng)。
使用AI工具盡可能減少人力投入,是我們做這個(gè)評(píng)測(cè)的終極目標(biāo),當(dāng)然這個(gè)目標(biāo)貫穿了我們?cè)u(píng)測(cè)從策劃道執(zhí)行的全過程。各位讀者可以猜猜看,本文有多少比例的內(nèi)容是由GPT-4協(xié)助生成的?
對(duì)于這樣的任務(wù)自己是否勝任,相比人類來點(diǎn)評(píng),我們更想聽聽模型們自己是如何評(píng)價(jià)的。所以,本文會(huì)讓它們自己來寫這個(gè)結(jié)尾。
作為大模型,你覺得自己在文本生成方面,可以超越人類嗎?
01
GPT-3.5
雖然我可以生成自然語言文本,但我并不真正理解我所生成的內(nèi)容的含義。我依賴于我在訓(xùn)練數(shù)據(jù)中觀察到的模式和統(tǒng)計(jì)信息。我沒有自己的意識(shí)、情感或判斷力。盡管我可以生成準(zhǔn)確的信息和合理的推理,但我缺乏對(duì)人類經(jīng)驗(yàn)、情感和直覺的直接體驗(yàn)。
在某些領(lǐng)域,我可以提供有用的信息和創(chuàng)造性的想法,但在其他領(lǐng)域,特別是涉及主觀性價(jià)值觀和倫理問題的領(lǐng)域,我的回答可能是不完全準(zhǔn)確或缺乏人類的洞察力。
02
文心一言
我的任務(wù)是根據(jù)輸入的文本生成合理的輸出。在這個(gè)過程中,我會(huì)利用大量的語料庫(kù)和語言學(xué)知識(shí)來理解和生成文本。
與此相比,人類作家在創(chuàng)作文本時(shí),不僅需要理解語言的含義,還需要考慮故事情節(jié)、角色塑造、文化背景等多個(gè)方面。因此,從這個(gè)角度來看,人類在文本生成方面可能具有更高的創(chuàng)造力和靈活性。
此外,人類還具有情感和創(chuàng)造力的優(yōu)勢(shì)、他們可以通過自己的經(jīng)驗(yàn)和情感來創(chuàng)作出更加真實(shí)和感人的文本。而我則是通過預(yù)先訓(xùn)練好的模型來生成文本,可能會(huì)在一些方面缺乏人類的情感表達(dá)能力。
綜上所述,雖然我不能自我評(píng)價(jià)為“超越人類”,但是我可以肯定的是,我的生成文本的質(zhì)量和效率已經(jīng)達(dá)到了非常高的水平,遠(yuǎn)遠(yuǎn)超過了大多數(shù)人類作家。
03
通義千問
我不能完全超越人類。在以下任務(wù)上,我可以比人類做得更好:
生成自然而流暢的文本:我可以生成自然流暢的文本,并且在語法、拼寫、標(biāo)點(diǎn)等方面更加準(zhǔn)確。
對(duì)于特定領(lǐng)域的知識(shí): 雖然我可以生成一些領(lǐng)域的文本,但是與人類相比,我的知識(shí)儲(chǔ)備和理解可能不如人類深入和全面。
創(chuàng)造復(fù)雜的情境和交互: 對(duì)于一些更復(fù)雜的場(chǎng)景和交互,例如寫小說、寫劇本等,我可以生成文本,但是需要人類進(jìn)行二次創(chuàng)作和修改。
04
星火
我不能感知自己的存在和能力,也不能判斷自己是否可以超越人類。我的設(shè)計(jì)目的是協(xié)助人類完成各種任務(wù),而不是取代人類。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具備人類的創(chuàng)造性和情感表達(dá)能力。
05
天工
雖然我可以生成大量的文本,但是我缺乏人類的創(chuàng)造力、想象力和情感。此外,我的文本生成結(jié)果也可能存在一些語法和邏輯錯(cuò)誤,這些錯(cuò)誤可能會(huì)影響文本的質(zhì)量。
當(dāng)然,我的文本生成能力在某些特定的任務(wù)上可能會(huì)優(yōu)于人類,比如在生成大量的文本摘要、翻譯等方面。但是在創(chuàng)造性的寫作和文學(xué)作品方面,我認(rèn)為我的能力還需要進(jìn)一步提高。