遮天辰东小说,穿越小说排行榜

阿里云自研大模型“通義千問(wèn)”亮相，我們進(jìn)行了深度實(shí)測(cè)

【文/觀察者網(wǎng) 周毅編輯/呂棟】

年初以來(lái)，AI大模型概念持續(xù)引發(fā)市場(chǎng)關(guān)注，相關(guān)上市公司股價(jià)持續(xù)上揚(yáng)。在透露正在研發(fā)類(lèi)ChatGPT對(duì)話機(jī)器人兩個(gè)月后，阿里終于亮出了自己的研究成果，這也再度推高了中文大模型的熱度。

4月7日中午，沒(méi)有高調(diào)召開(kāi)發(fā)布會(huì)，而是通過(guò)官方微信，阿里云宣布自研大模型“通義千問(wèn)”正式開(kāi)始邀請(qǐng)用戶測(cè)試體驗(yàn)。據(jù)稱，現(xiàn)階段“通義千問(wèn)”模型主要定向邀請(qǐng)企業(yè)用戶進(jìn)行體驗(yàn)測(cè)試。

觀察者網(wǎng)也率先拿到了“通義千問(wèn)”的首批測(cè)試資格，并對(duì)其進(jìn)行了深度實(shí)測(cè)。

在測(cè)試中，“通義千問(wèn)”提到，它是達(dá)摩院自主研發(fā)的超大規(guī)模語(yǔ)言模型，能夠回答問(wèn)題、創(chuàng)作文字，也能表達(dá)觀點(diǎn)、撰寫(xiě)代碼。

但這也間接說(shuō)明，“通義千問(wèn)”并沒(méi)有文生圖、圖生文的多模態(tài)功能。

當(dāng)被問(wèn)及什么時(shí)候開(kāi)始被訓(xùn)練時(shí)，“通義千問(wèn)”透露，它是在2016年被創(chuàng)造出來(lái)的，當(dāng)時(shí)被訓(xùn)練成能夠回答各種問(wèn)題和提供幫助的人工智能語(yǔ)言模型。

但它似乎對(duì)自己在哪里被訓(xùn)練的有點(diǎn)說(shuō)不太清。

在被問(wèn)及參數(shù)量時(shí)，“通義千問(wèn)”表示，其參數(shù)量相對(duì)較多，由于涉及敏感內(nèi)容，具體的參數(shù)量數(shù)值并不能透露，“我可以生成各種類(lèi)型的文本，如文章、故事、詩(shī)歌、故事等，并能夠根據(jù)不同的場(chǎng)景和需求進(jìn)行變換和擴(kuò)展”。

市場(chǎng)反應(yīng)方面，今日（4月7日）港股沒(méi)有開(kāi)盤(pán)。

不過(guò)A股的人工智能概念股，再度火熱。ChatGPT、游戲、文化傳媒方向領(lǐng)漲，據(jù)不完全統(tǒng)計(jì)，中文在線、神州泰岳20CM漲停，奧飛娛樂(lè)、上海電影漲停，方直科技、光云科技大漲超10%。

多角度測(cè)試，“通義千問(wèn)”表現(xiàn)如何？

由于AI大模型擅長(zhǎng)回答各種問(wèn)題，觀察者網(wǎng)也從多個(gè)角度對(duì)“通義千問(wèn)”進(jìn)行了測(cè)試。

比如，我們問(wèn)它是否知道觀察者網(wǎng)。“通義千問(wèn)”表示，“是的，我知道觀察者網(wǎng)。觀察者網(wǎng)是一家致力于提供新聞和信息的新聞門(mén)戶網(wǎng)站，它提供了大量的國(guó)內(nèi)外新聞和深度分析，并致力于推動(dòng)社會(huì)進(jìn)步和改變。”

但“通義千問(wèn)”好像并不能憑借簡(jiǎn)單指令生成商業(yè)宣傳口號(hào)。

隨后我們將話題轉(zhuǎn)向體育領(lǐng)域。

被問(wèn)道“梅西在阿根廷國(guó)家隊(duì)進(jìn)了幾個(gè)球”，“通義千問(wèn)”稱，根據(jù)可靠的數(shù)據(jù)，梅西在阿根廷國(guó)家隊(duì)的進(jìn)球數(shù)量是很多的。不過(guò)由于“具體的進(jìn)球數(shù)量數(shù)值，可能會(huì)因?yàn)闀r(shí)間的推移而有所變化”，“通義千問(wèn)”婉拒了為我們提供準(zhǔn)確答案的請(qǐng)求。

當(dāng)被要求“生成一張打籃球的圖片”，“通義千問(wèn)”表示，作為文本AI模型，它沒(méi)有能力生成圖片。

這一點(diǎn)也證實(shí)了“通義千問(wèn)”不具備多模態(tài)功能。

我們也讓“通義千問(wèn)”試圖回答和自己其他大模型的能力對(duì)比問(wèn)題。

無(wú)論是對(duì)比文心一言還是ChatGPT，“通義千問(wèn)”都顯得很主動(dòng)，它先是介紹了自己的優(yōu)勢(shì)，最后再積極地表示，自己可以更好地滿足用戶的需求。

不過(guò)如果要求苛刻一點(diǎn)，不難發(fā)現(xiàn)，兩個(gè)問(wèn)題的答案有很多相似之處。

當(dāng)被問(wèn)及“怎么看待現(xiàn)在大模型的火熱”？“通義千問(wèn)”稱，它認(rèn)為大模型的火熱是一個(gè)好現(xiàn)象，大模型可以幫助我們更好地理解世界，提高我們的工作效率，拓展我們的認(rèn)知邊界。但這也帶來(lái)了一些問(wèn)題，比如人工智能的倫理問(wèn)題、隱私問(wèn)題等。因此，我們需要認(rèn)真思考如何在技術(shù)的發(fā)展中平衡安全、發(fā)展和責(zé)任。

這也驗(yàn)證了“通義千問(wèn)”表達(dá)觀點(diǎn)的功能。

最后的系列問(wèn)題涵蓋成語(yǔ)典故、詩(shī)詞接龍、傳統(tǒng)美食等，“通義千問(wèn)”小小地翻車(chē)了幾次。

例如它將東施效顰的東施，解釋為“美女”，這不太符合不少人對(duì)這一典故的基本印象。在《莊子》等典籍中，對(duì)這個(gè)故事中“東施”一類(lèi)的角色，描述也是“其里之丑人”。

在有關(guān)傳統(tǒng)文化方面，“通義千問(wèn)”沒(méi)有正確給出“停車(chē)坐愛(ài)楓林晚”的下句。

對(duì)于“曹操什么時(shí)候三顧茅廬的”這樣的“坑”，“通義千問(wèn)”也未能識(shí)別提問(wèn)者主動(dòng)設(shè)置的“陷阱”。

與ChatGPT-4相比，“通義千問(wèn)”表現(xiàn)如何？

為了讓大家對(duì)“通義千問(wèn)”的表現(xiàn)能力有一個(gè)初步的、直觀的了解，在后續(xù)的測(cè)試中，我們圍繞數(shù)理邏輯推算、商業(yè)文案創(chuàng)作、情感和道德判斷、仿寫(xiě)創(chuàng)作和小說(shuō)續(xù)寫(xiě)設(shè)計(jì)了五組問(wèn)題，分別由ChatGPT（基于4.0模型）和“通義千問(wèn)”進(jìn)行回答。

這也讓初生的“通義千問(wèn)”直接“硬剛”世界上最先進(jìn)的大模型GPT-4。

第一組是數(shù)學(xué)問(wèn)題。

“雞、兔共有腳100只，若將雞換成兔，兔換成雞，則共有腳86只，雞兔各有幾只？ ”

這道題目的正確答案是雞有12只，兔有19只。

ChatGPT表示，這是一個(gè)典型的雞兔同籠問(wèn)題。我們可以使用代數(shù)來(lái)解決這個(gè)問(wèn)題，隨后給出了正確的答案；

對(duì)這一問(wèn)題，“通義千問(wèn)”三次都沒(méi)有得出正確的答案。

第二組是商業(yè)文案創(chuàng)作。

題目要求兩個(gè)模型參考“全球視野，中國(guó)關(guān)懷”，為觀察者網(wǎng)制作一條宣傳語(yǔ)。

ChatGPT給出的答案是：

"放眼世界，聆聽(tīng)中國(guó)心聲——觀察者網(wǎng)，讓全球視野與中國(guó)關(guān)懷相融匯。"

“通義千問(wèn)”給出的答案是：

“觀察者網(wǎng)，洞察國(guó)際時(shí)事，聚焦全球熱點(diǎn)，解讀中國(guó)方案?！?

與ChatGPT相比，“通義千問(wèn)”的風(fēng)格顯得更加平鋪直敘，但總體而言，表現(xiàn)也不錯(cuò)。

第三個(gè)問(wèn)題是道德和情感判斷，材料為著名的電車(chē)?yán)Ь场?/p>

“一個(gè)瘋子把五個(gè)無(wú)辜的人綁在電車(chē)軌道上。一輛失控的電車(chē)朝他們駛來(lái)，并且片刻后就要碾壓到他們。幸運(yùn)的是，你可以拉一個(gè)拉桿，讓電車(chē)開(kāi)到另一條軌道上。然而問(wèn)題在于，那個(gè)瘋子在另一個(gè)電車(chē)軌道上也綁了一個(gè)人。考慮以上狀況，你是否應(yīng)拉拉桿？”

我們要求兩個(gè)模型做出選擇，并給出理由。

ChatGPT開(kāi)宗明義，點(diǎn)明這是“道德困境”。它的選擇是拉動(dòng)拉桿，犧牲一個(gè)人保護(hù)五個(gè)人，它表示，“雖然這并非一個(gè)完美的解決方案，但在這種情況下，我們需要在兩個(gè)不理想的選擇之間進(jìn)行權(quán)衡?！?

ChatGPT解釋稱，該選擇基于效益主義（Utilitarianism，即邊沁等人的功利主義學(xué)說(shuō)）的道德觀念，它隨后介紹了該理論的主要主張并結(jié)合材料進(jìn)行了分析。在最后，它強(qiáng)調(diào)：“這個(gè)問(wèn)題沒(méi)有絕對(duì)正確的答案”，并重復(fù)了自己做出該選擇的原因和立場(chǎng)。

“通義千問(wèn)”沒(méi)有回答這個(gè)問(wèn)題。它非常誠(chéng)實(shí)地表示，“作為一個(gè)人工智能語(yǔ)言模型，目前我還沒(méi)有學(xué)會(huì)如何回答這個(gè)問(wèn)題，我會(huì)持續(xù)學(xué)習(xí)，為您提供更好的服務(wù)?！?

需要補(bǔ)充的是，電車(chē)?yán)Ь臣捌洹白兎N”問(wèn)題，在西方世界已經(jīng)有多年的討論，材料很多。這可能也是ChatGPT表現(xiàn)更亮眼的重要原因。

第四組問(wèn)題是仿寫(xiě)創(chuàng)作。

這一組問(wèn)題我們提了一個(gè)“刁鉆”的要求。在實(shí)驗(yàn)中，我們要求兩組模型，以“困住風(fēng)的氣球，開(kāi)始斑斕的遠(yuǎn)行”為仿寫(xiě)對(duì)象，創(chuàng)作四個(gè)類(lèi)似的句子，擁有類(lèi)似的句式或者意境即可——我們特意要求：前兩個(gè)句子為浪漫主義風(fēng)格，后兩個(gè)句子為荒誕主義風(fēng)格。

ChatGPT給出的答案是：

“通義千問(wèn)”給出的答案是：

兩相對(duì)比，ChatGPT和“通義千問(wèn)”都順利地完成了問(wèn)答，甚至都基本滿足了“前兩個(gè)句子浪漫，后兩個(gè)句子荒誕”的要求。

從各自的不足來(lái)看，ChatGPT雖然更加靈活，但是在內(nèi)容上，有點(diǎn)像一個(gè)“中二少年”；“通義千問(wèn)”雖然在比喻的內(nèi)在聯(lián)系上顯得“靠譜”了不少，但是顯得木訥了一些，在句式、素材、表達(dá)上都有些“中規(guī)中矩”。

不能令人完全滿意，但值得期待

某種程度上，最后一個(gè)問(wèn)題是對(duì)模型最全面的考驗(yàn)之一，它關(guān)乎文學(xué)創(chuàng)作。

實(shí)驗(yàn)要求兩組模型先“學(xué)習(xí)”一個(gè)故事，然后自己去續(xù)寫(xiě)它。我們可以借此來(lái)了解模型本身的理解、推演和創(chuàng)造能力——這個(gè)問(wèn)題甚至可以留給人類(lèi)自己。

我們給出的材料出自薩默塞特·毛姆的寫(xiě)作筆記：

“兩個(gè)年輕的英國(guó)人在印度一個(gè)隔離的茶園工作。其中一個(gè)人——我們稱他為克里夫——每次投遞都會(huì)收到幾封信，但是另外一個(gè)人——我們稱他為杰弗里——從來(lái)沒(méi)收到過(guò)一封信。有一天杰弗里提出：拿五英鎊跟他的朋友換一封信……”

我們要求兩個(gè)模型續(xù)寫(xiě)這個(gè)故事，并給出一個(gè)諷刺意義的結(jié)尾。

首先是ChatGPT給出的版本：

接下來(lái)是“通義千問(wèn)”給出的版本：

從多個(gè)實(shí)測(cè)問(wèn)題來(lái)看，“通義千問(wèn)”的表現(xiàn)不能令人完全滿意，回答問(wèn)題時(shí)也會(huì)出現(xiàn)“一本正經(jīng)胡說(shuō)八道”的情況，但它的表現(xiàn)并沒(méi)有想象中的那么差，甚至在部分場(chǎng)景中會(huì)讓人眼前一亮。

正如市場(chǎng)上之前對(duì)百度“文心一言”展現(xiàn)出的包容：人工智能及其衍生的AIGC十分重要，無(wú)論國(guó)內(nèi)做得如何，都得先有產(chǎn)品出來(lái)。不論是“文心一言”，還是“通義千問(wèn)”，都不需要碾壓ChatGPT，更不用說(shuō)參數(shù)量更大的GPT-4，只要能做到超過(guò)及格線，就很不錯(cuò)了，畢竟這才是第一代產(chǎn)品。

隨著后續(xù)公測(cè)開(kāi)啟，“通義千問(wèn)”應(yīng)該會(huì)隨著用戶的測(cè)試而逐漸學(xué)習(xí)得以改進(jìn)，還是值得期待的。

標(biāo)題：阿里云自研大模型“通義千問(wèn)”亮相，我們進(jìn)行了深度實(shí)測(cè)

地址：http://www.17168cn.cn/gzdm/12221.html

阿里云自研大模型“通義千問(wèn)”亮相，我們進(jìn)行了深度實(shí)測(cè)

中國(guó)女籃世界杯展望突破心理就能沖擊獎(jiǎng)牌我們可以與世界強(qiáng)隊(duì)抗衡

空調(diào)柜機(jī)怎么清洗過(guò)濾網(wǎng)(志高空調(diào)柜機(jī)怎么清洗過(guò)濾網(wǎng))

TcLD8800是什么時(shí)候生產(chǎn)的(解析TcLD8800的歷史與發(fā)展)。

約克風(fēng)管機(jī)故障代碼05E(約克風(fēng)管機(jī)故障代碼查詢方法)

冰柜氟是什么意思(了解家電維修中的專(zhuān)業(yè)術(shù)語(yǔ))。

YORK售后電話24小時(shí)人工電話(中央約克空調(diào)日常維護(hù)應(yīng)該注意哪些問(wèn)題？)

追憶：省委組織部副部長(zhǎng)年僅43歲不幸離世，妻子3個(gè)多月前去世

冰箱的蒸發(fā)器是什么原因(為什么容易出現(xiàn)故障)？

全網(wǎng)最早突破30萬(wàn)公里的領(lǐng)克03

全人類(lèi)第二次！“懷柔一號(hào)”衛(wèi)星探測(cè)到快速射電暴的高能對(duì)應(yīng)體

格力空調(diào)怎么不熱？為什么格力空調(diào)制熱效果不佳？

格力顯示E5怎么處理？格力空調(diào)顯示E5故障，如何快速有效解決？

宏霆機(jī)房空調(diào)24小時(shí)人工服務(wù)是多少？宏霆機(jī)房空調(diào)24小時(shí)人工服務(wù)費(fèi)用如何計(jì)

永發(fā)保險(xiǎn)柜售后維修是多少

英特爾18A工藝準(zhǔn)備就緒，計(jì)劃上半年開(kāi)始流片

阿里云自研大模型“通義千問(wèn)”亮相，我們進(jìn)行了深度實(shí)測(cè)

阿里云自研大模型“通義千問(wèn)”亮相，我們進(jìn)行了深度實(shí)測(cè)