2023國內(nèi)大模型發(fā)展情況盤點(二)--中美大模型情況發(fā)展比較

(本文作者王鵬為北京市社會科學院研究員,數(shù)據(jù)資產(chǎn)化研究院執(zhí)行院長)

截止2023年5月,中國已成功發(fā)布超過79個擁有10億以上參數(shù)的基礎(chǔ)大語言模型,相同等級模型下,美國發(fā)布數(shù)量達到100個。全球范圍內(nèi)累計推出的10億以上參數(shù)大語言模型總數(shù)為202個,其中中美兩國所發(fā)布的模型總數(shù)占比近90%。相關(guān)數(shù)據(jù)體現(xiàn)國內(nèi)于大型語言模型開發(fā)領(lǐng)域已躋身領(lǐng)先行列,本文將通過中美大型語言模型發(fā)展比較深入了解發(fā)展現(xiàn)狀。

一、融資水平

根據(jù)PitchBook以及Crunchbase的數(shù)據(jù),2023年上半年全球AI領(lǐng)域共實現(xiàn)融資1387起,總額達255億美元。同時,美國維持在AI投資上的增長勢頭,2022年投資額達243.5億美元,年復(fù)合增長率為422.5%。在硅谷地區(qū),2023年上半年共完成42起AI領(lǐng)域容詞,涉資約140億美元,占全球總額的55%,顯示了其在AI領(lǐng)域融資中的主導(dǎo)地位。與之相應(yīng)的,據(jù)國內(nèi)商業(yè)信息服務(wù)平臺企名片數(shù)據(jù)顯示,2023年上半年國內(nèi)人工智能領(lǐng)域共發(fā)生161起投融資事件,其中包括人工智能核心技術(shù)44起,人工智能基礎(chǔ)支撐43起,人工智能應(yīng)用場景40起,人工智能通用場景34起。相較去年投融資水平,同期下降153起,同比下降49%。此外,據(jù)欽媒體數(shù)據(jù),2023年上半年,國內(nèi)披露獲得投資的大模型公司僅20家,融資額普遍為千萬至數(shù)億元之間。

二、基礎(chǔ)大模型發(fā)展水平

2023年11月21日,《財富》雜志首都揭曉“人工智能創(chuàng)新者50強”名單,其中絕大多數(shù)為美國企業(yè),包括Open AI、Meta、Google以及Microsoft等行業(yè)巨頭,并涉及一批入Midjourney、Adept以及ARC等新型企業(yè)。相比較下,百度為唯一一家上榜的中國公司,憑借在處理多項中文特定任務(wù)中優(yōu)于Open AI聊天機器人以及與ChatGPT在復(fù)雜度與功能上相媲美的“文心一言4.0”模型贏得認可。從《財富》榜單上班企業(yè)數(shù)量上看,中美于人工智能創(chuàng)新力方面仍存顯著差距。恰如戴瓊海教授所言,中國具備最大的人工智能應(yīng)用市場,但在基礎(chǔ)科技與人才培養(yǎng)方面仍然落后于世界領(lǐng)先水平。而中國大模型在基礎(chǔ)發(fā)展水平上落后于國際領(lǐng)先水平,其根本原因在于構(gòu)成大模型的四大要素,分別為數(shù)據(jù)、模型、算力和場景。

(一)數(shù)據(jù)總量缺乏以及數(shù)據(jù)質(zhì)量精細化程度較低

大模型訓練數(shù)據(jù)源于公開文檔、資料以及數(shù)據(jù)。第一,從數(shù)據(jù)數(shù)量上看,公開英文數(shù)據(jù)占主導(dǎo)優(yōu)勢,中文數(shù)據(jù)開放程度相對較低;第二,從數(shù)據(jù)質(zhì)量上看,由于國內(nèi)于數(shù)據(jù)產(chǎn)業(yè)投入以及精細化程度有限,導(dǎo)致了可用訓練數(shù)據(jù)的進一步減少。

(二)算力資源的缺乏

百川智能創(chuàng)始人王小川在2023騰訊ConTech大會上介紹調(diào)研信息,Open AI嘗試將1000萬塊GPU相連以訓練單個大規(guī)模模型。而英偉達年產(chǎn)量約為100萬塊GPU,訓練GPT-4需要2.5萬塊GPU,國內(nèi)對標GPT-3.5需要4000塊GPU用于訓練。資源層面上,國內(nèi)大模型發(fā)展嚴重受限于算力劣勢。

(三)場景滲透率有限

2023年9月,鈦媒體國際智庫發(fā)布的《2023AI大模型應(yīng)用中美比較研究》報告綜合了大模型行業(yè)滲透度、行業(yè)接受層度以及行業(yè)應(yīng)用成熟度等維度,對部分AI應(yīng)用主流行業(yè)進行現(xiàn)狀分析。在辦公、金融以及醫(yī)療領(lǐng)域均一定程度上落后于美國。但在文娛、教育、交通以及能源領(lǐng)域有望實現(xiàn)彎道超車。

雖然國內(nèi)大模型發(fā)展受限于數(shù)據(jù)、算力以及場景滲透率的落后,但在具體技術(shù)層面仍有可喜之處,目前國內(nèi)于自然語言處理領(lǐng)域?qū)W術(shù)成果斐然。2023年8月,集微咨詢(JW Insights)推出的《ChatGPT掀起AIGC新一輪熱潮的背后:從學術(shù)角度分析自然語言處理技術(shù)》報告對自然語言處理領(lǐng)域的學術(shù)論文進行全方位解析。從論文的整體區(qū)域分布看,中美實現(xiàn)學術(shù)領(lǐng)域斷層領(lǐng)先,相關(guān)論文數(shù)量超過1.8萬篇。從發(fā)表論文機構(gòu)看,中國科學院以1971篇論文的數(shù)量排名全球第一。此外,中國自然科學基金會資助的論文量最高,為8335篇。但同時需要指出的是,在具體論文影響力、撰寫質(zhì)量、先進性綜合分析中,前50名入選論文中國內(nèi)論文僅占6篇。

三、應(yīng)用層發(fā)展水平

總體而言,我國大模型發(fā)展于場景應(yīng)用水平仍然處于跟隨狀態(tài)。辦公領(lǐng)域,微軟作為智能辦公引領(lǐng)者,于2023年3月16日正式發(fā)布Microsoft 365 Copilot,并集成于包括Word、Excel以及Powerpoint等應(yīng)用程序中。用戶僅需通過向其發(fā)號指令,便可自動生成文字、表格、演示文稿等內(nèi)容。國內(nèi)企業(yè)中金山辦公同樣將公司產(chǎn)品逐步添加AI功能,例如智能美化、智能校對等,此外介入了多個大模型供應(yīng)商以滿足用戶AI創(chuàng)作需求;金融領(lǐng)域,根據(jù)咨詢公司 Evident 的最新數(shù)據(jù),目前美國銀行的招聘中,約 40%的空缺職位是與人工智能相關(guān)的職位,例如數(shù)據(jù)工程師和量化分析師,以及合規(guī)、道德治理等職位。美國于開發(fā)應(yīng)用方面起步較早并且掌握核心技術(shù)。國內(nèi)AI+金融同樣進入應(yīng)用階段,同時我國于該領(lǐng)域開發(fā)投資積極性較高,疊加近期數(shù)據(jù)政策支持,有望于金融領(lǐng)域?qū)崿F(xiàn)應(yīng)用發(fā)展水平的追趕。相較基礎(chǔ)大模型發(fā)展,國內(nèi)大模型于應(yīng)用層發(fā)展具備一定優(yōu)勢?!袄硐肷下徊剑涞厣峡烊健笔峭跣〈ㄡ槍Ξ斍爸袊竽P蜋C會的詮釋。我國在應(yīng)用層方面具備市場和用戶基礎(chǔ)、多樣化應(yīng)用場景以及政府支持和推動的優(yōu)勢。

(一)龐大的市場和用戶基礎(chǔ)

中國擁有巨大的人口基數(shù),這為大模型的應(yīng)用提供了豐富的數(shù)據(jù)。例如,上海人工智能實驗室開發(fā)的書生浦語大模型,涵蓋了數(shù)十億參數(shù),能夠有效結(jié)合算法、數(shù)據(jù)和算力。這種大模型是在中國豐富的數(shù)據(jù)環(huán)境中訓練和優(yōu)化的,反映了本土環(huán)境和語境的特點。

(二)多樣化的應(yīng)用場景

中國的經(jīng)濟和社會多樣性為大模型提供了廣泛的應(yīng)用場景。例如,在智慧城市領(lǐng)域,基于多模態(tài)大模型和跨模態(tài)通用人工智能平臺,研發(fā)了建筑工程全閉環(huán)智能應(yīng)用系統(tǒng),旨在顯著提升建筑行業(yè)的智能化水平。此外,智慧醫(yī)療領(lǐng)域也見證了大模型的成功應(yīng)用,例如云知聲與北京友誼醫(yī)院聯(lián)合開發(fā)的門診病歷生成系統(tǒng),顯著提升了醫(yī)生的工作效率。

(三)政府支持和推動

中國政府一直在積極推動人工智能產(chǎn)業(yè)的發(fā)展,為大模型的應(yīng)用提供了有力的政策支持。例如,北京市科委和中關(guān)村管委會積極推動大模型技術(shù)產(chǎn)業(yè)的發(fā)展,征集人工智能行業(yè)大模型應(yīng)用案例與行業(yè)應(yīng)用場景需求,加快推動相關(guān)技術(shù)及產(chǎn)品的落地和應(yīng)用。中國政府發(fā)布了《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展的指導(dǎo)意見》,旨在加速人工智能的高水平應(yīng)用,推動經(jīng)濟的高質(zhì)量發(fā)展。盡管中國在大語言模型發(fā)展上于某些方面仍然面臨挑戰(zhàn),但其在大模型技術(shù)的應(yīng)用和市場發(fā)展方面表現(xiàn)出了顯著的活力。中國政府在推動人工智能技術(shù),特別是大型語言模型的發(fā)展上,顯示出明確的方向和決心。結(jié)合龐大的市場和用戶基礎(chǔ)、多樣化的應(yīng)用場景,以及政府的積極支持,中國在大模型技術(shù)的發(fā)展和應(yīng)用上具有獨特的優(yōu)勢。這不僅促進了技術(shù)創(chuàng)新,還為各行各業(yè)的數(shù)字化轉(zhuǎn)型提供了強有力的支撐。未來,隨著技術(shù)的進一步成熟和應(yīng)用的深入,預(yù)計中國將在人工智能領(lǐng)域?qū)崿F(xiàn)更多突破,為經(jīng)濟社會的高質(zhì)量發(fā)展注入新動力。

本文僅代表作者觀點。

標題:2023國內(nèi)大模型發(fā)展情況盤點(二)--中美大模型情況發(fā)展比較

地址:http://www.17168cn.cn/bigualu/91389.html