被AI大牛押注的智能體,國內(nèi)發(fā)展得怎樣了?
前段時(shí)間,前特斯拉總監(jiān)、OpenAI大牛Karpathy的一句話,引起了業(yè)內(nèi)的關(guān)注。
在7月初的一次開發(fā)者大會(huì)上,Karpathy聲稱:“我被自動(dòng)駕駛分了心,AI智能體才是未來!”并表示將來會(huì)全力投入對(duì)智能體的研發(fā)工作中。其實(shí),早在2016年,當(dāng)Karpathy開始在OpenAI工作時(shí),就已經(jīng)錨定了智能體的方向,只是由于當(dāng)時(shí)的研究方法還不成熟,所以Karpathy才轉(zhuǎn)去做了自動(dòng)駕駛。
那么,這所謂的“智能體”究竟是什么?為什么會(huì)讓這位AI大牛長(zhǎng)久地念念不忘?如果用一句話來回答這個(gè)問題,我們可以說:智能體的出現(xiàn),不僅是AI發(fā)展的下一個(gè)方向,也是其真正走進(jìn)人類生活的開始。1
何謂智能體

到底什么是智能體?
如果我們將現(xiàn)在的生成式AI,比作一個(gè)人的話,那么它只具有了大腦(大語言模型),但卻沒有身體,因此只能躺在服務(wù)器上,做一些處理文字、生成圖片的工作。而智能體,就相當(dāng)于是大模型的“身體”,有了它,大模型才能在更多的領(lǐng)域施展身手。那智能體究竟能做什么?最近,一個(gè)名叫Fable的初創(chuàng)公司,發(fā)布了一個(gè)節(jié)目統(tǒng)籌智能體(Showrunner),如同一聲驚雷炸響,讓人們?cè)俅我娮C了智能體的強(qiáng)大。
通過這樣的智能體,F(xiàn)able制作出了一集完全用AI拍攝的《南方公園》!
從編劇、動(dòng)畫、導(dǎo)演、語音、編輯……到劇集制作的全流程,都是由AI完成。在整個(gè)制作環(huán)節(jié)中,通過自然語言,給不同的智能體分配了各自的目標(biāo),人類導(dǎo)演只需要給出一個(gè)高層次的構(gòu)思提示(標(biāo)題、概要、事件),這些AI智能體就會(huì)開始「自導(dǎo)自演」。之后,人類幾乎就不用進(jìn)行任何干涉了!在制作過程中,不同的AI智能體,擔(dān)任了不同的角色,如演員、導(dǎo)演、剪輯等,它們彼此分工合作,互相配合,最終完成了整部影片的制作。
而同樣的,類似的案例,也出現(xiàn)在前段時(shí)間清華團(tuán)隊(duì)的研究中。7月19日,清華團(tuán)隊(duì)用ChatGPT打造了個(gè)零人工含量的“游戲公司”——ChatDev,只要你提出想法,從設(shè)計(jì)到測(cè)試的完整流程,都由AI幫忙搞定。
Fable與制作《南方公園》的思路類似,在游戲開發(fā)的環(huán)節(jié)中,ChatDev的十多個(gè)智能體也分別擔(dān)任了這個(gè)“公司”中的策劃、程序員、設(shè)計(jì)師等不同的崗位。
在項(xiàng)目開始時(shí),人類可以對(duì)這些AI提出一個(gè)大概的想法或創(chuàng)意。之后,各個(gè)智能體之間就會(huì)進(jìn)行一系列討論、制作、測(cè)試的環(huán)節(jié),整個(gè)過程完全不需要人類的參與,全是自動(dòng)進(jìn)行的。由此可見,有了智能體之后,大模型就能根據(jù)人類給出的規(guī)則和策略來做出決策,而不需要人類的干預(yù)或指令。在這個(gè)過程中,智能體還會(huì)通過習(xí)得的經(jīng)驗(yàn)或知識(shí),來改善自己的性能和適應(yīng)性,并根據(jù)目標(biāo)函數(shù)或獎(jiǎng)勵(lì)函數(shù)來評(píng)估自己的行為。而這樣的能力,是以往的大模型(LLM)無論如何都不具備的。因此,LLM即使再聰明,也是一個(gè)沒有身體的“大腦”,而正是智能體的出現(xiàn),讓LLM有了行動(dòng)的能力,有了自主完成復(fù)雜任務(wù)的能力。
而這樣的能力,正是LLM下一階段進(jìn)行在應(yīng)用層面進(jìn)行落地的關(guān)鍵。

2
國內(nèi)智能體進(jìn)展
既然智能體這么重要,那國內(nèi)在這方面發(fā)展得怎樣了呢?
在今年的 2023 世界人工智能大會(huì)上,聯(lián)匯科技發(fā)布了基于大模型自主智能體(Auto AI Agent )——OmBot 歐姆智能體,并針對(duì)典型場(chǎng)景需求,推出了首批應(yīng)用。
要想打造一個(gè)真正的智能體,最關(guān)鍵的地方,就在于讓AI不依賴人類來指導(dǎo)命令,能夠根據(jù)任務(wù)目標(biāo),主動(dòng)完成任務(wù)。
而要想實(shí)現(xiàn)這點(diǎn),就必須讓AI具備認(rèn)知、記憶、思考、行動(dòng)等幾大核心能力,使之能夠感知環(huán)境、自主決策,并且模仿人類大腦工作機(jī)制。在這方面,聯(lián)匯科技多年的研究成果——?dú)W姆大模型3.0,成為了孕育OmBot 歐姆智能體的搖籃。歐姆大模型3.0培養(yǎng)智能體的思路是:在智能體的諸多能力中,認(rèn)知和思考能力是最關(guān)鍵的。
而要鍛煉這樣的能力,就要通過大量的開放識(shí)別、視覺問答等訓(xùn)練方式,來讓智能體從被動(dòng)的識(shí)別轉(zhuǎn)為主動(dòng)推理,并自主提出解決方案。例如通過讓智能體觀看不同的圖片、視頻,并讓其通過語義去理解和描述其中的目標(biāo)。而之所以要選擇開放識(shí)別、視覺問答為主的訓(xùn)練方式,是因?yàn)樵诟鱾(gè)行業(yè)中,都存在著大量的特定場(chǎng)景和任務(wù),需要對(duì)視頻中的內(nèi)容進(jìn)行精準(zhǔn)的識(shí)別、分析。
但這些場(chǎng)景和任務(wù),往往是非常細(xì)分和多樣化的,難以用通用的模型和方法來滿足,于是就造成了各行各業(yè)對(duì)智能識(shí)別的大量長(zhǎng)尾需求。在對(duì)這些視覺信息進(jìn)行分析的過程中,歐姆大模型會(huì)通過多輪對(duì)話推理的機(jī)制,將圖像、視頻、以及相關(guān)的問題或反饋等輸入轉(zhuǎn)換為特征向量,并存儲(chǔ)在一個(gè)記憶單元中,之后,大模型的解碼器就會(huì)負(fù)責(zé)根據(jù)記憶單元中的特征向量生成最終的回復(fù)。
在對(duì)一張張圖片,一段段視頻的對(duì)話問答中,歐姆大模型會(huì)將視覺模型和語言模型進(jìn)行細(xì)粒度的對(duì)齊,讓其可以理解人類指令,并合理作答。
那么,這些經(jīng)過了不同行業(yè)視覺數(shù)據(jù)歷練的智能體,后來怎樣了?能在實(shí)際場(chǎng)景中展現(xiàn)實(shí)力了嗎?目前,歐姆智能體的主要應(yīng)用場(chǎng)景,大致分為三類:智慧店長(zhǎng)、文檔處理、視頻剪輯。如果說,智能體最重要的能力是其是否具備自主分析、決策的能力,那么我們不妨將歐姆智能體在這三大場(chǎng)景中的表現(xiàn),與傳統(tǒng)手段進(jìn)行對(duì)比,看看其是否具有了真正意義上的智能體的特征。

3
解決“落地焦慮”
簡(jiǎn)單來說,智慧店長(zhǎng)主要就是通過與攝像頭視覺信息結(jié)合,利用歐姆大模型智能識(shí)別店內(nèi)發(fā)生的一切。在這方面,傳統(tǒng)的攝像頭只能提供視頻監(jiān)控的功能,無法對(duì)視頻畫面進(jìn)行智能分析、處理、交互和反饋。而具備了智能體后,智慧店長(zhǎng)就能通過與攝像頭視覺信息結(jié)合,識(shí)別店內(nèi)發(fā)生的一切,并自主決策提示交互信息。例如實(shí)時(shí)監(jiān)測(cè)和分析客流量、客戶特征等數(shù)據(jù),遇到突發(fā)情況時(shí),還看自動(dòng)報(bào)警和處置店內(nèi)的安全隱患。
在文檔處理方面,按照聯(lián)匯科技的說法,歐姆智能體最大的優(yōu)勢(shì),是可以將專業(yè)知識(shí)有效集成到向量數(shù)據(jù)庫,并存儲(chǔ)記憶,形成專業(yè)機(jī)器人。
而一個(gè)具備了智能體的大模型,與傳統(tǒng)的行業(yè)垂直類大模型相比,最獨(dú)特的優(yōu)勢(shì),是其持續(xù)學(xué)習(xí)和適應(yīng)能力,而非依賴于靜態(tài)的數(shù)據(jù)集。在這方面,只能說歐姆智能體具備了其持續(xù)學(xué)習(xí)的基礎(chǔ)。因?yàn)橄蛄繑?shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫相比,采用靈活的數(shù)據(jù)結(jié)構(gòu),如多模態(tài)的數(shù)據(jù)支持,而將不同結(jié)構(gòu)的知識(shí)進(jìn)行整合,正是持續(xù)學(xué)習(xí)的基礎(chǔ)。

但其是否真的具備這樣的持續(xù)學(xué)習(xí)能力,也許還要進(jìn)行長(zhǎng)時(shí)間的觀察。
而在視頻剪輯方面,AIGC 小歐可以成為媒體、文化、游戲等行業(yè)的剪輯助手。通過 AIGC 實(shí)現(xiàn)媒體視頻素材的一鍵成片。
可以說,這是智能體能力體現(xiàn)得最直接的一個(gè)方面,通過語言理解能力,智能體在剪輯過程中,可以自動(dòng)依據(jù)文案內(nèi)容,對(duì)不同鏡頭添加更加細(xì)節(jié)的視頻鏡頭描述,從而省去了人工制作視頻中,繁瑣的文字與鏡頭之間的匹配工作。從上述幾點(diǎn)來看,歐姆智能體確實(shí)具備了一定的智能體特征,然而,即便如此,在其商業(yè)化落地的過程中,仍然會(huì)面臨不少挑戰(zhàn)。從目前歐姆智能體的落地方向上來看,其本質(zhì)上走的還是一種“松耦合”的技術(shù)路線。
所謂的“松耦合”,簡(jiǎn)單來說,不同任務(wù)分解,通過不同智能體來完成,最后通過大模型來完成自動(dòng)化調(diào)度和協(xié)作。比如語言大模型來學(xué)習(xí)對(duì)話、視覺大模型來識(shí)別地圖。這類智能體,雖然從不像人一樣有綜合智能,但從成本和可行性上,卻能更快落地。然而,這樣的“松耦合”路線,由于技術(shù)壁壘并不高,在競(jìng)爭(zhēng)中很容易遭到同類型智能體的擠壓,進(jìn)而導(dǎo)致毛利率不斷下降,以至于技術(shù)紅利很快走到盡頭。
到了那時(shí),一種端到端的,一個(gè)大模型就能包辦所有的“緊耦合”路線,就會(huì)成為行業(yè)共同的期盼。但這樣一種集合了多種智能,能適應(yīng)各種任務(wù)的智能體,必定蘊(yùn)含了更多技術(shù)含量頗高的“硬科技”,而國內(nèi)團(tuán)隊(duì)是否能一一攻破這些難關(guān),仍是個(gè)未知數(shù)。
