“算力霸主”英偉達(NVIDIA)創(chuàng)始人兼CEO黃仁勛在ITF World 2023半導(dǎo)體大會上稱,“具身智能”將引領(lǐng)下一波人工智能浪潮,引發(fā)了全球范圍內(nèi)對“具身智能”的關(guān)注。
具身智能的思想萌芽于人工智能誕生之初。1950年, 圖靈在其為人工智能奠基、提出圖靈測試的經(jīng)典論文《Computing Machinery and Intelligence》的結(jié)尾展望了人工智能可能的兩條發(fā)展道路[1]:“We may hope that machines will eventually compete with men in all purely intellectual fields. But which are the best ones to start with? Even this is a difficult decision. Many people think that a very abstract activity, like the playing of chess would be best. It can also be maintained that it is best to provide the machine with the best sense organs that money can buy, and then teach it to understand and speak English. This process could follow the normal teaching of a child. Things would be pointed out and named, etc[2].”他提出一條路徑是聚焦抽象計算(比如下棋)所需的智能,另一條路則是為機器配備最好的傳感器、使其可以與人類交流、像嬰兒一樣地進行學(xué)習(xí)。這兩條道路便逐漸演變成了非具身和具身智能。
2023年5月份以來,學(xué)術(shù)界以李飛飛、姚期智、盧策吾、李德毅、鄭南寧等專家學(xué)者為代表,相繼發(fā)布“具身智能”相關(guān)的學(xué)術(shù)論文和演講。產(chǎn)業(yè)界以谷歌、特斯拉、英偉達、META、阿里、小米等巨頭公司為代表,積極跟進相關(guān)產(chǎn)品和技術(shù)布局。
以ChatGPT4為代表的各類大模型出現(xiàn),人形機器人的再次走紅,關(guān)于所謂的“具身智能”新進展井噴式涌現(xiàn),在各領(lǐng)域中展現(xiàn)出的巨大吸引力,是否代表著人工智能的關(guān)鍵問題已經(jīng)解決?現(xiàn)有的方法是否正確?我們需冷靜下來,回歸到最基礎(chǔ)的定義和內(nèi)涵上面,思考/厘清什么是“具身智能”?
一、“具身智能”不是什么?
當(dāng)前,有以下幾種關(guān)于“具身智能”的典型觀點。
觀點1:AI(大模型)+軀體(機器人)=具身智能?
“具身智能”是指能理解、推理、并與物理世界互動的智能系統(tǒng)。[3]
該觀點認為“具身智能”是一種智能系統(tǒng),具有理解、推理并與物理世界互動的功能。通常將大模型搭載在物理軀體(如機器人)上來實現(xiàn),讓大模型充當(dāng)機器人的“大腦”,或者說給大模型“穿上機器人外衣”,將圖像、文字等數(shù)據(jù)輸入大模型進行聯(lián)合訓(xùn)練,通過與世界交互的反饋結(jié)果,指導(dǎo)人為手工標(biāo)注,以提高模型的泛化能力。
在LLM(大語言模型)、VLM(視覺-語言模型)、VNM(視覺導(dǎo)航模型)的加持下,人類用自然語言給機器人下達指令,可以看到語言指令對應(yīng)任務(wù)的效果展示。但在執(zhí)行精度要求較高的任務(wù)時,需依賴于人工參與校正,即通過人輸入偏離的指令來校正機械臂,這說明該類“智能”系統(tǒng)對空間對象沒有精細辨識能力,沒有測量功能,不具備系統(tǒng)依據(jù)感測結(jié)果與基準信息的比較,也就無法做出自適應(yīng)決策與規(guī)劃的智能特性,即系統(tǒng)不具備一般問題求解和響應(yīng)的能力。
相關(guān)資料展示出機器人智能系統(tǒng)“與物理世界的互動”,但互動過程顯示,機器人感知對象所指“語義”是由人工標(biāo)注實現(xiàn)的點云“視覺”信息集合,機器人大腦沒有關(guān)于對象邊界(虛-實交界)的有效度量信息,說明“它”沒有理解物理對象,只是機械的執(zhí)行人的語言指令做出一個動作進行響應(yīng)。大模型是基于海量數(shù)據(jù)、在人類參與注入先驗知識基礎(chǔ)上訓(xùn)練出來的符號相關(guān)性網(wǎng)絡(luò)(概率映射),無法實現(xiàn)物理世界中語義的“理解”。借用具身認知中“與環(huán)境交互”思想,簡單的將大模型與機器人的結(jié)合來定義/理解具身智能是不能令人信服的。
觀點2:人形機器人=具身智能?
“具身智能”是指身體并支持物理交互的智能體。[4]
人形機器人是具身通用人工智能最理想的身體形式。
該觀點認為“具身智能”是指擁有身體的智能體,通常會讓人誤認為人形機器人就是“具身智能”(這個表述本身有語法錯誤)。馬斯克推出的人形機器人Optimus(擎天柱)是典型代表,最新進展顯示其可以拿捏物品、緩慢走路等,運動控制能力持續(xù)進化。Optimus(大概率)復(fù)用特斯拉FSD自動駕駛及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù),通過傳感器(相機、激光雷達)收集數(shù)據(jù),大規(guī)模數(shù)據(jù)集對模型訓(xùn)練實現(xiàn)識別,“智能”的實現(xiàn)路徑與觀點1中大模型路徑一致,瓶頸均在于用數(shù)據(jù)訓(xùn)練“刷”出來的輸出結(jié)果無法有效映射物理對象,在數(shù)據(jù)匱乏領(lǐng)域是無法應(yīng)用的。
該觀點著重強調(diào)“身體”,意在區(qū)別于符號主義主張智能是基于邏輯規(guī)則的符號操作運算,以及區(qū)別于連接主義主張智能是腦神經(jīng)元構(gòu)成的信息處理。人形機器人是未來泛通用機器人的最佳產(chǎn)品形態(tài),但“具身智能”的主體形式不必要限制在外觀上的“人形”,根據(jù)使用用途和場景的不同,可以有多種形態(tài)。僅有人的外觀,沒有實現(xiàn)智能本質(zhì)突破的人形機器人沒有靈魂。將具有身體的智能定義為“具身智能”是不正確的,也不能以身體的形式作為判斷是否屬于“具身智能”的依據(jù)。
觀點3:盧策吾教授:“具身智能”是指一種基于物理身體進行感知和行動的智能系統(tǒng), 其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動, 從而產(chǎn)生智能行為和適應(yīng)性。 [1]
該觀點認為具身智能擁有支持感知和運動的物理身體,可以進行主動式感知,也可以執(zhí)行物理任務(wù)。[5]
該觀點從具身性視角將智能體與環(huán)境融合在一起,強調(diào)“感知-行動回路”的重要性,即感受世界—對世界進行建?!M而采取行動—進行驗證并調(diào)整模型的過程,關(guān)注身體與環(huán)境之間的互動在智能行為的產(chǎn)生和適應(yīng)性提升中發(fā)揮的重要作用。
盧教授給出的“具身智能”的定義具有一定的借鑒意義,但仍然將“具身智能”歸結(jié)為一種智能系統(tǒng)。
二、“具身智能”是什么?
(1)認識論源頭:“具身智能”是以具身認知為指導(dǎo)的人工智能,體現(xiàn)哲學(xué)一元認識論思想。
具身認知屬于哲學(xué)和認知心理學(xué)的概念,是指人的認知和智力活動不是大腦的孤立計算,而是大腦、身體(通過感覺器官)及環(huán)境自適應(yīng)交互作用的產(chǎn)物。
(2)生物智能的基礎(chǔ)和漸進性:參考生物智能的本質(zhì),活體生物的細胞、器官或組織、單體生物均有不同層級智能,生物智能是“肉身”物質(zhì)構(gòu)造的機能。
活體生物的細胞本身是信息感知和處理器官,通過代謝過程實現(xiàn)物質(zhì)、能量與信息的轉(zhuǎn)換,完成生存、繁衍等一系列智能的表現(xiàn),這構(gòu)建了最低層次的智能(本能性的)。
進化到器官或組織的智能,高等動物的感覺器官(視覺、聽覺、觸覺等)發(fā)育的關(guān)鍵階段需要自主肢體運動配合,形成具有部分認知功能的智能。
進化到更高級的人整體的智能,活動環(huán)境的擴大和復(fù)雜化,對記憶和判斷、決策的要求推動大腦的形成和進化,以神經(jīng)系統(tǒng)為基礎(chǔ)的認知功能形成。
從單細胞的智能→組織和器官的智能→高級物種整體的智能→群智能,是不斷的重組和涌現(xiàn)的過程。進化的成果融合在遺傳基因中,強化某些器官或系統(tǒng),影響基因、遺傳變異的來源,提高生物體生存能力。進化過程中基于少樣本和低功耗,使得智力達到更高的高度,利于物種生存和亞系繁榮。
生物智能是“肉身”物質(zhì)構(gòu)造的機能,強調(diào)智能信息處理依賴物質(zhì)構(gòu)造,物質(zhì)載體不可或缺。
(3)我們關(guān)于“具身智能”的定義
“具身智能”是指主體(機器)在自體、對象與環(huán)境等要素間相互作用(信息感知、轉(zhuǎn)化和響應(yīng))的過程中建構(gòu)符合各要素物理實存及其關(guān)系演化趨勢的認知模型,達成問題解決或價值實現(xiàn)的人工智能方法。
具身智能是一種人工智能方法,強調(diào)智能主體在處理信息時要將關(guān)注的對象、環(huán)境以及自體均要納入信息處理范圍中。
具身智能的方法是分級的嵌套的,(類比于細胞)最基礎(chǔ)層單元的自體物理構(gòu)造與所需處理的智能任務(wù)的信息模型在數(shù)學(xué)上是同構(gòu)的。例如細胞實現(xiàn)最低層級的智能是一個循環(huán)圖、器官和組織的智能再到生物整體的智能都表現(xiàn)為循環(huán)分級嵌套模型。這種類似于分形理論的循環(huán)嵌套模型,將低層級的信息做壓縮和抽象,這樣高層級的智能循環(huán)不至于太復(fù)雜。
具身智能在認知與實踐的矛盾運動中實現(xiàn)智能增長。智能增長是指在實踐過程中整體模型的構(gòu)建和優(yōu)化,智能主體在感知到信息以后,經(jīng)過決策、規(guī)劃,要對外輸出行為,這樣才能夠?qū)崿F(xiàn)循環(huán)的閉環(huán),從而在此過程中實現(xiàn)智能的增長。
(4)“具身智能”的任務(wù)和使命
作為一種人工智能方法,“具身智能”要解決其他方法、工具難以解決的問題,才能展現(xiàn)其存在價值和生命力。
1948年,維納出版《人有人的用處》,提出“控制論”概念,1956年DARTMOUTH會議提出人工智能概念至今,人工智能科學(xué)先后發(fā)展出行為主義、符號主義、連接主義等不同的學(xué)派,用于發(fā)展“機器”智能,解決人類所關(guān)注的各種問題,取得巨大的成功。機器智能所具備的能力,應(yīng)用于模擬低等生物智能、確定目標(biāo)跟蹤及機器自動控制、圖片識認、語音識別與生成、機器翻譯、視頻轉(zhuǎn)換以及某些專項問題的解決等方面,表現(xiàn)出驚艷的能力。但是,即使大模型、生成式人工智能、人形機器人掀起全球關(guān)注的今天,我們掌握的人工智能方法仍然處于弱人工智能階段。通往高級的、與人類智能相當(dāng)?shù)娜斯ぶ悄芊椒窂绞鞘裁?這是我們關(guān)注“具身智能”的根本原因,也是“具身智能”的使命。因此,“具身智能”關(guān)鍵任務(wù),在于借鑒具身認知的思想,使得機器在對象識別、工具使用、推理和規(guī)劃、價值判斷、語言使用等方面基本達到人類智能的水平。其中,讓機器“理解”空間,實現(xiàn)“實物對象到信息端精細語義”的映射,是解決上述關(guān)鍵任務(wù)的最基礎(chǔ)的工作。
(5)“具身智能”的關(guān)鍵要素
①重構(gòu)映射:主體對物理實存進行鏡像映射,在信息空間中基于重構(gòu)映射內(nèi)容的交互作用來決策和行動。
信息空間的鏡像能力是“智能進行度量、評判”的基礎(chǔ)。要對對象進行有效的認知,最好的方法就是在大腦里構(gòu)建關(guān)于這個對象的逼真的模型和模型的演化,人類有效把握某個問題的關(guān)鍵也在于此。例如我們在現(xiàn)代戰(zhàn)爭中可以通過仿真模擬或沙盤模擬推演,在信息層有效映射不同要素和過程變化,使得戰(zhàn)爭指揮更有效、更高明。
重構(gòu)映射中,最基礎(chǔ)的是視覺信息的重構(gòu)。 基于視覺準確的感知和理解環(huán)境(包括對物體的理解、結(jié)構(gòu)的理解、可操作性的理解),視覺感知與物理實存交互印證,這是具身智能實現(xiàn)的基礎(chǔ)。
②認知過程的交互建構(gòu):認知是在大腦-身體-環(huán)境之間互動過程中建構(gòu)或構(gòu)造出來的,涌現(xiàn)概念并強化概念內(nèi)涵,在行動中反思-反思中實踐-實踐中建構(gòu)的螺旋上升過程。
我們的認知過程是大腦、身體、環(huán)境的互動中不斷循環(huán)構(gòu)造出來的,是動態(tài)的過程。例如戰(zhàn)爭中在無法摸清敵方兵力部署的情況下,采用炮火偵查的方式觀察敵方反應(yīng)。
③通道約束:認知受感知通道、信息 [6] 輸出通道能力的約束。
感知通道的約束可以從兩個例子來理解:一個是不同傳感器下的觀測結(jié)果不同,如人眼中的月亮以及使用望遠鏡看到的月亮是不同的;另一個是在距離過大或信息通道不夠時,信息會退化,如近處的飛機可以看到詳細構(gòu)造,隨著飛機越來越遠,逐漸退化成一個點,直到消失。
信息輸出通道包括動作的輸出以及語言的輸出,我們在認知形成過程中形成對對象世界改造的目的、計劃和方式的信息,通達于實踐,對世界加以改造[6]——改變物質(zhì)存在的信息狀態(tài)。
三、具身智能是智能科學(xué)發(fā)展的新范式
吳易明研究員在2021年學(xué)術(shù)報告[7]中提出:具身智能是智能科學(xué)發(fā)展的新范式,強調(diào):
(1)具身智能是對已有人工智能技術(shù)路徑(包括符號主義、行為主義、連接主義)的批判和提升,促進智能科學(xué)發(fā)展的升級與進步。
( 2)基因 [8] 決定不同生物種屬智能水平的高低,基因編碼本質(zhì)是數(shù)學(xué)性的,研究中引入現(xiàn)代數(shù)學(xué)成果是必要的。
生物的基因?qū)嶋H是一種數(shù)學(xué)編碼,可以完成遺傳信息的表達與傳遞,由基因、信息生物學(xué)決定的后天發(fā)育過程是可控的,也應(yīng)該是可借助數(shù)學(xué)模型解釋表征的——這需要更為抽象的現(xiàn)代數(shù)學(xué)工具。
(3)細胞級智能、低等生物、生物無意識行為和響應(yīng),大多服從控制論模型。
不論是生物、社會、包括物種的競爭某種意義上也服從控制論模型,“具身智能”不否定行為主義,是行為主義的延伸與提升。
(4)高級生物(動物)神經(jīng)元后天發(fā)育中,自然物理規(guī)律扮演“監(jiān)督”角色。
高等生物體發(fā)育出了大腦和神經(jīng)系統(tǒng),它的發(fā)育是與環(huán)境交互作用的結(jié)果,“學(xué)習(xí)”讓生物體變得更聰明,行為變化會融入后代的基因中。生物主體基于問題求解而反作用于環(huán)境的基本循環(huán),是高層次智能發(fā)生的必要基礎(chǔ)?!熬呱碇悄堋笨隙ㄟB接主義的研究,連接主義在一定范圍內(nèi)是有作用的,如何劃定其有效作用的范圍,是科學(xué)家應(yīng)該認真對待的課題,我們認為,其輸入端信息空間和輸出端信息空間在維度上的關(guān)系,大概是劃定其有效性的關(guān)鍵因素。
(5)接近人類的通用人工智能,最基礎(chǔ)的任務(wù)是實現(xiàn)對“物理實存對象空間及運動屬性的認知模型建構(gòu)”。
(6)“語言、符號、邏輯”是人類文明高級階段的特有成果,是“人類”生物肌體映射物理世界成果的溢出和卸載,是構(gòu)建高等級智能主體的基石,人類對其正確運用,依賴于有效解決哲學(xué)上的“指稱”問題。
語言、符號和邏輯是人創(chuàng)造出來用于認識世界的工具,人實現(xiàn)了對對象空間屬性的清晰辨識。識別實現(xiàn)了語義信息空間與實存對象之間的映射,是智能的基本問題。通用人工智能突破的關(guān)鍵點在于從技術(shù)上解決維特根斯坦提出的“指稱”問題。
四、總結(jié)
“具身智能”的概念是從生物進化史、人類文明史、人的成長史的源頭尋找靈感,探究智能的本質(zhì),厘清智能概念[9]的基礎(chǔ)上凝練而成的。
概念辨析處于科學(xué)研究首要地位,為智能科學(xué)技術(shù)突破指引方向?!熬呱碇悄堋笔且I(lǐng)未來智能科學(xué)發(fā)展新的范式。其核心在于視覺智能底層技術(shù)架構(gòu)的突破和應(yīng)用,即解決唯一映射問題?!熬呱碇悄堋睆娬{(diào)重構(gòu)映射,應(yīng)用在智能機器人系統(tǒng)中時,視覺智能技術(shù)架構(gòu)的突破使得機器人將現(xiàn)實的感知信息“各歸其位”(數(shù)學(xué)語言到物理存在映射的唯一性),實現(xiàn)真正的擬人化信息處理,是機器人真正在非結(jié)構(gòu)化環(huán)境中大規(guī)模落地應(yīng)用的關(guān)鍵。這種架構(gòu)最基礎(chǔ)的成分是數(shù)學(xué)的,小樣本的,而非“迷戀”大數(shù)據(jù)集、更高的算力、以及多模態(tài)等路徑。
經(jīng)過八年的艱苦努力,從理論研究到產(chǎn)品應(yīng)用落地,這個過程詮釋了“建構(gòu)性”方法的運用,我們已經(jīng)初步驗證了“具身智能”方法的正確性,并且看見和感受到了“具身智能”帶來突破的曙光,也看到更多的科學(xué)家涌入這個方向。我們只能依賴“人類的智能”以及人類文明的成果來研究智能的本質(zhì),“不識廬山真面目,只緣身在此山中”,這個緣由決定了研究工作必然充滿艱辛,挑戰(zhàn)諸多,但我們確信“具身智能”將開啟機器智能的新階段。
關(guān)于西安中科光電
西安中科光電精密工程有限公司成立于2013年,初創(chuàng)階段得到中國科學(xué)院西安光機所、中科創(chuàng)星強力支持,是典型的硬科技創(chuàng)業(yè)企業(yè)。公司面向智能制造、國防裝備領(lǐng)域,是專業(yè)從事高端智能機器人產(chǎn)品研發(fā)生產(chǎn)業(yè)務(wù)的高新技術(shù)企業(yè)。公司經(jīng)過持續(xù)八年的攻關(guān)研發(fā),突破了視覺智能底層理論和技術(shù),在2021年提出了以“具身智能”作為智能科學(xué)發(fā)展的新范式,并實現(xiàn)了自主智能機器人產(chǎn)品和業(yè)務(wù)應(yīng)用落地。2022年,公司獲得“具身”、“具身智能”商標(biāo)所有權(quán),并開通具身智能公眾號及視頻號、具身智能機器人公眾號。
公司以具身智能為指導(dǎo),聚焦視覺智能,解決軍工及制造業(yè)中的“精確測量、智能識別、精密控制”問題,為客戶在智能光電探測與精準識別、視覺導(dǎo)航、視覺智能自主機器人系統(tǒng)方面的需求提供產(chǎn)品和解決方案。目前已形成三大業(yè)務(wù)板塊:“仝人智能”焊接機器人、檢測機器人和特種機器人以及相關(guān)部件級產(chǎn)品。
相關(guān)稿件