從技術(shù)路線(xiàn)上看,目前基于大模型的“大腦”技術(shù)路線(xiàn)正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)。
現階段主要是 4 條技術(shù)路線(xiàn):
一、 LLM(大語(yǔ)言模型)+VFM(視覺(jué)基礎模型)
實(shí)現人機語(yǔ)言交互、任務(wù)理解、推理和規劃,目前最為成熟。主要代表是谷歌的
SayCan 模型,通過(guò)預訓練技能的價(jià)值函數對齊(Grounds)大語(yǔ)言模
型或者通過(guò)價(jià)值函數的訓練使大語(yǔ)言模型對用戶(hù)指令進(jìn)行推理分解
獲得任務(wù)步驟。
二、 VLM(視覺(jué)-語(yǔ)言模型)
彌合語(yǔ)言與視覺(jué)理解間的差距,讓機器人實(shí)現更準確的任務(wù)規劃和決策。主要代表是清華大學(xué)的 CoPa
模型,利用嵌入在基礎模型(比如視覺(jué)語(yǔ)言模型的代表 GPT-4V)中
的常識知識為開(kāi)放世界機器人操控生成一系列的自由度末端執行器
姿勢,生成的操控任務(wù)分為任務(wù)導向抓取和感知運動(dòng)規劃。
三、 VLA
(視覺(jué)-語(yǔ)言-動(dòng)作模型)
在 VLM 基礎上增加運動(dòng)控制,解決機器人運動(dòng)軌跡決策問(wèn)題。主要代表是谷歌的 RT-H 模型,學(xué)習語(yǔ)言和運動(dòng),
并使用視覺(jué)上下文,通過(guò)利用語(yǔ)言-視覺(jué)-動(dòng)作結合的多任務(wù)數據集學(xué)
習更強大和靈活的動(dòng)作策略。
四、多模態(tài)大模型
實(shí)現對物理世界環(huán)
境的全面感知,是未來(lái)的主要研究方向。主要代表是麻省理工、IBM
等共同研究的 MultiPLY 模型,將視覺(jué)、觸覺(jué)、語(yǔ)音等 3D 環(huán)境的各類(lèi)
特征作為輸入,以形成場(chǎng)景外觀(guān)的初步印象,并通過(guò)多視圖關(guān)聯(lián)將印
象中的輸出融合到 3D,最終得到以對象為中心的場(chǎng)景特征。
此外,類(lèi)腦智能和腦機接口等創(chuàng )新技術(shù)也為人形機器人“大腦”的
解決方案帶來(lái)無(wú)限可能。類(lèi)腦智能是人工智能技術(shù)的進(jìn)一步延伸,是
通過(guò)對人腦生物結構和思維方式進(jìn)行直接模擬,使智能體能夠像人腦
一樣精確高效處理多場(chǎng)景下的復雜任務(wù),是未來(lái)有望代替大模型的新
技術(shù)路線(xiàn)。腦機接口是在人腦與外部設備間建立連接通路的技術(shù),實(shí)
現人腦與外界設備的信息交換。未來(lái)有望基于腦機接口實(shí)現“大腦”的
“人+機”混合智能。
迎賓服務(wù)機器人需要整合視覺(jué),聽(tīng)覺(jué),觸覺(jué)等多種感知模態(tài),使機器人在復雜場(chǎng)景中做出更準確的決策;結合聽(tīng)覺(jué)和觸覺(jué)信息,機器人可以更好地理解人類(lèi)的指令和情感狀態(tài)
基于模型的小腦技術(shù)路線(xiàn)控制方法有ZMP判據及預觀(guān)控制,混雜零動(dòng)態(tài)規劃方法,虛擬模型解耦控制;基于學(xué)習的小腦技術(shù)路線(xiàn)控制方法有強化學(xué)習和模仿學(xué)習
展廳迎賓機器人的“小腦”核心技術(shù)正在從基于模型的控制方法向基于學(xué)習的控制方法演進(jìn),視覺(jué)-語(yǔ)言模型為機器人學(xué)習復雜技能提供了新的范式,有很強的泛化能力,能夠根據不同的指令組合技能
機器人機械手有多個(gè)關(guān)節和多個(gè)自由度,具有很高的靈活性;配置了必要的傳感器,可以精確控制機械手的操作;微小的外形尺寸使得機械手具有很高的操作精度
AI陪伴機器人在外觀(guān)設計具備人類(lèi)相似特征;在行為模式上模仿人類(lèi)的行為,具備手眼協(xié)調,動(dòng)態(tài)足控制能力;在各個(gè)領(lǐng)域的實(shí)際應用和用途,協(xié)助人類(lèi)完成各種復雜任務(wù)
多模態(tài)感知技術(shù)讓機器人具備類(lèi)似人類(lèi)五感的多模態(tài)智能感知能力;通過(guò)表情識別、語(yǔ)音情感分析等技術(shù),讓機器人感知人 類(lèi)情緒并做出相應情感回應,增加親和力和互動(dòng)性
迎賓機器人需要具備與人類(lèi)實(shí)時(shí)的任務(wù)級交互能力,快速理解人類(lèi)通過(guò)語(yǔ)言,手勢等方式給出的指令,有效執行;迎賓機器人需要能夠通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種感官獲取信息
LDS SLAM 與 VSLAM 各有優(yōu)劣,二者相容或成為行業(yè)主流發(fā)展方向之一;LDS SLAM 技術(shù)可視范圍廣,地圖精度更高;VSLAM技術(shù)成本更低,壽命長(cháng),不易損
將重復率較高,工作內容較枯燥的工作交給服務(wù)機器人去做,可以使員工把更多的精力集中在服務(wù)客戶(hù)上面,并可以降低一定成本,可降低總成本的17%
送餐已經(jīng)可以通過(guò)機器人自主完成,員工可以把節省出來(lái)的時(shí)間和精力,投入在給客人慶生,涮菜涮肉等服務(wù)水平的提升上,機器人真正帶來(lái)了降本增效
送餐已經(jīng)可以通過(guò)機器人自主完成,員工可以把節省出來(lái)的時(shí)間和精力,投入在給客人慶生,涮菜涮肉等服務(wù)水平的提升上,機器人真正帶來(lái)了降本增效
醫療機器人已成為智慧養老模式下的養老設備,醫院中有繁雜的配送藥物或餐食的任務(wù),并且需在特定時(shí)間準時(shí)送達
服務(wù)機器人可以使人工成本降低50%左右;酒店場(chǎng)景中服務(wù)機器人便于給客戶(hù)打造私密空間;旅游場(chǎng)景中服務(wù)機器人可以給出完全透明且準確的信息
酒店引導機器人以機器人硬件為載體,依托云平臺強大的智能服務(wù)技術(shù),引入智能語(yǔ)音交互系統,大數據分析系統,智能視覺(jué)識別系統,真正實(shí)現“能聽(tīng),會(huì )說(shuō),能思考,會(huì )判斷,看得見(jiàn),認得出”的智能化服務(wù)
特斯拉量產(chǎn)后預計售價(jià) 2 萬(wàn)美元;優(yōu)必選Walker價(jià)格200 萬(wàn); Ameca價(jià)格13.3 萬(wàn)美元; Digit價(jià)格25 萬(wàn)美元;Atlas價(jià)格190 萬(wàn)美元;Asimo價(jià)格近 300 萬(wàn)美元
創(chuàng )澤知名的機器人推薦27寸超大屏智能服務(wù)機器人,用戶(hù)交互更便捷;接待講解,引導跟隨,業(yè)務(wù)咨詢(xún),宣傳巡邏等功能,提高業(yè)務(wù)效率,提升企業(yè)形象
智慧圖書(shū)館服務(wù)機器人要比人類(lèi)方便的多,可以隨意尋求幫助,不用尷尬,不用不好意思,會(huì )給你講笑話(huà),逗你開(kāi)心,幫你答疑解惑,排除你的煩惱
機場(chǎng)指路機器人通過(guò)語(yǔ)音和屏幕終端與旅客進(jìn)行交流互動(dòng),獲取航班信息,服務(wù)流程,機場(chǎng)設施等各類(lèi)信息,能準確定位,為旅客提出最優(yōu)路徑指引