創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
從技術(shù)路線上看,目前基于大模型的“大腦”技術(shù)路線正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)。
現(xiàn)階段主要是 4 條技術(shù)路線:
實(shí)現(xiàn)人機(jī)語(yǔ)言交互、任務(wù)理解、推理和規(guī)劃,目前最為成熟。主要代表是谷歌的 SayCan 模型,通過(guò)預(yù)訓(xùn)練技能的價(jià)值函數(shù)對(duì)齊(Grounds)大語(yǔ)言模 型或者通過(guò)價(jià)值函數(shù)的訓(xùn)練使大語(yǔ)言模型對(duì)用戶指令進(jìn)行推理分解 獲得任務(wù)步驟。
彌合語(yǔ)言與視覺(jué)理解間的差距,讓機(jī)器人實(shí)現(xiàn)更準(zhǔn)確的任務(wù)規(guī)劃和決策。主要代表是清華大學(xué)的 CoPa 模型,利用嵌入在基礎(chǔ)模型(比如視覺(jué)語(yǔ)言模型的代表 GPT-4V)中 的常識(shí)知識(shí)為開(kāi)放世界機(jī)器人操控生成一系列的自由度末端執(zhí)行器 姿勢(shì),生成的操控任務(wù)分為任務(wù)導(dǎo)向抓取和感知運(yùn)動(dòng)規(guī)劃。
在 VLM 基礎(chǔ)上增加運(yùn)動(dòng)控制,解決機(jī)器人運(yùn)動(dòng)軌跡決策問(wèn)題。主要代表是谷歌的 RT-H 模型,學(xué)習(xí)語(yǔ)言和運(yùn)動(dòng), 并使用視覺(jué)上下文,通過(guò)利用語(yǔ)言-視覺(jué)-動(dòng)作結(jié)合的多任務(wù)數(shù)據(jù)集學(xué) 習(xí)更強(qiáng)大和靈活的動(dòng)作策略。
實(shí)現(xiàn)對(duì)物理世界環(huán) 境的全面感知,是未來(lái)的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型,將視覺(jué)、觸覺(jué)、語(yǔ)音等 3D 環(huán)境的各類(lèi) 特征作為輸入,以形成場(chǎng)景外觀的初步印象,并通過(guò)多視圖關(guān)聯(lián)將印 象中的輸出融合到 3D,最終得到以對(duì)象為中心的場(chǎng)景特征。
此外,類(lèi)腦智能和腦機(jī)接口等創(chuàng)新技術(shù)也為人形機(jī)器人“大腦”的 解決方案帶來(lái)無(wú)限可能。類(lèi)腦智能是人工智能技術(shù)的進(jìn)一步延伸,是 通過(guò)對(duì)人腦生物結(jié)構(gòu)和思維方式進(jìn)行直接模擬,使智能體能夠像人腦 一樣精確高效處理多場(chǎng)景下的復(fù)雜任務(wù),是未來(lái)有望代替大模型的新 技術(shù)路線。腦機(jī)接口是在人腦與外部設(shè)備間建立連接通路的技術(shù),實(shí) 現(xiàn)人腦與外界設(shè)備的信息交換。未來(lái)有望基于腦機(jī)接口實(shí)現(xiàn)“大腦”的 “人+機(jī)”混合智能。
機(jī)器人底盤(pán) Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤(pán) 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 紫外線消毒機(jī)器人 消毒機(jī)器人價(jià)格 展廳機(jī)器人 服務(wù)機(jī)器人底盤(pán) 核酸采樣機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |