近日,華中科技大學(xué)電信學(xué)院與北京通用人工智能研究院(簡(jiǎn)稱“北通院”)攜手,在人工智能領(lǐng)域頂級(jí)國(guó)際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence在線發(fā)表了題為“M2Diffuser:Diffusion-based Trajectory Optimization for Mobile Manipulation in 3D Scenes”的最新研究成果。該成果為
機(jī)器人在復(fù)雜三維場(chǎng)景下實(shí)現(xiàn)高效、精準(zhǔn)的移動(dòng)操作提供了全新的解決方案。論文第一作者為電信學(xué)院“通計(jì)劃”2024級(jí)聯(lián)合培養(yǎng)博士生鄢思旭,電信學(xué)院王興剛教授與北通院劉航欣研究員為論文共同通訊作者。
當(dāng)前,人工智能與機(jī)器人技術(shù)的融合正不斷帶來新成果。然而在移動(dòng)操作這一關(guān)鍵領(lǐng)域,傳統(tǒng)方法長(zhǎng)期以來面臨著諸多挑戰(zhàn),例如高維動(dòng)作空間、復(fù)雜環(huán)境交互以及嚴(yán)格的物理約束等。M2Diffuser全稱為“Mobile Manipulation Diffuser”,是一種基于擴(kuò)散模型的場(chǎng)景條件生成模型。它首次結(jié)合了學(xué)習(xí)方法與傳統(tǒng)規(guī)劃方法的優(yōu)勢(shì),直接從機(jī)器人中心的3D掃描數(shù)據(jù)中生成高效、協(xié)調(diào)的全身運(yùn)動(dòng)軌跡。這一創(chuàng)新方法不僅能夠靈活地適應(yīng)各種復(fù)雜的任務(wù)目標(biāo),還能在每次去噪步驟中以完全可微分的方式減少物理違規(guī)和執(zhí)行錯(cuò)誤,確保機(jī)器人的動(dòng)作既安全又精準(zhǔn)。
三維場(chǎng)景下的移動(dòng)操作挑戰(zhàn)
在過去,無論是基于學(xué)習(xí)的自回歸規(guī)劃方法,都依賴于完美環(huán)境知識(shí)的傳統(tǒng)規(guī)劃方法,難以在復(fù)雜的真實(shí)世界環(huán)境中實(shí)現(xiàn)高效、可靠的移動(dòng)操作。學(xué)習(xí)方法雖然能夠從數(shù)據(jù)中學(xué)習(xí)到復(fù)雜的技能,但在模型推理過程中往往難以完全消除物理約束的違反;而傳統(tǒng)規(guī)劃方法則因?qū)Νh(huán)境建模的嚴(yán)格要求和對(duì)目標(biāo)的過度依賴,難以在實(shí)際應(yīng)用中實(shí)現(xiàn)廣泛的擴(kuò)展。
為了突破這些瓶頸,研究團(tuán)隊(duì)首先開發(fā)了M3Bench——一個(gè)涵蓋30000個(gè)物體操作任務(wù)的移動(dòng)操作基準(zhǔn)測(cè)試平臺(tái),覆蓋119種多樣化的家庭場(chǎng)景。該平臺(tái)不僅提供了豐富的專家演示數(shù)據(jù),還配備了元數(shù)據(jù)采集接口,構(gòu)建了從基礎(chǔ)抓取到復(fù)雜場(chǎng)景操作的任務(wù)譜系。M3Bench的開發(fā)為M2Diffuser 提供了高質(zhì)量的訓(xùn)練數(shù)據(jù),確保了模型在復(fù)雜三維環(huán)境下的高效學(xué)習(xí)和優(yōu)化能力。這一平臺(tái)的出現(xiàn),不僅解決了移動(dòng)操作研究中缺乏
標(biāo)準(zhǔn)化測(cè)試平臺(tái)的問題,還為全身運(yùn)動(dòng)規(guī)劃研究提供了系統(tǒng)化的評(píng)估框架,支持對(duì)運(yùn)動(dòng)生成算法進(jìn)行全面驗(yàn)證。
M3Bench移動(dòng)操作測(cè)試平臺(tái)
M2Diffuser利用擴(kuò)散模型的強(qiáng)大能力,可以直接學(xué)習(xí)運(yùn)動(dòng)軌跡的概率分布。在推理過程中,M2Diffuser將物理約束和任務(wù)目標(biāo)建模為可微分的成本和能量函數(shù),引導(dǎo)優(yōu)化過程,確保生成的軌跡既符合物理規(guī)律,又能精準(zhǔn)完成任務(wù)目標(biāo)。這一過程中,M2Diffuser不僅能夠處理復(fù)雜的全身運(yùn)動(dòng)軌跡,還能在多種任務(wù)之間靈活切換,展現(xiàn)出極高的適應(yīng)性和泛化能力。
M2Diffuser模型架構(gòu)
實(shí)驗(yàn)結(jié)果表明,M2Diffuser相較于基線方法在所有性能指標(biāo)上實(shí)現(xiàn)了質(zhì)的提升(平均提升26%)。它不僅在熟悉和未知場(chǎng)景中均展現(xiàn)出更高的成功率,還通過優(yōu)化機(jī)制大幅降低了碰撞率,并生成了更平滑、更符合關(guān)節(jié)限制的運(yùn)動(dòng)軌跡。此外,M2Diffuser憑借其迭代去噪過程和全局優(yōu)化能力,能夠生成更接近全局最優(yōu)解的運(yùn)動(dòng)軌跡,有效避免了短視規(guī)劃問題。它還首次實(shí)現(xiàn)了從仿真到真實(shí)世界的無縫遷移,直接將基于模仿學(xué)習(xí)的神經(jīng)運(yùn)動(dòng)規(guī)劃器應(yīng)用于真實(shí)家庭環(huán)境中的移動(dòng)操作任務(wù),并成功處理了未見過的環(huán)境和物體,充分證明了其在復(fù)雜真實(shí)場(chǎng)景中的泛化能力和魯棒性。
M2Diffuser仿真測(cè)試
M2Diffuser真機(jī)測(cè)試
M2Diffuser有望賦能機(jī)器人在復(fù)雜環(huán)境中自主、高效地完成各種任務(wù),為智能工廠、家庭
服務(wù)機(jī)器人、物流配送等領(lǐng)域帶來革命性變革,極大地提高生產(chǎn)效率和生活質(zhì)量。該成果的取得也是我校與北京通用人工智能研究院圍繞“通計(jì)劃”開展合作研究取得的重要成果之一。
昵稱 驗(yàn)證碼 請(qǐng)輸入正確驗(yàn)證碼
所有評(píng)論僅代表網(wǎng)友意見,與本站立場(chǎng)無關(guān)