財(cái)洞見 | 人形機(jī)器人前沿洞察(二):具身智能與靈巧手引領(lǐng)產(chǎn)業(yè)進(jìn)階
三、人形機(jī)器人核心零部件
具身智能技術(shù)
1.人形機(jī)器人是具身智能重要的載體
2025年2月20日,國外知名人形機(jī)器人獨(dú)角獸公司 Figure AI 重磅推出自研通用型視覺語言動(dòng)作(VLA)模型—Helix。
Helix能夠?qū)⒏兄?、語言理解與學(xué)習(xí)控制融為一體。只需一句自然語言指令、不需要任何事先演示或定制編程,人形機(jī)器人就能抓取幾乎所有家庭小物件。
接下來以Helix為例,解析具身智能架構(gòu)。
2.Helix發(fā)布的VLA大模型
Figure 發(fā)布視覺 - 語言 - 動(dòng)作(VLA)模型 Helix,推動(dòng)機(jī)器人在家庭等場景應(yīng)用,將視覺、語言、動(dòng)作控制融合,實(shí)現(xiàn)低功耗通用行為控制。
架構(gòu)創(chuàng)新:Helix 首創(chuàng) “系統(tǒng) 1 + 系統(tǒng) 2” 架構(gòu)。系統(tǒng) 1(視覺語言模型)基于預(yù)訓(xùn)練視覺 - 語言模型進(jìn)行場景理解與決策;系統(tǒng) 2(視覺動(dòng)作模型)能迅速將系統(tǒng)1的語義轉(zhuǎn)化為精準(zhǔn)動(dòng)作,負(fù)責(zé)實(shí)時(shí)控制。二者按各自節(jié)奏運(yùn)作,化解了傳統(tǒng)機(jī)器人在速度和泛化能力間的矛盾。
協(xié)作能力強(qiáng):兩臺(tái)機(jī)器人能依靠同一模型協(xié)同作業(yè),可抓取未見小型物品,在復(fù)雜家庭環(huán)境靈活執(zhí)行任務(wù)。
訓(xùn)練效率高:模型訓(xùn)練僅需約 500 小時(shí)監(jiān)督數(shù)據(jù),通過自動(dòng)化標(biāo)注降低人工成本,采用單一權(quán)重集學(xué)習(xí)多種行為,無需針對(duì)任務(wù)微調(diào),還可在嵌入式低功耗 GPU 上運(yùn)行,便于實(shí)時(shí)部署。
3.VLA模型是什么?
VLA(Vision-Language-Action)大模型指的是視覺-語言-動(dòng)作大模型,是面向具身智能的一種多模態(tài)大模型,融合了視覺語言模型(VLM)的感知能力和端到端模型(E2E)的決策能力。
對(duì)于機(jī)器人這類需在物理世界開展交互活動(dòng)的智能體,VLA 模型能夠把視覺、語言以及動(dòng)作等信息進(jìn)行有機(jī)融合,搭建起從感知、決策,到執(zhí)行的完整運(yùn)作閉環(huán)。
VLA的發(fā)展:LLM-VLM-VLA
要實(shí)現(xiàn)機(jī)器人的通用性,打造終極形態(tài)的具身智能體,必須借助端到端的方法,打通機(jī)器人從感知到行為執(zhí)行的全鏈路。
短期視角來看,目前國內(nèi)初創(chuàng)人形機(jī)器人企業(yè)多采用分層模式,主要是為了快速商業(yè)化落地;僅有少數(shù)企業(yè)例如特斯拉、星動(dòng)紀(jì)元等堅(jiān)持端到端模型。但從長期視角來看,端到端模式是最終實(shí)現(xiàn)具身智能涌現(xiàn)的重要條件。
端到端大模型訓(xùn)練瓶頸在于:1)數(shù)據(jù)量差距巨大;2)機(jī)器人獲取數(shù)據(jù)難度極高;3)遙控采集數(shù)據(jù)存在毒性;4)機(jī)器人本體方案未收斂導(dǎo)致數(shù)據(jù)難以復(fù)用。
以星動(dòng)紀(jì)元為例,其在2024年12月發(fā)布其具身大模型ERA-42,該模型是國內(nèi)首個(gè)真正意義上的端到端原生機(jī)器人大模型?;谠撃P停淙诵螜C(jī)器人能完成超 100 項(xiàng)復(fù)雜精細(xì)操作,如緊固螺釘、敲釘?shù)顾龋磺夷軌蛟诙虝r(shí)間內(nèi)適應(yīng)多種新任務(wù)。
4.英偉達(dá)開源的VLA模型介紹及影響
在 2025 年 GTC 大會(huì)上,英偉達(dá)推出全球首個(gè)開源人形機(jī)器人通用VLA模型Isaac GR00T N1 。它能完成抓取、移動(dòng)物體等常見及多步驟任務(wù),可應(yīng)用于物料搬運(yùn)、包裝、檢查等領(lǐng)域。
GR00T N1 的關(guān)鍵技術(shù)是雙系統(tǒng)架構(gòu):系統(tǒng) 1 (快思考模型)類似人類 “反射與直覺”,能快速處理即時(shí)任務(wù),在工業(yè)緊急避障、家庭服務(wù)即時(shí)響應(yīng)指令等場景發(fā)揮重要作用;系統(tǒng) 2(慢思考模型)由視覺語言模型驅(qū)動(dòng),負(fù)責(zé) “理性思考”,可依據(jù)環(huán)境和指令推理、規(guī)劃行動(dòng),二者協(xié)同讓 GR00T N1 響應(yīng)高效且能應(yīng)對(duì)復(fù)雜任務(wù) 。
此外,英偉達(dá)提供的生態(tài)支持也為其賦能,如借助 Omniverse 平臺(tái)生成合成數(shù)據(jù)、依托 Isaac Lab 與 Jetson Thor 芯片,以及運(yùn)用 Newton 物理引擎。
最重要的是,英偉達(dá)將模型代碼開放,支持開發(fā)者按需后訓(xùn)練和定制,大幅降低開發(fā)門檻,吸引了 ABB 等工業(yè)機(jī)器人巨頭、Figure 和特斯拉 Optimus 等人形機(jī)器人公司,以及迪士尼等跨界企業(yè)參與。
從產(chǎn)業(yè)角度,GR00T N1 借助開源降門檻、算力筑優(yōu)勢、合作拓應(yīng)用,構(gòu)建起生態(tài)系統(tǒng),將深刻影響機(jī)器人產(chǎn)業(yè)未來走向。
5.關(guān)于具身智能大模型的兩點(diǎn)思考
具身智能發(fā)展核心在于模型的優(yōu)化和有效數(shù)據(jù)的收集。
5.1數(shù)據(jù)端問題業(yè)界如何解決
工業(yè)領(lǐng)域數(shù)據(jù)難獲取如何解決:1)重構(gòu)場景與仿真。對(duì)真實(shí)場景進(jìn)行逼真重構(gòu),并植入更多資產(chǎn),增加場景多樣性;2)植入數(shù)字機(jī)器人。進(jìn)行導(dǎo)航、操控,實(shí)現(xiàn)數(shù)字自動(dòng)化采集模型驗(yàn)證。
當(dāng)前,數(shù)據(jù)端難題仍未攻克,業(yè)內(nèi)企業(yè)紛紛基于自家方案收集數(shù)據(jù),先在單一場景實(shí)現(xiàn)泛化,再推動(dòng)人形機(jī)器人落地。未來 3 - 5 年,待數(shù)據(jù)量充足、硬件方案趨同,具身智能基礎(chǔ)模型有望實(shí)現(xiàn)智能涌現(xiàn),構(gòu)建端到端具身智能大模型。
5.2能否采用Deepseek范式來加強(qiáng)具身智能大模型的發(fā)展?
DeepSeek 采用預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)結(jié)合模式,引入高質(zhì)量數(shù)據(jù),降低大模型算力和數(shù)據(jù)需求。這對(duì)具身智能大模型而言方向正確,但要素尚不齊全。當(dāng)下,既缺乏強(qiáng)大的具身智能基礎(chǔ)模型,強(qiáng)化學(xué)習(xí)流程也有待完善 。
四、人形機(jī)器人核心零部件
靈巧手系統(tǒng)解析
1.靈巧手介紹
1.1靈巧手為何重要
靈巧手是人形機(jī)器人實(shí)現(xiàn)擬人化的關(guān)鍵組成部分,使機(jī)器人能夠?qū)崿F(xiàn)對(duì)物體的感知、操縱以及抓取等功能,使得機(jī)器人能夠應(yīng)用在更多元、復(fù)雜的場景。
靈巧手具有較高的技術(shù)壁壘和資金壁壘。Optimus靈巧手的開發(fā)工程量占到整個(gè)機(jī)器人開發(fā)工程量的50%-60%,成本占到了整個(gè)Optimus機(jī)器人的17%。靈巧手的設(shè)計(jì)與研發(fā)涉及力學(xué)、材料、電子、數(shù)學(xué)等多學(xué)科的綜合應(yīng)用。
1.2靈巧手發(fā)展概況
市場規(guī)模:根據(jù)頭豹研究所,2024年中國靈巧手市場規(guī)模125億,預(yù)計(jì)2030年中國靈巧手市場規(guī)模12,535億,期間復(fù)合增長率 115% 。
競爭格局:當(dāng)前我國靈巧手的技術(shù)在同美國和歐洲等發(fā)達(dá)國家相比還存在一定差距,但伴隨著產(chǎn)業(yè)政策引導(dǎo)、需求空間驅(qū)動(dòng)、市場化程度提高等因素,中國企業(yè)有望憑著供應(yīng)鏈成本優(yōu)勢擠占市場份額。
2.靈巧手的分類
靈巧手根據(jù)自由度數(shù)量可分為全驅(qū)動(dòng)和欠驅(qū)動(dòng),由驅(qū)動(dòng)系統(tǒng)、傳動(dòng)系統(tǒng)、控制系統(tǒng)、傳感/感知系統(tǒng)、控制系統(tǒng)四部分構(gòu)成。
驅(qū)動(dòng)系統(tǒng):為靈巧手指關(guān)節(jié)的運(yùn)動(dòng)提供力。按驅(qū)動(dòng)器所在位置可以分為內(nèi)置和外置。按驅(qū)動(dòng)方式可分為液壓、氣壓、形狀記憶合金、電機(jī)驅(qū)動(dòng)。電機(jī)驅(qū)動(dòng)是當(dāng)前主流驅(qū)動(dòng)方式。主要裝置為空心杯電機(jī)、行星減速器等。
傳動(dòng)系統(tǒng):將驅(qū)動(dòng)系統(tǒng)產(chǎn)生的力傳動(dòng)到指關(guān)節(jié)處,使指關(guān)節(jié)運(yùn)動(dòng)。按傳動(dòng)方式可分為齒輪傳動(dòng)、連桿傳動(dòng)、腱繩傳動(dòng)。腱繩傳動(dòng)是當(dāng)前主流傳動(dòng)方式。連桿傳動(dòng)多用于工業(yè)和商業(yè)用途,齒輪在工業(yè)機(jī)器人中應(yīng)用較為廣泛。主要裝置為蝸輪蝸桿、滾珠絲杠、腱繩等。
傳感/感知系統(tǒng):按感知信息的類型可以分為內(nèi)部感知和外部感知,內(nèi)部感知用于感知靈巧手的運(yùn)動(dòng)參數(shù),外部感知用于感知環(huán)境信息。主要裝置為六維力矩傳感器、觸覺傳感器等。
控制系統(tǒng):依靠內(nèi)嵌的算法對(duì)傳動(dòng)系統(tǒng)和驅(qū)動(dòng)系統(tǒng)實(shí)施精準(zhǔn)的控制。主要使用的算法有深度學(xué)習(xí)算法、模擬學(xué)習(xí)算法、PID算法、模糊控制算法等。
目前,靈巧手企業(yè)均未 All in 一條技術(shù)路徑,需要保持對(duì)其他技術(shù)路徑和方案的持續(xù)關(guān)注。
3.靈巧手如何傳動(dòng)
靈巧手的傳動(dòng)分為三級(jí):
一級(jí)傳動(dòng):減速器將驅(qū)動(dòng)裝置的高速旋轉(zhuǎn)運(yùn)動(dòng)轉(zhuǎn)換為低速高扭矩運(yùn)動(dòng)。主要裝置為行星減速器、諧波減速器、RV減速器。
二級(jí)傳動(dòng):運(yùn)動(dòng)轉(zhuǎn)換裝置與減速器相連,將旋轉(zhuǎn)運(yùn)動(dòng)轉(zhuǎn)換為直線運(yùn)動(dòng)。主要裝置為滾珠絲杠、錐齒輪、蝸輪蝸桿等。
三級(jí)傳動(dòng):將轉(zhuǎn)換后的直線運(yùn)動(dòng)傳遞至指關(guān)節(jié)處。主要傳動(dòng)方式為齒輪傳動(dòng)、連桿傳動(dòng)、腱繩傳動(dòng)。
滾珠絲杠+腱繩傳動(dòng):減速器與滾珠絲杠通過聯(lián)軸器連接。驅(qū)動(dòng)下絲杠旋轉(zhuǎn),帶動(dòng)滾珠在螺旋槽與螺母間滾動(dòng),使螺母沿軸做直線運(yùn)動(dòng)。腱繩一端在螺母處繞成腱環(huán),另一端依次穿過滑輪,與指關(guān)節(jié)末端相連,模擬人體肌腱傳遞力和力矩,實(shí)現(xiàn)手指屈伸,借助復(fù)位彈簧完成指關(guān)節(jié)復(fù)位 。
特斯拉的靈巧手經(jīng)過3次迭代,采用了空心杯電機(jī)驅(qū)動(dòng)和滾柱絲杠+腱繩傳動(dòng)的方式。
4.靈巧手核心零部件—空心杯電機(jī)
空心杯電機(jī)為靈巧手中優(yōu)選方案,其轉(zhuǎn)子呈無鐵芯空心杯狀,定子由永磁體構(gòu)成,該結(jié)構(gòu)降低整體重量和轉(zhuǎn)動(dòng)慣量。空心杯電機(jī)還具有體積小、效率高、響應(yīng)快、線性度佳、運(yùn)行平穩(wěn)等優(yōu)勢,在航空航天、機(jī)器人、醫(yī)療器械以及模型玩具等對(duì)電機(jī)性能和控制精度要求高的領(lǐng)域應(yīng)用廣泛。
空心杯電機(jī)市場概況:據(jù)中商產(chǎn)業(yè)研究院和QY Research數(shù)據(jù),2023年全球空心杯電機(jī)市場規(guī)模為8.1億美元,2028年將增至11.9億美元,CAGR 達(dá)到8%。國內(nèi)市場方面,2023年中國空心杯電機(jī)市場規(guī)模為2.9億美元,2028年將增至4.7億美元,CAGR 達(dá)到10.14%。中國在全球空心杯市場的市場規(guī)模有望進(jìn)一步提高。
空心杯電機(jī)壁壘:當(dāng)前空心杯電機(jī)市場尤其是中高端空心杯市場主要由國外廠商占據(jù),其在繞組設(shè)計(jì)、動(dòng)平衡設(shè)計(jì)上具有較強(qiáng)的技術(shù)和專利優(yōu)勢(繞組設(shè)計(jì):線圈纏繞方式和排列的一致性會(huì)影響電機(jī)效率與扭矩,扭矩越大,電機(jī)轉(zhuǎn)動(dòng)慣量越大,輸出力也越大;動(dòng)平衡設(shè)計(jì):轉(zhuǎn)子動(dòng)平衡是影響電機(jī)運(yùn)行性能的關(guān)鍵,關(guān)乎電機(jī)運(yùn)行時(shí)的噪音和振動(dòng)。使用不同磁性材料的轉(zhuǎn)子質(zhì)量有差異,會(huì)導(dǎo)致動(dòng)平衡出現(xiàn)差異 )國內(nèi)廠商要突破有較大的難度。
5.靈巧手核心零部件—腱繩
靈巧手需要滿足高強(qiáng)度、低蠕變性、耐磨損、折疊不易損的特性,腱繩因其韌性強(qiáng)、輕量化等特點(diǎn),更適合用于靈巧手。
腱繩材料的構(gòu)成:腱繩的材質(zhì)范圍包含金屬及超高分子量聚乙烯纖維,在成本、重量方面有不同的優(yōu)勢,需要取決不同的應(yīng)用場景。而超高分子聚乙烯是腱繩的主要材料。其強(qiáng)度是優(yōu)質(zhì)鋼材的15倍,玻璃和尼龍的66的4倍,碳纖維的2.6倍。
腱繩穿過滑輪的方式:根據(jù)控制N個(gè)獨(dú)立關(guān)節(jié)所需的驅(qū)動(dòng)器數(shù)量,腱繩穿過滑輪的方式主要有N型、N+1型、2N型,當(dāng)前主流的方案為N+1型。N+1型較好地平衡了驅(qū)動(dòng)器以及腱繩的數(shù)量,能夠使用在較高的自由度中。
6.靈巧手核心零部件—六維力矩傳感器
力矩傳感器是一種用于測量力矩的裝置。按照測量維度。力矩傳感器可分為一維傳感器、三維傳感器、六維傳感器。六維力矩傳感器可同時(shí)測量Fx、Fy、Fz、Mx、My、Mz六個(gè)分量。
六維力矩傳感器能精準(zhǔn)測量三維空間力與力矩,由彈性體與應(yīng)變片等敏感元件構(gòu)成,借助彈性體受力變形、應(yīng)變片轉(zhuǎn)化電信號(hào),并采用惠斯通電橋電路提升測量精度。它可同步獲取 X、Y、Z 軸三個(gè)方向的力與繞軸力矩,具備高精度、高靈敏度、線性度佳、響應(yīng)迅速的特性。憑借這些優(yōu)勢,六維力矩傳感器在工業(yè)自動(dòng)化的機(jī)器人操作、航空航天的風(fēng)洞試驗(yàn),以及生物力學(xué)人體運(yùn)動(dòng)研究等領(lǐng)域發(fā)揮著關(guān)鍵作用 。
六維力矩傳感器利用串?dāng)_、精度、準(zhǔn)度來衡量六維傳感器的性能。串?dāng)_:衡量多維力傳感器各測量方向間耦合影響,反映測量誤差水平;精度:衡量測量結(jié)果之間的重復(fù)性;準(zhǔn)度:涵蓋滯后、線性、蠕變等誤差因素,體現(xiàn)產(chǎn)品的綜合性能。
六維力矩傳感器壁壘:1)設(shè)備研發(fā)。六維力矩傳感器需六維聯(lián)合加載檢定來提高精確度。目前六維聯(lián)合加載檢定裝置無標(biāo)準(zhǔn)化產(chǎn)品可采購,需六維力矩廠商自己研發(fā)。其研發(fā)涉及空間光學(xué)定位、載荷位移補(bǔ)償、機(jī)電一體化等多項(xiàng)技術(shù),非常依賴工程經(jīng)驗(yàn);2)解耦及關(guān)鍵技術(shù)。六維力矩傳感器需要解耦來減少串?dāng)_,解耦的方法存在著技術(shù)門檻,分為硬件解耦和軟件解耦兩種。
7.靈巧手的幾點(diǎn)思考
靈巧手存在兩大核心矛盾
一是性能短板,在可靠性、穩(wěn)定性、靈活性方面,和人手相比提升空間巨大。以抓重比為例,人手抓重比達(dá) 1:12,shadow hand 僅 1:1.2。
二是性能與成本、空間適配性難以平衡?;趹?yīng)用場景選型時(shí),靈巧手性能與成本無法兼顧,且受空間、尺寸和重量限制 —— 尺寸過大,人機(jī)交互感降低;重量過大,靈活性降低 。
靈巧手的發(fā)展趨勢
硬件層面:1)更高的自由度,以實(shí)現(xiàn)更多的抓取動(dòng)作和應(yīng)用于更多元化、復(fù)雜的場景;2)驅(qū)動(dòng)器外置轉(zhuǎn)向驅(qū)動(dòng)器內(nèi)置或驅(qū)動(dòng)器混合置。驅(qū)動(dòng)器外置會(huì)造成靈巧手尺寸過大,而選用驅(qū)動(dòng)器內(nèi)置可以為靈巧手釋放更多的空間,但也降低了靈巧手的靈活性;3)傳感器從單維信息感知到多維信息感知;4)降本與性能的平衡。
軟件層面:算法在靈巧手的綜合權(quán)重占比為75%-80%,好的算法可以為靈巧手附加價(jià)值。1)神經(jīng)AI學(xué)習(xí),實(shí)現(xiàn)人類級(jí)的推理能力;2)具身智能,實(shí)現(xiàn)對(duì)環(huán)境的主動(dòng)感知,動(dòng)態(tài)調(diào)整抓取策略;3)群體協(xié)同算法,實(shí)現(xiàn)多靈巧手協(xié)同作業(yè)。
五、思考與總結(jié)
期待爆發(fā),謹(jǐn)慎樂觀
1.未來前景與挑戰(zhàn):期待爆發(fā),謹(jǐn)慎樂觀
人形機(jī)器人落地面臨技術(shù)和市場雙重難題。技術(shù)上,運(yùn)控、大腦研發(fā)及場景適配存在問題,技術(shù)路徑不明,競爭格局未定;市場上,尚未實(shí)現(xiàn)規(guī)模化商業(yè)落地,成本仍較高。
其發(fā)展需硬件與 AI 雙驅(qū)動(dòng),AI 更為關(guān)鍵,不聚焦大模型的企業(yè)生存艱難。
成本問題同樣突出,人形機(jī)器人價(jià)格曾高達(dá)百萬,未來下降空間大,2030 年成本有望降至20 萬及以下,這或成落地拐點(diǎn)。
預(yù)計(jì) 3 年左右人形機(jī)器人將迎來應(yīng)用場景,工業(yè)領(lǐng)域先行,各國情況有別。產(chǎn)業(yè)鏈企業(yè)需協(xié)同合作,實(shí)現(xiàn)落地還需 3-5 年。
投資重點(diǎn)關(guān)注關(guān)節(jié)裝置(行星滾柱絲杠、諧波減速器)、具身智能、靈巧手(腱繩、六維力矩傳感器)
2.2025年會(huì)是量產(chǎn)元年嗎?
今年1月以來,國內(nèi)外各大人形機(jī)器人頭部企業(yè)紛紛透露量產(chǎn)信息,坐實(shí)2025年人形機(jī)器人“量產(chǎn)元年”的推斷。
預(yù)計(jì) 2025 年,技術(shù)突破與生產(chǎn)規(guī)模擴(kuò)大將促使人形機(jī)器人價(jià)格下探,部分企業(yè)計(jì)劃將全尺寸產(chǎn)品售價(jià)壓至 20 萬元以下,加速其在各行業(yè)的應(yīng)用。
商業(yè)化進(jìn)程上,多家廠商將在 2025 年實(shí)現(xiàn)量產(chǎn)或發(fā)布新品、布局市場。部分企業(yè)計(jì)劃量產(chǎn)超千臺(tái),覆蓋更多垂直行業(yè),多數(shù)企業(yè)設(shè)定了超百臺(tái)的量產(chǎn)目標(biāo),通過放量與產(chǎn)品迭代提升市場占有率。
綜合來看,2025 年有機(jī)會(huì)成為人形機(jī)器人商業(yè)化量產(chǎn)元年,國內(nèi)人形機(jī)器人整機(jī)廠商能夠憑借成本端和需求端的雙重優(yōu)勢,在國際市場逐步展現(xiàn)出強(qiáng)勁的競爭力,帶動(dòng)產(chǎn)業(yè)鏈發(fā)展。
從春晚舞臺(tái)到智能工廠,從實(shí)驗(yàn)室到生產(chǎn)線,各個(gè)場景的實(shí)踐表明,中國機(jī)器人產(chǎn)業(yè)步入創(chuàng)新裂變階段。在政策、技術(shù)與市場三重利好下,未來生產(chǎn)力革命正拉開帷幕。
下一篇返回列表