
2026.02.11
テキストや画像などの情報入力(トークン)を受け、学習したAIモデルによって新たなテキストや画像(トークン)を出力する生成AIは、モデルパラメーターを巨大にするほど正答率が上がる、つまり利口になる。目的さえ与えれば、自ら計画・判断して業務を遂行するエージェント型AIに進化していっている。ただし、これはサーバー空間での活動である。
これをリアルな世界におけるアクションという出力にしたのがフィジカルAIである。各種センサで得た情報入力を統合・融合し、物理法則を理解したAIモデルにより認知・判断し、具体的な運動・行動という出力を生成する。自動運転車両が一例である。それ以上に注目されているのがAIロボットである。特に、汎用的な目的に対応可能なヒト型AIロボット(ヒューマノイド)が注目を集めている。エージェント型AIがヒトの知的労働を支援・代替するものとすると、フィジカルAIはヒトの肉体労働を支援・代替するものである。
本稿では、フィジカルAIのうち、ヒト型AIロボット(ヒューマノイド)に関し、その開発動向および搭載されるセンサについて概観した後に、外部環境を検知するためのセンサ(視覚、聴覚、近接および温感センサ)の動向について述べる。なお、動作に直接繋がるセンサ(平衡感覚、触覚、力覚センサ)、及びセンサを統合するマルチモーダル技術については、続編で説明する。
ホンダの二本足走行ロボットASIMO(2000年公開)に代表されるように、かつて日本はヒューマノイド開発の最前線にいた。また、溶接や組み立てなど特定の作業に特化した産業用ロボットではファナックや安川電機などが世界的に高いシェアを誇っている。しかし、フィジカルAIと呼ばれるヒューマノイドの開発では、米国と中国が先行しており、日本の存在感は今のところ薄い。
米国では巨大企業だけでなく、多くのスタートアップが数百億円の資金を調達し、具体的な作業場での実証実験を進めている。
例えば、Figure AI社は2022年創業のスタートアップあるが、Microsoft、OpenAIやNVIDIAなどから$1.75Bの巨大資金を獲得し、ヒトの肉体労働を代替するヒューマノイドの開発を進めている。売り上げはないが、企業価値は$39Bに達したと、同社のHPで発表している。まさに期待先行である。自動車工場に試験導入し、シャーシの組み立てや部品の配達作業に当たらせている。汎用型ヒューマノイドの開発を目指しており、同社HPでは、家事や宅配への応用も示されている。生成AIがテキストデータを学習データとして用いる大規模言語モデル(LLM)に拠っているのに対して、同社はテキストと画像を学習データとして、それを統合的に理解する視覚言語モデル(VLM:Vision-Language Model)をベースに開発したところが特徴である。ロボットのセンサやアクチュエータなどのハードウェアは十分に成熟しているとの認識に立脚している。
Figure AI社以外に、テキサス大学発でNASAの技術を基盤とした汎用ロボット開発のApptronik社(2016年創業)や、オレゴン州立大発のAgility Robotics社(2015年創業)などのスタートアップが、多くの資金を調達している。Agility Robotics社はAmazon等から資金を調達して、物流倉庫の荷物の搬送・運搬に特化した二本足走行ロボットの開発を進めている。大手ではTeslaがヒューマノイドの開発に力を入れている。2026年1月29日には、Teslaは高級EVから撤退し、その工場をフィジカルAI(ヒューマノイドやロボタクシー)の製造にあてるとの報道がなされた。Open AIもスタートアップに出資しているだけでなく、社内でもヒューマノイド開発を行っている。NVIDIAは、フィジカルAIをGPUの次世代アプリケーションの大きな柱であると捉え、学習モデル開発など、そのプラットフォーマになるべき積極的に取り組んでいる。
中国もEVとAIの技術基盤を活かして、ヒューマノイド開発に多くのスタートアップが参入している。主なところは、UBETECH社、Unitree Robotics社、AgiBot社、EngineAI社、Fourier社などである。EVメーカー(XPeng)の参入も伝えられている。UBETECH社のヒューマノイドはEV最大手のBYDが2024年に工場に導入したとの報道もある。同社は既に500台を工場に導入しているとのことであるが、2026年1月の報道によると、生産性は人間の半分以下とのことで、2027年までに人間の80%の生産性まで向上させたいと述べている。Unitree Robotics社のヒューマノイドは野外の坂道を駆け上がることもできる。同社は普及価格帯モデルの価格を$16k(約240万円)と、従来の1/5程度となる低価格攻勢もかけている。また、2025年5月にはヒューマノイドのハーフマラソン大会が開催され、中国政府系研究機関の開発したロボットが、2時間40分42秒(約8km/時)で完走したと報じられている。中国のヒト型ロボットの2029年の市場規模は790億元(約1.5兆円)との予測も報じられ、150社以上の企業が参入する乱立状態になっている。中国政府当局が、ヒューマノイドバブルが醸成されつつあるとの懸念を発したとの報道(2025年11月)もある。
日本でも、後れを取り戻そうとの動きがでてきている。例えば、2025年6月には、京都ヒューマノイドアソシエーションが、京都大学高西教授、村田製作所、テムザックおよびSREホールディングスによって設立された。ベースモデルを2026年春に完成させ、同年末には災害対応型/研究用モデルの公開を予定している。また、2024年12月には、早稲田大学尾形教授やオムロン、トヨタなどが中心となり、AIロボット協会を設立した。ロボットに共通の基板モデルの開発やロボットデータエコシステムの構築などを目指している。産業ロボットの最大手の安川電機とファナックはフィジカルAIに関してNVIDIAとの協業をそれぞれ、2025年10月と12月に発表した。産業用ロボットへフィジカルAI技術を取り込もうとの側面が強い。スタートアップも出てきた。2026年1月21日に、ドーナツロボティックス(2012年創業)が量産型ヒューマノイドを発表した。独自ハードウェアにVLMモデルを搭載し、手や指のジェスチャーでロボットを操作する「サイレント ジェスチャー コントロール」機能を有している。建設業界への導入を目指すという。
多くのセンサがヒューマノイドに搭載されている。外部環境を検知・認識するセンサと、自身の動作の制御に使うセンサに大別される。前者に属するものが、視覚(眼)、聴覚(耳)、温感(皮膚等)に関するセンサであり、具体的には、RGBカメラ、3次元画像を取得するステレオカメラ、LiDAR、ToF(Time-of-Flight)センサ、マイクロフォンアレイ、近接センサ(静電容量や超音波など)、および温度センサである。後者に属するものが、平衡感覚や触覚、力覚センサであり、具体的には、IMU(慣性計測ユニット)、圧力センサ、トルクセンサおよびエンコーダである。
これらのセンサは目新しいものではない。ロボット搭載向けの改良はあるにしろ、産業ロボット、高度運転支援(ADAS)・自動運転車両、あるいはスマートフォン向けに開発され、既に搭載されているものである。なお、フィジカルAIでは、センサ単体でなく、異種センサの情報およびテキスト情報などを統合するマルチモーダルセンシング技術が重要になる。
これらのセンサの機能や代表的メーカーをヒトの器官に対応させて表にまとめた。
表. ヒトの器官とフィジカルAI搭載センサとの対応関係
| ヒトの 器官 | 感覚 | 代表的な ロボットセンサ | 主な機能 | 代表的メーカー | |
|---|---|---|---|---|---|
| 外部環境検知 | 眼 | 視覚 | RGBカメラ | 色,形状,動き | Sony,Samsung, OmniVision,OnSemi |
| ステレオカメラ LiDAR/ToF | 距離,3D形状 | Velodyne,Intel, Sony,Livox | |||
| 耳 | 聴覚 | マイクロフォンアレイ | 音声,音響, 音源位置 | Knowles,Infenion,AAC, STMicroelectronics | |
| ー | ー | 近接センサ (静電容量/超音波) | 接近検知 | キーエンス,オムロン, Turck,Pepperl+Fuchs | |
| 皮膚等 | 温感 | 温度センサ | 環境・内部温度検知 | キーエンス,Bosch,理化工業, Texas Instruments | |
| 動作制御 | 三半規管 | 平衡感覚 | IMU(慣性計測) | 姿勢,転倒防止 | Analog Devices,村田製作所,STMicroelectronics,TDK |
| 皮膚・指 | 触覚 | 圧力センサ | 接触検知,触覚 | PPS,Tekscan,Interlink, ジャパンディスプレイ | |
| 滑りセンサ | 把持物体の滑り検知 | エルメック電子工業, TE Connectivity,SynTouch | |||
| 筋肉・ 関節 | 力覚 | トルクセンサ | 把持力,関節負荷制御 | Vishay,ATI,HBK,Kisler, HEBI Robotics,ANYdrive | |
| エンコーダ | 力,トルク推定 | Renishaw,Maxon, 旭化成,Melexis |
視覚センサとしては、色や形状、動きを検出するRGBカメラと、対象物との距離や3次元形状を検出するステレオカメラ、LiDAR(Light Detection and Ranging)やToF(Time-of-Flight)センサなどがある。
RGBカメラは頭部や胸部などに複数個設置される。解像度は1~5Mピクセルで4Kカメラ(約4K×2K=8Mピクセル)よりはやや小さい。これは高いフレーム速度(60fps~120fps)で低遅延に画像情報を取得したいためある。プロセッサの処理速度やプロセッサとの伝送速度が高解像度の制限要因となっている。処理速度や伝送速度の向上は進んでいるので、高解像度化・高速化はさらに進んでいくと思われる。また、明るさの変化に早く対応するためには、ダイナックレンジ(色深度)を標準の10bitから12bitや14bitに増加していく必要がある。ヒューマノイドのRGBカメラの性能は公開されていないが、スマートフォンやヘッドマウントディスプレイ(HMD)に搭載されているカメラが参考になる。例えば、iPhoneに搭載されているビデオカメラ4K(8Mピクセル)分解能、12bitの色深度、フレーム速度120fpsである。単純計算では1眼当たり35Gbpsの伝送速度が必要になる。CMOSセンサが使用され、ソニー、Samsung、OmniVisionあるいはOnSemiが大きなシェアを占めている。
視野角度はレンズによって調整する。ヒトの眼は180度を超えて220度まで検出可能である。ヒューマノイドでは、周辺監視(広角)では90度~120度、標準(作業全般)60度~90度、精密作業や遠方の対象検知(挟角)では30度~60度である。また、手のつかみ作業を支援するため、Figure AI社のヒューマノイドFigure 03には広角・低遅延の手のひらカメラが搭載されている。
頭部に2個のRGBカメラを搭載して連動させるとステレオカメラとなる。距離や3D形状を直接的に計測するヒトにはないセンサが、ヒューマノイドに搭載される場合もある。例えば、Apple のHMDには2台の高解像度カメラ以外にToFが搭載されている。また、スマートフォンにはLiDARが搭載されている。赤外線を照射し、対象物からの反射に要する時間差(遅延)を計測することで、距離を検出する仕組みである。HMDやスマートフォンに搭載されているこれらのセンサは、VCSEL(垂直共振器型面発光レーザ)アレイを用いた簡易なセンサである。
ヒューマノイドがヒトと協働する環境において安全性を確保するためにToFやLiDARといった3Dセンサが搭載される場合がある。UBETECH社やAgility Robotics社のロボットにはこれらの3Dセンサが搭載されている。しかし、TeslaやFigure AI社は、ステレオカメラとAI学習で代替するとの設計思想であり、ToFはLiDARは搭載されていない。
米国Boston Dynamics社の四本脚走行ロボットには高度なLiDARが搭載され、例えば日々形状が変わる建設現場の地図作成やナビゲーションに活かされている。Unitree社など中国系の企業ではLiDARを搭載する例が増えている。AIの高度化によって3Dセンサは消えていくのか、むしろ高度な3Dセンサが搭載されるようになるかは、現状では見通せない。なお、3Dセンサメーカーとしては、Velodyne、Intel、Sony、Livoxなどが知られている。
ヒトの言葉を理解し、会話するためには聴覚に相当するマイクロフォンが欠かせない。音源の方向に顔を向けるためには、音源位置を検知するためにアレイ化することが必要になる。またノイズをキャンセルするという目的でもアレイ化は必然になっている。両耳の位置だけでなく、頭頂部、頬、胸部、肩などの多点に搭載される傾向がある。高精度なDOA(Direction of Arrival)推定技術に拠って、複数の話者を分離して、聞き分けることもできるようになる。
こういったマイクロフォンは、スマートフォンやWeb会議などで使われている小型化が可能なMEMS(Micro Electro Mechanical Systems)タイプのものである。Knowles Electronics、Infineon、AAC Technologies、STMicroelectronicsなどが高いシェアを有している。
ヒトは物体の近接を視覚や聴覚で推定するが、直接検出する手段を持っていない。ヒューマノイドに近接センサを搭載することによって、ヒトよる検出よりも早く障害物等を検出することができるようになる。自動車の駐車支援に使われる超音波センサやスマートフォンで使われる静電容量型センサなどが候補になる。しかし、近接センサという性格上、検知範囲は限定されている。ヒューマノイドに実装するとなると、多くの表面部位に2次元的に搭載する必要が出てくる。
そのため、商用化されているヒューマノイドでは、視覚(カメラや3Dセンサ)や聴覚センサを用いて、総合的に判断している場合がほとんどである。研究開発レベルでは近接センサを組み込む例もある。特に指先に搭載して、把持直前の動作を制御することなどが行われている。
FA(Factory Automation)では、近接センサは数多く使用されている。キーエンス、オムロン、Turck(独)、Pepperl+Fuchs(独)などが有名である。
ヒトにとって外界温度(気温)は重要な環境情報であり、内部温度(体温)も重要な健康情報である。ヒューマノイドにおいても、関節やASICなどの内部温度を把握するため、他の電子機器と同じように温度センサを近傍に内蔵して、熱管理や安全管理に活かしている。これに対して、外部環境温度の検出するセンサの搭載は限定的である。
外部対象物の表面温度を非接触で測定できる赤外線温度センサは、マシンならではのセンサである。近接センサと同様にFAではよく使われているセンサの一つである。接触型の温度センサは、ヒューマノイドにヒトらしさを与える。温もりを感じることは、ヒトならではの感性であり、もしヒューマノイドに同じような感覚がないとすると、ヒトとは異なる機械として人間は認識する。接触型温度センサは福祉や介護や、あるいは家庭で導入されるヒューマノイドに不可欠なセンサとなろう。
非接触型温度センサメーカーとしてキーエンスやBosch、接触型温度センサメーカーとして、理化工業やTexas Instrumentsなど、多くの企業から製品が提供されている。
本稿では、ヒューマノイドの開発動向および搭載されるセンサについて概観した後に、環境を検知するためのセンサ(視覚、聴覚、近接および温感センサ)の動向について述べた。動作に直接繋がるセンサ(平衡感覚、触覚、力覚センサ)とセンサを統合するマルチモーダル技術については、続編で説明する。続編の最後にヒューマノイドに関してまとめたい。
株式会社英知継承では、本テーマに関して当該専門家による技術コンサルティング(技術支援・技術調査)が可能です。下記よりお気軽にお問い合わせください。
▼「電気電子・光通信」に関連する技術解説一覧
Co-Packaged Optics(CPO)とフォトニック集積回路(PIC)
テラヘルツ波の光ファイバ無線技術(テラヘルツ・オーバー・ファイバ)
量子センサとは何か ― 原理・種類・応用から実用化動向まで ―
DRAMとSSDのギャップを埋める高速不揮発性メモリの最新動向