日本最大級のメタバースプラットフォーム「cluster」を運営するクラスター株式会社 代表取締役 CEO 加藤直人さんによる、「フィジカルAI」をテーマにした連載第2回。
近年、ロボットやAIの進化とともに注目を集める「フィジカルAI」。しかし、その実現に欠かせない存在でありながら、意外と語られる機会が少ないのが「デジタルツイン」です。本稿では、メタバースとデジタルツインの違いを整理しながら、フィジカルAIが現実世界で機能するために、なぜシミュレーション環境やバーチャル空間が必要なのかを解説します。
さらに、クラスターが取り組む産業向けデジタルツインや、身体性を持ったAIエージェント「Flex」の開発事例を通じて、ゲーム技術、3D空間、AI、ロボティクスがどのようにつながっているのかを紹介。フィジカルAI時代の土台となる「語られない接着剤」としてのデジタルツインの役割を、現場目線で紐解きます。(リード文=RoboStep編集部、本文=クラスター株式会社 代表取締役 CEO 加藤直人さん)
記事を執筆してくれたのは…

クラスター株式会社 代表取締役 CEO
加藤 直人さん
京都大学理学部で宇宙論と量子コンピュータを研究。同大学院中退後、約3年間のひきこもり生活を経て、2015年にクラスター株式会社を創業。2017年、大規模バーチャルイベントを開催できるVRプラットフォーム「cluster」を公開した。同サービスは現在、イベント開催に加え、アバターによる交流やオンラインゲームの投稿・プレイも楽しめるメタバースプラットフォームへと進化している。2018年、経済誌『Forbes JAPAN』の「世界を変える30歳未満30人の日本人」に選出。2022年、2023年には同誌「日本の起業家ランキング」のTOP20に2年連続で選ばれた。著書に『メタバース さよならアトムの時代』(集英社、2022年)。大阪電気通信大学客員教授。
前回、ゲーム業界で培われた技術がデジタルツイン、あるいは産業メタバースの方向に広がってきている、という話をしました。今回は、デジタルツインとフィジカルAIという概念を整理しながら、クラスター社が具体的に何を作っているのか、という話をしていきます。
デジタルツインという概念自体は、起源は2002年にあって、用語として定着したのは2010年くらいなんですよね。弊社でもデジタルツインと呼べる案件をいくつも扱ってきました。
メタバースとデジタルツインの大きな違いは、デジタルツインは現実世界のツインとしてバーチャル空間を作るということ。現実世界をより良くするという目的が先にある。一方メタバースは、僕の定義ではピュアにイマジネーションを持って作った世界。元ネタがあるかないか、という感じです。現実世界の発展を見据えた上で作っているのがデジタルツイン、そういうのが一切ない世界がメタバース、という分類を僕はしています。
人によっては「メタバースはデジタルツインを内包した概念だ」とか言う人もいるのですが、そんなに難しい捉え方をしなくてもいい。突き詰めすぎると、単なる言葉遊びになっちゃいますからね。
近年クラスターが進める案件に産業向けのものが増えていく中で、デジタルツインの案件もどんどん増えていきました。たとえば、「ゴミ焼却プラントのデジタルツインを作る」という案件。営業にも使えるし、トレーニング、研修にも使える。設計時の検討、コミュニケーションにも使えるし、さらに様々な形で活用展開するときのシミュレーションにも使える。そういう形のデジタルツインの案件が増えてきている。
面白いのが、技術の根幹にあるのは、前回お話ししたようにゲーム業界で培われてきた技術だということです。
デジタルツインとメタバースとの違いは、物理世界との接続をどう作っていくかにあります。現実とデジタルが完全に区切られているものでも価値が出るジャンルはありますが、現実世界と何かしらリンクを作ることができると、利便性や価値がより高まっていく。たとえば現実世界に置いたセンサーのデータがバーチャル上に反映される。それだけでも色々な価値が生まれます。さらに、バーチャル上で何かものを操作すると、物理世界のほうで連動してデバイスが動く。モニタリングができるような状態から、操作できる状態になる。単なるモニターから、操作出来る対象になったとき、利便性は飛躍的に向上します。
そういった連携度合いをどう作っていくかは、泥臭いノウハウが必要なところです。
ここからAIの話もしていきましょう。これから先の未来、大きなテーマとしてエンボディドAI(Embodied AI)という概念があります。エンボディドAIはつまり、AIに体を持たせようという概念です。この概念は2010年代くらいからずっとありました。2020年くらいからフィジカルAIというワードが出てきましたが、実際は概念としてはほぼ同一だと考えてもらっていいと思います。
フィジカルAIもエンボディドAIも、一言で言うと「概念としての存在に体を与えて、現実世界を歩くような存在にしてしまおう」、という概念です。
フィジカルAIというワードが盛り上がっている背景には、NVIDIAがマーケティング用語として掲げだしたからというのがあります。インターネット上・デジタル空間内に収まっているAIを、現実世界に顕現させよう、しかも現実世界で相互作用できるようにしよう、というのが広まると、NVIDIAのチップはさらに売れるようになるから彼らにとって嬉しいというわけですね。
ちなみにAIが現実世界に存在してほしい、というだけだったら、このパソコンにだってAIは入れられます。ローカルLLMと呼ばれるテクノロジーがあって、実際僕もこの手元のパソコンにOllamaというツールを介してQwen(中国のローカルLLM)を入れて動かしたりもしている。
でもこれをもって「フィジカルAIです」とは言えません。なぜかというと、物理世界に干渉できないから。例えば、目の前にあるペットボトルに干渉することができる、現実世界を観測し、現実世界に干渉することのできるAIをフィジカルAIと呼びます。
もう少し専門的に定義すると、世界を観測し、認識し、アクチュエータの出力を通して世界に働きかけて、それをもとにさらに観測し、行動を変える、みたいな言い方になるんですけど、それはちょっと複雑すぎる。ペットボトルを手に取ることができるAI、物理世界に干渉することができるAI、くらいで良いと思っています。
そしてこれが重要なポイントですが、「このAIが現実世界を歩きます」と言ったときに、現代においては、ヒューマノイドロボットをここで歩かせるのはまだまだハードルが高い。買ったロボットをアンパッキングして即使うという状態には程遠いんです。そして、今は数百万円で買えるようになったとはいえ、ヒューマノイドロボットはとても高い。中古で車一台買うほうが全然安いというような状況です。そういう状況で、どうやってこのロボットをうまく動かすかというと、トレーニングする、つまりは事前準備が必要なんですけど、当たり前ですが精密機械なので、こけるとすぐ壊れちゃう。数百万円が一瞬にしてパーになる。じゃあどうやってトレーニングするのかというと、デジタルツイン上になってくるわけです。
身体性を持ったAIが重要になってくる中で、デジタルツインはそのAIが現実世界に降りる前の前段階の準備、トレーニングをする場所として、そして、AIを制御するためのツールとして、すごく重要になっているんです。
ちなみに「いま現時点でのヒューマノイドロボットが、事前のトレーニングやティーチングがないまま現実世界に置かれたとして、どのくらいまともに動くものなのか」と聞かれることがあるのですが、基本的に何もできないですね。おもちゃにすらならないんです。何かしら動かそうと思っても、そんな簡単には動かない、というのが今の状態です。ある程度トレーニングやティーチングをしないといけないのが今のロボットです。
ではクラスターは具体的に何をやっているのか。実は「身体を持ったAI」の研究開発を割と早めからやっていて、そのAIエージェントを「Flex」という名前で、もうすでに世に出しています。
(素材提供:クラスター) AI Agent Flex
今AIというと、基本的にはチャット形式ですよね。ChatGPTをはじめとして、テキストエリアになにか書き込むと、返答が返ってくるという体験が基本。ですが、クラスターのメタバース研究所で研究開発・提供しているものは、そのAIを身体を持って顕現させるもの。バーチャル上のバーチャルAIヒューマン、バーチャルAIエージェントみたいな言い方をしているものです。
普通のLLMとの大きな違いは、身体があることです。一人ひとりに身体の情報や動きがあって、その中でAIが自然に振る舞うためには、空間そのものを認識できなければなりません。
ここで効いてくるのが、クラスターの技術資産です。クリエイターのみなさんのおかげで、すでに膨大な3D空間がアップロードされていて、その中でいろんな人が動いたり、どこを見たりといった情報が蓄積されている。たくさんのイベントが行われ、長い時間にわたって多くのコミュニケーションが発生している。この蓄積を、身体を持ったAIの実現のために活用させてもらっているんです。
この文脈で、僕たちは空間自体を認識させるAIの研究も進めていて、論文も出しています。3D空間の特徴を抽出して認識する──難しい言い方をしていますが、要は3D空間を認識するAIの研究です。その技術が応用されたバーチャルAIヒューマンを、クラスターはすでにサービスとして提供しています。すでに法人顧客が開催したイベントで活用していただいた事例もあります。
物理世界のロボットに適応するまでにはまだギャップが存在しますが、バーチャル空間内を歩いて複数人と対話しながら、何か物事を実現できるエージェントは、クラスターがすでに提供できている。ここがクラスターの一番の特色だと思っています。

なぜ僕がフィジカルAIについて書こうと思ったかというと、フィジカルAIというワード自体がすごく盛り上がってきているにもかかわらず、包含する技術範囲が広すぎて断片的にしか語られていないことを危惧したからなんです。熱量自体は非常に高い。たとえば高市政権が17個の戦略領域を発表しましたけれども、その一番地がフィジカルAIなんです。政府の本気度・期待値はすごく高い。
ただ、およそフィジカルAIという話をすると、SNSでロボットがバク宙しているとか、ダンスを踊ってるとか、そういうのに引っ張られてしまう。ロボット開発をしているハードウェア屋さんはフィジカルAIというテーマに上がりやすいし、AI研究者もフィジカルAIといったら出てきやすい。でも、AIとハードウェアを統合させるために不可欠な、ある接着剤があまり語られていないのではないかと思っています。
それが、デジタルツインです。
ヒューマノイドロボットがここにあったとして、そこにAIをボンと入れたとしても動かない。それらをデジタルツインでつなげてあげないといけない。しかも、その3DCGを扱う基礎技術はゲーム業界で培われてきたというのが、大事なポイントだと考えています。そのデジタルツイン上でAI学習するためのデータを生成することで、今話題になっているロボットの身体と頭脳が合体してまともに動くようになります。
ちなみにフィジカルAIを押し進めているNVIDIAという会社は、もともとゲーム業界のためにGPUを売っていた会社です。GPUというのはGraphics Processing Unitですから、グラフィックスのためのチップなんです。
GPUといえば今はAIトレーニングのためのチップになっていますが、もともとは主にゲーム描画目的で発展してきた領域で、実はそのグラフィックスで3Dをレンダリングして、その中でシミュレーションするということ自体が、AIに身体を与えて現実世界に顕現させようというときに、不可欠な接着剤、橋渡しのブリッジとして存在しているテクノロジーなんです。
そこがあまり語られていないし、語れる人もまだ少ないと感じている。だったら僕が書くしかないと思って、「フィジカルAIとデジタルツイン」という本を執筆している最中です。
実践として手を動かしている人たちは、もちろんこれを認識しています。よく「Sim-to-Real」とか「Real-to-Sim」という言い方をするのですが、シミュレーションから現実、現実からシミュレーション、というデータの行き来を活用して、実際のロボットを動かすぞと言ったときに「そんな簡単じゃない」という感覚を開発者はみんな持っているよ。
フィジカルAIにおいてシミュレーションは本当に必要だし、そのためのコア技術としてデジタルツインが大事、ということは話題になりにくい。そこを技術的に正しく、フェアな視点で現状をわかりやすく伝えたい、というのが僕のモチベーションです。
ちなみに、フィジカルAIを推進しているNVIDIAは、Omniverseというテクノロジープラットフォームを中心にして、この領域の技術を整備しています。じゃあclusterとはどう違うかというと、Omniverseは現実をいかにリアルに再現するか、いかにAIにバーチャル空間を現実世界だと誤認させるかということを突き詰めている。そのため、本当にすごく重たいシミュレーターなんです。普通のPCやスマートフォンだとまったく動かない。でもそれでいいんです。一部の研究者や開発者のためのツールなので。一方でclusterは、エンドユーザーが触れるための軽くて簡単なインターフェースとしての3Dプラットフォームを提供している。中心にあるのは同じ3Dグラフィックスのテクノロジーという点は共通していますが、そこに大きな違いがあります。
現実的な話をすると、フィジカルAIの世界を実現していくときに、デジタルツインを作ってロボットのシミュレーションだけします、というのだとROI(Return on Investment、投資利益率)が絶対に合わないんです。ロボットのシミュレーションのためだけに、精巧なデジタルツインを構築するのはコストがかかりすぎる。せっかく作ったデジタルツインを別の形で使えないか、人間のトレーニングに使えないか、営業に使えないか、設計に使えないだろうか……。そういうときには、Omniverseは小回りが効かない。Omniverseは百万円以上の計算環境が推奨ですから。
clusterならスマートフォンでも動くし、タブレットでも動くので、研究や開発など専門職以外のメンバーが気軽にアクセスできます。ロボットをシミュレーションするための重たいシミュレーターとして使うならOmniverseを使えばいいし、現実世界の人たちがサクサク使いながらデジタルツインの恩恵を受けたい、たとえば現場やロボットのモニタリング、操作の指示を出そうとなったときには、clusterを使ったほうがいい。そういう棲み分けが存在しています。
ここまでが、デジタルツインとフィジカルAIの関係、そしてクラスターが取り組んでいることの全体像です。
次回は「ヒューマノイドに閉じないフィジカルAI」の話、そしてクラスターが最近書き換えた新しいビジョンの話をさせてください。