【Physical AI 入門シリーズ】第3回：VLMと3D AI——現場AIの新しい可能性

マルチモーダルAIの「ベースライン化」

2023〜2025年にかけて、AIの世界では重要な転換が起きました。画像・動画・音声・テキストを統合的に処理する「マルチモーダルAI」が、研究段階のバズワードから実務アプリケーションのベースラインへと進化したのです。GPT-4V、Gemini、Claude 3などの商用モデルのほか、Qwen-VL、LLaVA、GLM-4VといったオープンソースVLMも急速に高度化し、自社システムへの組み込みが現実的になっています。

この流れはPhysical AIの現場にも大きなインパクトをもたらしています。従来、センサーデータの解析結果は数値やグラフとして可視化されるだけでした。しかしVLMを組み合わせることで、「このエリアで混雑が発生している原因は何か」「いつ、なぜ人が滞留し始めたか」を自然言語で問い合わせ、AIが根拠とともに回答する——そんなインターフェースが実現可能になっています。

VLMとは何か：基礎的な理解

VLM（Vision Language Model）は、大量の画像とテキストのペアデータで学習したニューラルネットワークで、視覚情報と言語情報を同一の潜在空間で処理します。主な能力は以下の通りです。

画像キャプション生成：入力画像を見て内容を説明するテキストを生成します。
ビジュアルQ&A：画像に対する質問に自然言語で回答します。
指示フォロー：「このカメラ映像から混雑しているエリアを特定して」のような指示に対して、画像を解析しながら回答を生成します。
ツール呼び出し（Function Calling）：最新のVLMはAPIや外部ツールを呼び出す機能を持ち、センサーデータ取得・アラート発報・レポート生成といったワークフローの自動化が可能です。

3D AIとVLMの融合：HULIXのアプローチ

HULIXでは、LiDARやステレオカメラから生成した点群データをVLMに入力するプロトタイプを開発しています。技術的なアプローチは2つあります。

アプローチ①：点群を2D投影してVLMに入力
点群データをトップビュー（上面図）や等角投影画像に変換し、既存の2D-VLMに入力します。「どのゾーンに何人滞留しているか」「列の長さはどのくらいか」といった質問に対し、VLMが投影画像を解析して回答します。既存のVLMをそのまま活用できるメリットがある反面、3D情報（高さ・奥行き）の一部が失われます。

アプローチ②：3D空間対応VLM（Geometry Grounded VLM）の活用
3D点群を直接処理できるVLMアーキテクチャを活用します。Point-E、3D-LLM、ScanQAなどの研究が進んでおり、「このエリアの奥から手前にかけて人の密度はどう変化しているか」のような3D空間に特化した質問への回答精度が向上します。

現場での活用シナリオ

VLMと3D AIの融合が現場にもたらすユースケースを具体的に示します。

混雑要因の自然言語説明：「北口入場ゲート付近で滞留が発生しています。原因として、案内サインが少なく来館者が経路を迷っている可能性があります」——このような自然言語レポートを自動生成します。
警備ルートの最適化支援：施設内の人物分布をリアルタイムで解析し、「現在の人流状況を踏まえると、Bゾーンを優先的に巡回することを推奨します」と警備員向けに提案します。
運用ログとの照合：センサーデータとシフトログ・設備稼働記録を統合し、「14時の混雑はレジ2台が点検中だったことが要因として考えられます」のような仮説を自動生成します。
新人スタッフへの教育支援：過去の混雑パターンと対応事例をVLMが説明することで、経験の少ないスタッフでも状況判断を補助できます。

導入における現実的なポイント

VLMの現場導入には、いくつかの技術的ハードルがあります。

現場特化のファインチューニング：汎用VLMは一般的な視覚概念は理解できますが、「手荷物検査レーンの行列」「フードコートの滞留パターン」といった施設特有の状況をより正確に扱うには、現場データを使ったファインチューニングが効果的です。
推論速度とエッジ処理：クラウドAPIを経由するVLMは遅延が生じるため、リアルタイム対応が必要な場面では量子化モデルのエッジ展開を検討します。
ハルシネーション対策：VLMは誤った情報を自信を持って説明することがあります。センサーの数値データを「グラウンドトゥルース」として参照させるRetrieval-Augmented Generation（RAG）の仕組みを組み込み、回答の信頼性を担保します。

次世代の現場AIへ