Physical AI 拡張シリーズ 第3回:VLMと3D AI—現場AIの新しい可能性
ビジョン・ランゲージ・モデル(VLM)の登場で、現場AIはどう変わるのか。3D AIとVLMの融合がもたらす「説明できるAI」の可能性を解説します。
ビジョン・ランゲージ・モデル(VLM)の登場で、現場AIはどう変わるのか。3D AIとVLMの融合がもたらす「説明できるAI」の可能性を解説します。
従来の現場AIは、「混雑が発生している」「人数が閾値を超えた」という結果を出力するだけでした。しかし現場の運用担当者が本当に必要としているのは、「なぜその状況が起きているのか」「何をすれば改善できるのか」という文脈のある説明です。その変化をもたらすのが、ビジョン・ランゲージ・モデル(VLM)と3D AIの融合です。
ビジョン・ランゲージ・モデル(VLM: Vision-Language Model)は、画像や動画と自然言語テキストを同時に処理するマルチモーダルAIです。単純な画像分類を超えて、視覚的な情報に基づいた質問応答・指示生成・状況説明が可能です。
近年のVLMの進化は目覚ましく、マルチモーダルAIは「バズワード」から「ベースライン技術」へと急速に進化しています。公開されているGLM-4.6VやGemma3などのオープンソースモデルは、ツール呼び出しや長文コンテキストへの対応を強化し、実務アプリケーションへの組み込みが現実的になっています。
従来の現場AIシステムには、いくつかの根本的な課題がありました。
VLMを組み込むことで、これらの課題に対して以下のような解決策が生まれます。
3D AIはLiDARやステレオカメラの点群データを解析し、物体検出・セグメンテーション・動線予測を行います。HULIXでは3Dセンサーによる点群から人物やロボットの軌跡を推定し、その結果をVLMに連携するプロトタイプ開発を進めています。
技術的な実装アプローチとして、以下の2つが検討されています。
VLMを現場AIに組み込む際の実践的なアドバイスとして、以下のアプローチを推奨します。
同じカテゴリーの他の記事も読む
Copyright ©
HULIX Technologies, Inc.