case-smartcity

導入事例 / スマートシティ・公共空間

_

10

「賑わい」を意味で測る。VLMが読み解く公共広場のリアル

LiDARの3D軌跡データにChatGPT-Vision級VLMを統合。露店・街頭演説・群衆密度の意味的コンテキストを可視化し、警備配置最適化からEBPMまでを一気通貫で支援。

Author

HULIX編集部

Published

May 10, 2026

Updated

May 10, 2026

都市再開発プロジェクト・自治体

Section 01 — Challenge

課題

「賑わい」を測れない都市の課題

「なんば広場」再開発プロジェクトをはじめ、自治体や都市計画コンサルタントが直面していたのは、単なる通過人数を超えた「空間価値そのものの測定」だった。

露店、街頭演説、路上パフォーマンスといった突発イベントが生み出す「賑わい」効果を定量化し、警備員配置の最適化シミュレーションをEBPM(証拠に基づく政策立案)の観点から行政に提示する必要があった。

従来センサーの限界

カメラベースのオブジェクト検出では「人が何人」「車が何台」しか分からず、「今何が起きているか」の意味的状況把握ができなかった。GPSやWi-Fiベースの広域データは、広場という限定空間を解像できる粒度ではない。

Section 02 — Approach

アプローチ

LiDAR×AIカメラ×VLMの三段ハイブリッド

既設カメラインフラを活用した通過人数・車両検知をベースに、映像データの一部を最新の大規模視覚言語モデル(VLM)と連携させる画期的な三段アプローチ。

1段目:LiDARで物理的軌跡

広場全体の人と車両の3次元軌跡をミリ精度で計測。位置・速度・密集度の物理データを途切れなく取得。

2段目:AIカメラで属性とイベント検知

既設カメラ映像から、人物の大まかな属性、車両種別、特定エリアの占有状態を解析。

3段目:VLMで意味的コンテキスト

VLMにカメラ映像を入力し、「露店出店」「街頭演説」「路上パフォーマンス」といったシーンを言語的に解釈。人間の目視に頼らざるを得なかった状況把握が、初めてデータとして抽出可能になった。

マクロデータとのクロスリファレンス

ミクロな意味データに対し、Bluetooth回遊データ、通信キャリア(KDDI等)のマクロ人流ビッグデータを統合。個別空間の出来事とエリア全体への波及効果を相関分析できる「デジタルなんばスクエア」を構築している。

センサー構成
既設カメラインフラ + Vision API(GPT-4V系) + Bluetooth回遊センサー + マクロ人流データ統合
Section 03 — Outcome

成果

EBPM実証の到達点

賑わいの定量化スコア

「人数」「滞留時間」「群衆形成パターン」「VLM状況ラベル」を組み合わせた賑わいスコアを開発。日次・時間帯別・イベント別に時系列可視化し、施策効果を客観評価できる基盤を整備。

警備配置最適化シミュレーション

過去の賑わいパターンと警備員配置データを学習させ、特定イベント時の最適配置をシミュレーション。必要警備員数の削減と緊急時の即応性向上を両立。

EBPMレポートの半自動生成

取得データをベースに、費用対効果を示すEBPMレポートを半自動生成。議会・住民説明にエビデンスを伴った提示が可能になった。

他社との決定的な違い

1. 自社AIモデル×VLMで「何が起きているか」を取得

他社は「人数」「車両」をカウントするレベルに留まるが、HULIXは自社AIモデルで人・車両・露店・キッチンカー等を識別した上で、VLMと連携してシーンの意味(露店、演説、パフォーマンス等)を言語データとして抽出する。現場固有のイベントは追加学習で識別精度を高められる。

2. 公共空間・都市計画特化の分析テンプレート

賑わいスコア、警備配置最適化、EBPMレポートといった公共空間特有の分析パターンをテンプレートとして保有。自治体・DMOが必要とするKPIに上からフィットした出力を提供できる。

3. マクロデータ・既設カメラとのAPI統合

現地のミクロデータを、KDDI等のキャリアビッグデータ・既設都市カメラとAPI連携し、都市スケールと現地スケールを一つのダッシュボードに集約。新規ハードウェアを買うのではなく、既存資産を生かした低コスト導入を可能にした。

Section 04 — Practitioner Notes

現場ノウハウ

センサースペックや公式ドキュメントには載らない、現場で手を動かした人間にしか書けない一次情報。

VLM統合の実装知

VLM呼び出しの粒度設計

VLM API(GPT-4V系)はトークン単価が高く、毎フレーム呼び出しは現実的でない。LiDARが「特定エリアに通常パターンを超える滞留」を検知したタイミングのみ、イベントドリブンでスポット問い合わせる設計が現実解。

プロンプト設計の重要性

VLMに「この画像で何が起きていますか?」と曖昧に問うと出力が暴れる。「通常通行 / 出店 / パフォーマンス / 抗議活動 / その他」といった分類カテゴリを事前定義し、構造化レスポンスを要求することでデータパイプラインに組み込める安定出力が得られる。

マクロデータと現地データの粒度差

キャリアの広域人流データは町丁目レベル、LiDARはセンチメートルレベルで、解像度が3桁以上違う。空間階層的な集約・補間ロジックを段階的に挾む必要がある。

FAQ

よくある質問

よくある質問

Q. VLM呼び出しコストはどれくらいですか?

A. イベント検知駆動の呼び出し設計により、フルフレーム呼び出しと比べ1/100以下のAPIコストで運用可能。月間運用費は施設規模により数万円〜数十万円。

Q. 個人特定の懸念はありますか?

A. VLMには「群衆」「個別の活動」レベルの抽象化された情報のみ問い合わせ、個人特定情報を返さないプロンプト設計を採用しています。

Q. EBPMの行政向けレポートはどんな形式ですか?

A. PDF・PowerPoint形式で、自治体の議会説明や住民説明に直接使える書式に整形。原データもCSV/APIでエクスポート可能。

Q. 既存の都市監視カメラを活用できますか?

A. はい、既設のIPカメラからの映像取り込みに対応しています。新規ハードウェア投資を最小化しつつVLM解析の恩恵を受けられます。

Talk to HULIX

空間の課題を、データで解く。

PoC・設置シミュレーション・技術相談を承ります。LiDARの実機デモも可能です。

お問い合わせ・デモのご案内