【VLMでDX加速】画像・映像を「見て理解し、説明する」AI「Vision Language Model」がフロントラインワーカーの課題を解決する実証実験を開始!

AIが「見て、理解し、説明する」時代へ!VLMでフロントラインワーカーのDXを加速

近年、AI(人工知能)技術は私たちの生活やビジネスに大きな変化をもたらしています。特に、テキストを理解し生成するAI(大規模言語モデル、LLM)の進化は目覚ましいものがあります。しかし、現場で働く「フロントラインワーカー」と呼ばれる方々の業務では、画像や映像といった「視覚情報」をAIが理解し、それを言葉で説明したり、適切な対応を提案したりする能力が求められています。

このようなニーズに応えるため、株式会社日立ソリューションズ・テクノロジーは、画像や映像などの視覚情報を理解し、文章による説明や応答を生成できるAI、「Vision Language Model(VLM)」を活用した実証実験を開始しました。この革新的な技術は、人手不足や業務負担の増大といった現場の課題を解決し、フロントラインワーカーのDX(デジタルトランスフォーメーション)を大きく加速させることが期待されています。

Vision Language Model(VLM)とは? AI初心者にもわかりやすく解説

「VLM(Vision Language Model)」という言葉を初めて聞く方もいらっしゃるかもしれません。簡単に言うと、VLMは「見る」能力(Vision)と「言葉を理解し生成する」能力(Language)を組み合わせたAIモデルのことです。

従来のAIとの違い

これまでのAIは、画像認識AIであれば「これはリンゴです」と物体を特定したり、テキストAIであれば「今日の天気は?」という質問に「晴れです」と答えたりと、それぞれの分野で特化して機能していました。しかし、画像認識AIは画像の内容を言葉で説明するのが苦手で、テキストAIは画像や映像を直接理解することができませんでした。

VLMは、この二つの能力を融合させたものです。例えば、VLMに工場の監視カメラの映像を見せると、「作業員がヘルメットを着用していない」「機械の表示灯が赤く点滅している」といった状況を映像から正確に読み取り、それを自然な日本語で「作業員が安全装備を装着していません。機械に異常が発生している可能性があります」のように説明したり、報告書を作成したりすることができます。

VLMがもたらす革新

VLMの最大の強みは、単に物体を認識するだけでなく、その「状況」や「文脈」を総合的に理解し、人間が理解しやすい言葉で表現できる点にあります。これにより、従来のAIが苦手としていた、天候による誤検知や、予期せぬ状況への対応といった課題を克服し、より高度で柔軟な現場支援が可能になります。

フロントラインワーカーの現場が抱える課題とVLMへの期待

工場、建設現場、社会インフラ施設、店舗など、顧客と直接接したり、設備を管理したりする最前線で働く人々を「フロントラインワーカー」と呼びます。彼らの現場では、以下のような共通の課題が長年存在していました。

  • 安全管理と作業手順の徹底: 危険な作業環境での安全確保や、複雑な作業手順の遵守を効率的に確認・記録する仕組みが不足しています。

  • 事務作業の負担: 現場での確認事項や異常の報告、レポート作成といった事務作業に多くの時間が割かれ、本来の業務に集中できない状況があります。

  • 従来のAIの限界: これまでの画像認識AIは、天候の変化や環境要因によって人や物体を誤って検知したり、必要以上に検知したりすることがありました。これにより、AIの運用自体に手間がかかったり、コストが増加したりする原因となっていました。

これらの課題に対し、VLMは映像の内容を文脈ごとに深く理解し、自然言語で表現できるため、非常に有効な解決策となります。VLMを活用することで、誤検知や予期せぬ状況の検出精度が向上し、安全行動の可視化やレポート作成の自動化といった、現場の負担を大幅に軽減する効果が期待されています。

日立ソリューションズ・テクノロジーの独自技術とVLMの融合

日立ソリューションズ・テクノロジーは、VLMのポテンシャルを最大限に引き出すため、独自の技術を組み合わせて実証実験に取り組んでいます。

同社が強みとするのは、カメラ映像から異常や特定のイベントのみを高精度に抽出する「画像認識エッジAI技術」を組み込んだ独自の“アダプタ”です。このアダプタが、映像の初期解析を現場に近い「エッジ端末」で行うことで、大量の映像データをすべてサーバーに送る必要がなくなり、リアルタイム性と効率性を高めています。

VLMとこのアダプタを組み合わせることで、エッジAIが検出した具体的な物体や動作の情報(例:「人が倒れている」「煙が出ている」)をVLMが受け取り、それを総合的に判断して「工場内で作業員が倒れており、火災の兆候が見られます」といった、より詳細で文脈的な説明を生成できるようになります。

VLMを活用した生成AIソリューションのイメージ図
図 VLMを活用した生成AIソリューション

VLM活用ソリューションが提供する3つの価値

日立ソリューションズ・テクノロジーが実証実験を進めるVLM活用ソリューションは、フロントラインワーカーの現場に具体的な3つの価値を提供します。

1. 高度なエッジ技術と連携した複雑状況の理解と説明

このソリューションの核となるのは、同社独自の“アダプタ”に組み込まれた画像認識エッジAI技術です。エッジAIは、現場のカメラ映像から物体や動作をリアルタイムで正確に検出します。その後、VLMがエッジAIから得られた情報を統合的に理解し、従来のAIでは難しかった複雑なシーンを言葉でわかりやすく説明します。例えば、「複数人が同時に危険な行動をしている」といった、単一の事象だけでなく、複数の要素が絡み合う状況も的確に把握し、その意味を言語化することが可能です。

2. 開発・導入および通信コストを削減

VLMの技術は日々進化しており、より小型で効率的なモデルが登場しています。このソリューションでは、VLMの小型化により、多様なOSS(Open Source Software:オープンソースソフトウェア)推論環境や廉価版SoC(System on a Chip:システムオンチップ)へ容易に展開できる設計となっています。これにより、既存の設備やシステムを最大限に活用できるため、開発や導入にかかるコストを抑えることができます。また、異常や特定のイベントが発生した時のみ映像データをサーバーに送信する仕組みを採用することで、常に大量のデータを送る必要がなくなり、通信コストも大幅に削減できます。

3. 多彩な環境への適用

このソリューションは「オンプレミス構成」を採用しています。オンプレミスとは、システムを自社内のサーバーや設備で運用する形態を指します。これにより、監視映像などの機密性の高いデータを外部のクラウドサービスに送ることなく、安全かつリアルタイムにシステムを運用することが可能です。セキュリティ要件が厳しい施設や、インターネット接続が不安定な環境でも安心して導入でき、多様な現場のニーズや要件に柔軟に対応し、最適な運用を実現します。

VLM活用実証実験の具体的な事例

日立ソリューションズ・テクノロジーは、すでに複数の企業と協力し、VLMの現場適用に向けた具体的な実証実験を進めています。ここでは、その一部をご紹介します。

株式会社日立パワーソリューションズ様:設備監視の自動化

社会インフラ施設や工場では、設備管理者が巡回し、設備の故障や異常を示す表示灯を目視で確認する業務が一般的です。しかし、広大な施設での巡回や夜間監視は人手と時間がかかり、異常の見落としや対応遅延のリスクがありました。株式会社日立パワーソリューションズ様との実証実験は、こうした人手不足や働き方改革の課題解決を目指しています。

この実証では、カメラ映像からAIが表示灯の変化を検知し、VLMがその発報内容(例:「圧力計の警告灯が点灯」「温度計が異常値を示している」)を特定し、言語化する仕組みを構築しました。検知結果は自動でレポート化され、管理者へ通知・共有されることで、巡回作業の省力化と異常発生時の迅速な対応を実現しようとしています。

さらに、このシステムはエッジAIによる即時解析とオンプレミスVLMによる内容理解を組み合わせた「ハイブリッド構成」を採用しています。これにより、リアルタイム性と高いセキュリティを両立し、クラウドに依存せず現場で完結する解析基盤として、表示灯変化の読み取り精度や巡回作業の省力化、異常発生時対応の迅速化の効果を評価しています。

パラカ株式会社様:駐車場監視・管理業務効率化

駐車場の運営では、利用状況や設備の状態を定期的に確認する巡回・報告業務が大きな負担となっています。また、設備不良や機器故障によるサービス品質の低下、稼働率の低下、修繕コストの増加といった経営課題も顕在化しています。パラカ株式会社様との実証実験は、VLMの特性を活かし、これらの課題解決と新たな価値創出を目指しています。

本実証では、「ごみの散乱」「枠外駐車」「フェンスやゲートバーなどの設備破損」「駐車フラップなどの機器不具合」といった、駐車場の運営で頻繁に発生する異常を複数のユースケース候補の中から選定しました。カメラ映像からVLMがこれらの異常を自動で検出し、具体的な状況を説明できるかを検証しています。

この検証により、現地での確認作業や報告業務の省力化に加え、異常発生時の早期把握、そして蓄積されたテキストデータを活用した設備維持管理の効率化につながる有効性が確認されています。今後は、この成果を基に、VLMを活用した駐車場管理支援システムとしての実装・導入を視野に入れて検討が進められています。

アムニモ株式会社様:太陽光発電所における監視業務高度化・誤検知低減

太陽光発電所では、銅線盗難などの被害防止が重要な課題であり、監視業務の高度化が求められています。しかし、従来のAI監視システムでは、動物を人と誤認したり、草木の揺れや天候変化による誤検知・過剰検知が発生し、現場運用の負担や対応コストの増大が課題となっていました。アムニモ株式会社様との共同実証実験は、監視業務の高度化と誤検知の低減を目的としています。

この実証では、サーマルカメラ(熱画像カメラ)を用いて侵入検知を行い、エッジ側の低リソースCPU端末に高精度な物体検知AIを搭載しています。そして、サーバーまたはクラウド側のVLMが、エッジAIから送られた情報を基に状況を解析・説明する「ハイブリッド構成」を採用しています。日立ソリューションズ・テクノロジーの強みである画像認識エッジAI技術により、現場で即座に映像を解析し、VLMがその結果を文脈的に理解・説明することで、誤検知を抑制し、なぜそのように判断したのかという根拠を明確にすることを目指しています。

現在は、検知および説明精度の評価、誤検知低減効果の技術検証を進めており、2026年度の実用化を見据えて技術確立を目指しています。

今後の展望とEdgeTech+ 2025での紹介

今回ご紹介した実証実験を通じて得られた成果を基に、日立ソリューションズ・テクノロジーは、フロントラインワーカー向けDXの推進に貢献する本格的なソリューション展開を目指していくとしています。生成AI技術を活用した新たなソリューションの開発・展開も順次進められるでしょう。

さらに、この革新的な取り組みを含む最新の生成AI活用事例は、2025年11月19日から21日までパシフィコ横浜で開催される「EdgeTech+ 2025」にて紹介される予定です。興味のある方は、ぜひ会場で直接その詳細を確認してみてはいかがでしょうか。

まとめ:VLMが切り開く現場DXの未来

Vision Language Model(VLM)は、単なる技術的な進化にとどまらず、これまでAIの導入が難しかった多様な現場に、新たな可能性をもたらす強力なツールです。画像や映像を「見て理解し、言葉で説明する」というVLMの能力は、フロントラインワーカーが直面する安全管理、業務効率化、コスト削減といった喫緊の課題に対し、具体的な解決策を提示します。

日立ソリューションズ・テクノロジーが進める実証実験は、VLMが持つ潜在能力を最大限に引き出し、社会インフラ、工場、駐車場、太陽光発電所など、様々な現場のDXを加速させるための重要なステップです。AI初心者の方にも、VLMがどのように私たちの社会をより安全に、より効率的に変えていくのか、その未来像を感じていただけたのではないでしょうか。今後のVLMの進化と、それがもたらす社会変革に注目していきましょう。

タイトルとURLをコピーしました