株式会社アジラは、独自の行動認識AI技術とVLM（Vision-Language Model）を統合する新たな取り組みに着手しました。この融合により、AI警備システム「AI Security asilla」の精度を飛躍的に向上させ、より安全で効率的な社会インフラの構築を目指します。

行動認識AIとVLM：警備の未来を拓く技術
現場が求める「使えるAI」と汎用VLMの限界
アジラが持つ二つの強力な武器：独自の技術資産
1. 1. 行動認識の独自モデルと学習データ
2. 2. 現場運用で培われた誤検知・失報パターンの知見
「検知」から「状況理解」へ：VLM統合がもたらす進化
短期的な目標：AI警備「AI Security asilla」の運用高度化
中長期的な展望：リアル空間を「理解する」AI基盤の構築
AI警備システム「AI Security asilla」とは
株式会社アジラについて
まとめ

行動認識AIとVLM：警備の未来を拓く技術

まず、今回の発表の核となる「行動認識AI」と「VLM」について、AI初心者の方にも分かりやすく解説します。

行動認識AIとは、カメラの映像などから人の動きや姿勢を分析し、「転倒」「侵入」「不審な行動」といった特定の行動パターンを自動で識別する人工知能技術です。これにより、広範囲を常時監視し、異常をいち早く検知することが可能になります。

一方、VLM（Vision-Language Model）は、「視覚（Vision）」と「言語（Language）」を統合的に理解するAIモデルです。つまり、映像の内容をただ認識するだけでなく、その映像がどのような「状況」を示しているのかを、まるで人間が言葉で説明するように理解する能力を持っています。例えば、「人が倒れている」だけでなく、「高齢者が足を滑らせて転倒しかけている」といった、より詳細な文脈を把握できるようになります。

アジラは、長年培ってきた行動認識AIの強みと、このVLMの高度な理解力を組み合わせることで、従来のAI警備システムでは難しかった、より精度の高い「状況判断」を実現しようとしています。これは、単なる「動きの検知」から「状況の深い理解」へと、AI警備を進化させる重要な一歩と言えるでしょう。

現場が求める「使えるAI」と汎用VLMの限界

商業施設や駅、公共空間など、多くの人が行き交う場所では、常に人の行動が変化し、予測不可能な事象が発生します。事故やトラブルを未然に防ぎつつ、限られた人員で効率的な警備を行うためには、映像AIへの期待がますます高まっています。

近年、VLMのような汎用的なAI技術の進化は目覚ましく、映像とテキストを統合的に理解する能力が向上しています。しかし、セキュリティ現場のような高い精度と即応性が求められる領域では、汎用VLMだけでは解決できない課題がいくつか存在します。

具体的には、以下の3点が挙げられます。

セキュリティ文脈での専門的な理解不足: 汎用VLMは幅広いタスクに対応できる一方で、人の行動パターンや危険の兆候に関する専門的な知識が浅い場合があります。そのため、セキュリティ上の重要な判断において、精度が限定的になることがあります。
現場環境への最適化の限界: カメラの設置環境、照明条件、各施設の運用ルールなど、現場固有の状況は多岐にわたります。汎用VLMはこれらの個別環境に最適化されていないため、現実の運用で十分な性能を発揮できないことがあります。
フィードバックデータの不足: AIの精度を実運用レベルまで高めるには、「何が誤検知で、何が見逃し（失報）だったのか」という現場からのフィードバックデータが不可欠です。しかし、従来の汎用AIには、このようなセキュリティ現場特有の貴重なデータが蓄積されていません。

アジラは、これらの課題を克服するため、自社の独自の技術資産をVLMに統合することで、「現場で本当に使えるAI」の実現を目指しています。

アジラが持つ二つの強力な武器：独自の技術資産

アジラが構築する独自のVLMが、他の汎用VLMと一線を画すのは、以下の二つの技術資産を核としている点です。

1. 行動認識の独自モデルと学習データ

アジラは創業以来、人の「姿勢推定技術」と「行動認識AI」の研究開発に特化してきました。姿勢推定とは、映像から人の骨格や関節の位置を正確に把握する技術です。この詳細な姿勢情報をもとに、人は「転倒している」「侵入しようとしている」「不審な動きをしている」「徘徊している」「混雑している」といった多様な行動パターンを高精度で分類する独自のモデルを開発してきました。

この開発過程で、アジラは大規模な学習データセットを構築しています。このデータセットには、セキュリティ現場で実際に起こりうる様々な行動パターンが詳細に記録されており、汎用VLMにはない、セキュリティドメインに特化した深い知識基盤となっています。

VLMが映像を「意味」として理解する際、この行動認識の知識基盤が、姿勢レベルの細かな動作情報を補完します。これにより、一般的な視覚情報の解析だけでは判別が難しい行動の意図や、潜在的な危険度を、より高い精度で推定することが可能になります。

2. 現場運用で培われた誤検知・失報パターンの知見

アジラが提供するAI警備システム「AI Security asilla」は、商業施設、鉄道駅、オフィスビルなど、様々な施設で実際に運用されています。この長年の運用を通じて、システムには膨大な量のフィードバックデータが蓄積されてきました。

このフィードバックデータには、「どのような状況で誤報（False Positive：実際には問題ないのに誤って警報を発してしまうこと）が発生したのか」や、「どのような事象が見逃し（False Negative：検知すべき異常を見逃してしまうこと）となったのか」といった、実運用における貴重な情報が含まれています。このデータは、AIの精度を改善する上で最も価値のある資産と言えます。

汎用VLMは一般的な映像理解は可能ですが、「セキュリティ現場において何が誤りやすく、何を見逃しやすいか」という具体的な知見は持ちません。アジラは、この実運用で得られた誤検知・失報パターンの知見をVLMの学習や推論のプロセスに組み込むことで、机上の理論だけではない、「現場で本当に役立つAI」の精度水準を実現します。

「検知」から「状況理解」へ：VLM統合がもたらす進化

VLM（Vision-Language Model）は、映像と自然言語を統合的に理解できるAIモデルであり、今回の統合により、AI警備は大きな進化を遂げます。

従来のAIは、特定の物体の検出、人の姿勢の判定、そしてあらかじめ設定された閾値（しきいち）に基づいた異常判定が主な機能でした。例えば、「人が倒れた」という事実を検知することはできても、その背景にある「なぜ倒れたのか」「どんな状況で倒れたのか」といった文脈を理解することは困難でした。

しかし、アジラの独自技術資産とVLMが融合することで、AIはより高度な「意味理解」が可能になります。具体的には、以下のような状況を文脈を含めて判断できるようになります。

「転倒しかけている可能性がある」
「通常とは異なる滞留挙動が見られる」
「危険な意図を含む可能性のある行動をしている」
「混雑が発生しつつある状況」

このように、アジラはこれまでに培ってきた行動認識技術とVLMを融合させることで、単に「動きを検出するAI」から、その「状況を深く理解するAI」への進化を図ります。これは、警備員の方々が現場で直面する複雑な状況判断をAIがサポートし、より迅速かつ的確な対応を可能にするための重要なステップです。

短期的な目標：AI警備「AI Security asilla」の運用高度化

今回のVLM統合の取り組みの第一段階として、アジラは既存のAI警備システム「AI Security asilla」における誤報（False Positive）と失報（False Negative）の抑制に注力します。

警備現場では、検知アラートの「数」だけでなく、その「質」が非常に重要です。誤報が多発すると、警備員は不要な確認作業に追われ、本来対応すべき重要な事象への判断が遅れる可能性があります。これは、業務効率の低下だけでなく、警備員の疲労にもつながります。

一方で、失報は、検知すべき危険な事象を見逃してしまうことにつながり、利用者の安全確保という観点から重大なリスクとなります。

独自のVLMを組み合わせることで、AIは検知結果を文脈レベルで補完し、再評価できるようになります。これにより、「何が起きたか」だけでなく、「何が起きつつあるのか」といった未来の兆候まで踏まえた判断が可能になります。結果として、不要なアラートを抑制しながら見逃しを低減し、通知の信頼性を高めることを目指します。これにより、現場の確認業務の効率化と、安全対応の確実性向上を同時に実現することが期待されます。

中長期的な展望：リアル空間を「理解する」AI基盤の構築

アジラが見据えるのは、誤報・失報の抑制だけではありません。VLMを基盤とすることで、映像を単なる事象の記録としてではなく、「状況」や「行動の意味」を捉えるデータへと進化させます。

将来的には、以下のような、より高度な映像活用の実現を目指しています。

危険予兆の高度な抽出
行動や出来事の自動要約
自然言語による映像検索
施設全体の出来事の構造的な把握

これにより、事故やトラブルが発生した後に対応する「事後型の運用」から、危険の兆候を捉えて未然に備える「予防型の運用」への転換を支援します。アジラは、リアル空間の出来事を深く理解し、社会インフラの安全性と持続可能性を支えるAI基盤の構築に取り組んでいくことでしょう。

AI警備システム「AI Security asilla」とは

「AI Security asilla」は、既存の防犯カメラ映像をAIが24時間365日解析し、暴力、転倒、侵入といった異常行動や、徘徊、混雑、体調不良などの注意行動を瞬時に検知するシステムです。

警備人材の不足が深刻化する中で、人によるモニタリングでは見逃しやすい異変をAIが捉え、警備員や管理者に即座に通知します。このシステムは、既設のカメラをそのまま活用できるため、新たな設備投資が不要です。限られた人員でも高い安全性を維持できる、次世代のセキュリティソリューションとして注目されています。

株式会社アジラについて

株式会社アジラは、行動認識AIをベースとした各種プロダクト・ソリューションの開発・提供を行っている企業です。

代表者: 代表取締役CEO 尾上剛
所在地: 東京都町田市中町一丁目4-2
公式ウェブサイト:
- https://jp.asilla.com/

まとめ

株式会社アジラの行動認識AIとVLMの融合は、AI警備システムの精度を大きく向上させる画期的な取り組みです。これにより、誤報や失報の抑制だけでなく、将来的にはリアル空間の状況をAIが深く理解し、危険を未然に防ぐ「予防型運用」への転換を可能にするでしょう。AI技術の進化が、私たちの社会の安全と安心をどのように支えていくのか、今後のアジラの動向に注目が集まります。