チューリング、国内初のVLAモデルで公道リアルタイム自動運転制御を実現

Turing株式会社(以下、チューリング)は、自動運転技術の分野において、国内で初めて(※)VLA(Vision-Language-Action)モデルによる公道でのリアルタイム自動運転制御を実現したと発表しました。これは、日本の自動運転技術開発における大きな一歩となります。
同時に、この技術のさらなる発展に不可欠な因果推論データセット「RACER」と、画像トークナイザ「DriveTiTok」も公開され、産業界および学術界における自動運転技術の進展に貢献することが期待されています。
今回の開発は、経済産業省と国立研究開発法人新エネルギー・産業総合技術開発機構(NEDO)が推進する、国内の生成AI開発力強化プロジェクト「ポスト5G情報通信システム基盤強化研究開発事業/競争力ある生成AI基盤モデルの開発(GENIAC)」の一環として行われました。
※チューリングの調査(2026年3月時点)によると、公開情報に基づくVLAモデルによる公道でのリアルタイム推論を伴う自動運転制御の国内事例として初めての快挙です。
VLAモデルとは?:人間のように「見て、考えて、行動する」AI
自動運転の技術は日々進化していますが、VLAモデルは従来の自動運転モデルとは一線を画す革新的なアプローチです。VLAは「Vision-Language-Action」の頭文字を取ったもので、簡単に言えば、AIが人間のように「見て、考えて、行動する」ことを目指すモデルです。
従来の自動運転モデルとの違い
従来のEnd-to-End(エンドツーエンド)自動運転モデルは、主にカメラやセンサーから得られる画像データや数値データを直接学習し、それに基づいて車両の操舵(ハンドル操作)や加減速(アクセル・ブレーキ操作)といった運転行動を予測していました。これは、膨大な運転データからパターンを学習し、そのパターンに沿って行動するイメージです。
一方、VLAモデルは、この「画像やセンサーデータ」に加えて、「言語による状況理解」を統合します。つまり、単に目に見える情報だけでなく、その状況が何を意味するのか、どのように判断すべきかを言葉(言語モデル)で理解し、それに基づいて運転行動を決定するのです。
例えば、交差点で信号が赤になった場合、従来のモデルは「赤信号」という視覚情報から「止まる」という行動を学習します。しかし、VLAモデルは「前方の信号が赤であるため、横断歩道の手前で停止する」といった、より詳細な状況判断と言語的な根拠をもって行動を決定します。これは、まるで人間が運転中に「赤信号だから止まろう」と心の中で考えて行動するのに近いプロセスと言えるでしょう。
この「言語モデルを基盤とした統合的な意思決定アーキテクチャ」こそがVLAモデルの最大の特徴であり、より複雑で予測困難な状況においても、安全で適切な運転判断を下す可能性を秘めています。
チューリングのVLAモデルの画期的な成果
チューリングは、このVLAモデルにおいて、約20億パラメータという大規模なモデルを独自に学習させました。パラメータ数が多いほど、AIはより多くの情報や複雑なパターンを学習し、高度な判断ができるようになります。この大規模モデルを、実際に車に搭載される計算機環境に最適化することで、公道でのリアルタイム自動運転制御を実現したのです。
リアルタイム制御の実現
「リアルタイム制御」とは、AIが周囲の状況を認識し、判断し、車両を制御するまでの一連のプロセスが、実際の時間の流れとほぼ同時に行われることを指します。チューリングのVLAモデルは、毎秒10回(10Hz)という高速で推論と車両制御を同時に行い、実際の公道環境で安定した自動運転性能を発揮できることを確認しました。この速度は、刻々と変化する交通状況に対応するために非常に重要です。
チューリングは2023年から一貫して、言語モデルを基盤とした自動運転技術の研究開発に取り組んでおり、今回の成果はその継続的な取り組みの集大成と言えます。今後は、日本発の「国産フィジカルAI」の実現に向けて、さらなる技術開発と社会実装を加速していく方針です。
より詳しい技術的な知見は、チューリングのテックブログで公開されています。
因果推論データセット「RACER」:AIに「なぜそうするのか」を教える
自動運転AIが高度な判断を下すためには、単に「何をすべきか」だけでなく、「なぜそうすべきか」という判断の根拠を理解することが重要です。この「なぜそうするのか」を理解する能力を「因果推論能力」と呼びます。
RACERの目的と特徴
チューリングが公開した「RACER(Rationale-Aware Captioning of Edge-Case Driving Scenarios)」は、VLAモデルの因果推論能力を強化することを目的として構築されたデータセットです。
このデータセットは、運転判断の根拠を因果構造に基づいて記述しています。例えば、「前方の歩行者が横断しようとしているから、減速して停止する」といったように、行動の原因と結果、その間の論理的なつながりをAIに学習させることができます。
AIがこのような因果関係を理解できるようになれば、単にパターンを模倣するだけでなく、未知の状況や予期せぬ事態に遭遇した際にも、より安全で適切な判断を自律的に下せるようになるでしょう。これにより、自動運転の安全性と信頼性が大きく向上することが期待されます。
今回、RACERの一部が「RACER-Mini」としてHugging Face上で公開されており、世界中の研究者や開発者がこのデータセットを利用して、自動運転AIのさらなる進化に取り組むことができます。
画像トークナイザ「DriveTiTok」:運転映像を効率的にAIへ
自動運転AIは膨大な量の視覚情報(カメラ映像など)を処理する必要があります。しかし、生データをそのままAIに与えると、データ量が非常に大きく、処理に時間がかかったり、計算資源を大量に消費したりするという課題があります。
DriveTiTokの機能と重要性
そこでチューリングが開発・公開したのが、画像トークナイザ「DriveTiTok」です。
「画像トークナイザ」とは、運転シーンの映像をAIが扱いやすい「離散トークン」と呼ばれるデジタルな「単語」のようなものに変換する技術です。これにより、映像データを約1/100まで大幅に圧縮することが可能になります。
DriveTiTokの優れた点は、単に圧縮するだけでなく、過去のフレーム情報(過去の映像)を活用しながら、時間的な変化やシーン全体の文脈を統合的に捉えることができる点です。これにより、データ量を大幅に削減しつつも、運転判断に必要な視覚情報を損なうことなく保持できます。
データが効率的に圧縮されれば、AIの学習やリアルタイムでの推論がより高速かつ低コストで行えるようになります。これは、大規模な自動運転AIの開発と運用において、非常に重要な技術的進歩と言えるでしょう。
DriveTiTokの学習済みモデルもHugging Face上で公開されており、この技術の普及と活用が期待されます。
チューリングが目指す「完全自動運転」の未来
今回の発表は、チューリングが掲げる「完全自動運転」実現に向けた重要なマイルストーンです。チューリングは、環境認識から経路計画、運転制御までを単一のAIで行うE2E(End-to-End)自動運転AIと、人間社会の常識や背景、文脈を理解する大規模基盤モデルを同時に開発し、これらを統合することで、あらゆる条件下で車が人間に代わって運転操作を行う「完全自動運転」の実現を目指しています。
経済産業省とNEDOの支援を受ける「GENIAC」プロジェクトの一環として、国内における生成AIの開発力強化にも貢献しつつ、チューリングは今後も自動運転向けフィジカルAIの領域で最先端の研究開発を推進していくとのことです。
Turing株式会社について
Turing株式会社は、2021年8月に設立された、完全自動運転の開発に取り組むスタートアップ企業です。
-
会社名: Turing株式会社
-
所在地: 東京都大田区平和島6丁目1ー1 東京流通センター物流ビルA棟AE2-1-2
-
代表者: 代表取締役CEO 山本 一成
-
設立: 2021年8月
-
事業内容: 完全自動運転システムの開発
-
URL: https://tur.ing/
チューリングでは、日本発の完全自動運転実現により世界を変える仲間を積極的に募集しています。
また、オープンオフィスやテックトークなどのイベントも定期的に開催されています。
まとめ:日本の自動運転技術が新たなフェーズへ
Turing株式会社によるVLAモデルの公道でのリアルタイム自動運転制御の実現は、日本の自動運転技術開発において歴史的な成果と言えるでしょう。従来のAIモデルでは難しかった「なぜそうするのか」という因果推論能力を高める「RACER」データセット、そして膨大なデータを効率的に処理する「DriveTiTok」といった革新的な技術の公開は、自動運転AIのさらなる進化を力強く後押しします。
これらの技術は、経済産業省とNEDOによる国家プロジェクト「GENIAC」の支援も受けており、日本が世界をリードする自動運転技術を確立する上で重要な役割を果たすことが期待されます。チューリングの挑戦は、私たちの未来の移動体験を大きく変える可能性を秘めています。今後のさらなる発展に注目していきましょう。

