【AI最前線】大規模言語モデル(LLM)がWebブラウザ自動操作の課題を解決!アミフィアブルがSelenium自動テストの新論文を発表

Webアプリ開発の未来を変える!AIによる自動テストの最前線

現代のWebアプリケーション開発において、品質保証は非常に重要なプロセスです。しかし、その中でも「テスト」は、多くの時間と労力を必要とする課題として長年認識されてきました。特に、ユーザーがWebブラウザを通じて行う操作を自動的に再現し、問題がないかを確認する「Webブラウザ自動操作」は、Seleniumのようなフレームワークが使われていますが、テストスクリプトの手動作成が大きな負担となっていました。

そんな中、近年急速に進化を遂げているのが「大規模言語モデル(LLM)」、通称AIです。ChatGPTに代表されるLLMは、人間のように自然な文章を理解し、生成するだけでなく、プログラミングコードを生成する能力も非常に高いことで知られています。このLLMの能力をWebブラウザの自動操作に応用することで、テストスクリプト作成の手間を大幅に削減し、ソフトウェア開発の効率を飛躍的に向上させる可能性が期待されています。

今回、アミフィアブル株式会社が、このLLMを活用したSeleniumベースのWebブラウザ自動操作に関する画期的な論文を発表しました。この研究は、Webアプリの自動テストにおける長年の課題を解決し、ソフトウェア開発の未来を大きく変える可能性を秘めています。AI初心者の方にも分かりやすいように、この重要な研究成果を詳しくご紹介します。

発表論文の概要

アミフィアブル株式会社のAI研究部と北陸先端科学技術大学院大学のグエン・ミン研究室が共同で発表した論文は、Webブラウザの自動操作におけるLLMの活用に焦点を当てています。

  • 論文タイトル: Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework

  • 著者: 北陸先端科学技術大学院大学 グエン・ミン研究室 アミフィアブルAI研究部 (Nguyen-Khang Le、 Hiep Nguyen、Ngoc-Minh Nguyen、 Son T. Luu、 Trung Vo、 Quan Minh Bui、 野村尚新、 Le-Minh Nguyen)

  • 発表媒体: KSE2025

    • 2025年11月6日~11月8日にベトナムで開催された知識工学とシステム工学分野の最新研究に関する国際会議
  • 論文リンク: https://arxiv.org/abs/2511.15168

なぜ今、LLMとWebブラウザ自動操作の研究が必要なのか?

Webアプリ開発の現場では、ユーザーがWebサイト上のフォームに入力したり、ボタンをクリックしたりといった一連の操作が正しく動作するかを確認する「テスト」が欠かせません。このテストを効率的に行うために、Seleniumのようなツールを使ってWebブラウザの操作を自動化します。

しかし、この自動化には大きな課題がありました。それは、テストを実行するための「スクリプト」を一つ一つ手作業で作成しなければならない点です。Webアプリが複雑化し、機能が増えるにつれて、このスクリプト作成にかかる手間と時間は膨大になり、開発のボトルネックとなっていました。

LLMへの期待と乗り越えるべき壁

近年、LLMはプログラミングコードの生成において目覚ましい能力を発揮しています。この能力を活かせば、手動で作成していたSeleniumスクリプトをLLMが自動で生成してくれるのではないか、という期待が高まりました。しかし、実際にLLMにWebフォームの自動操作スクリプトを生成させるには、いくつかの難しい条件をクリアする必要がありました。

  1. 構文的に正しいこと: 生成されたコードが、プログラミング言語のルールに則っていること。
  2. 実行可能であること: 生成されたコードが、実際にWebブラウザ上でエラーなく動作すること。
  3. 入力フィールドの意図に適合していること: 例えば、ユーザー名を入力するフィールドにはユーザー名らしい値が、メールアドレスのフィールドにはメールアドレスらしい値が入力されるように、Webフォームの意図を正確に理解して操作すること。

これらの条件をすべて満たす高品質なSeleniumスクリプトをLLMに自動生成させることは、決して容易ではありませんでした。

さらに、この分野の研究を進める上で大きな障壁となっていたのが、「Webブラウザ自動操作に特化したオープンなデータセットやベンチマークが存在しない」という点です。LLMを効果的に訓練するには、大量の高品質な学習データが必要ですが、これまでそうしたデータが公開されていなかったのです。

本研究は、まさにこの「スクリプト作成の手間」と「学習データの不足」という二つの大きなギャップを埋めることを目的としています。LLMが高品質なWebブラウザ自動操作用のSeleniumテストケースを自動生成できるよう訓練する、新しい手法の構築を目指し、「構文の正確さ」「実行可能性」「入力フィールドのカバレッジ(網羅性)」という3つの基準を満たすデータセットと学習パイプラインの確立に挑戦しました。

画期的な研究成果:3つの主要ポイント

アミフィアブル株式会社が発表した本研究は、大規模言語モデル(LLM)を用いたWebブラウザ自動操作において、既存にはなかった体系的なアプローチを提示し、従来の評価指標を大幅に上回る性能を示しました。その主要なポイントを3つご紹介します。

1. 初のWebブラウザ自動操作テスト専用データセットを構築

LLMを効果的に学習させるには、質の高いデータが不可欠です。本研究では、これまで存在しなかった「Webブラウザ自動操作テスト用専用データセット」を世界で初めて公開しました。

このデータセットは、以下の要素を組み合わせて構築されています。

  • 多様な実世界のウェブフォーム: 実際のWebサイトから様々な種類のフォームを選定。

  • 人手によるアノテーション: 専門家が手作業で、フォームの意図や正しい操作方法を詳細に記述。

  • LLM生成例の組み合わせ: GPT-4oなどのLLMが生成したスクリプト例を組み込む。

  • フォームに特化: 特にWebフォームの入力や操作に焦点を当てた内容。

この専用データセットの構築により、LLMがより実践的なWebブラウザ自動操作を学習するための土台が築かれました。これは、この分野の研究を加速させる上で非常に重要な貢献と言えます。

2. 実行可能性を重視したデータ生成パイプライン

LLMが生成するコードは、構文的には正しくても、実際に実行するとエラーになったり、意図した通りに動作しなかったりすることがあります。そこで本研究では、生成されたSeleniumコードの「実行可能性」を最大限に重視した、独自のデータ生成パイプラインを設計しました。

トレーニングデータ生成手順

このパイプラインでは、主にGPT-4oのような高性能なLLMを活用し、複数の生成プロセスを組み合わせます。そして、生成された複数のSeleniumコードを実際に実行し、失敗したスクリプトはすべて排除するという徹底したフィルタリング戦略を採用しました。これにより、最終的にデータセットに残されるのは、「構文的に正しい」「実行可能である」「入力フィールドの意図に適合している」といった、非常に高品質で有効なサンプルのみとなります。

この「実行可能性を検証し、失敗したものを排除する」というアプローチが、LLMが生成するコードの信頼性を飛躍的に向上させる鍵となりました。単にコードを生成するだけでなく、それが実際に動作するかどうかまで確認する点が、本研究の大きな特徴です。

3. 既存の指標評価を大幅に上回る性能

本研究では、Qwen2.5、Qwen3、そしてLlama3.1といった最先端のオープンソースLLM(OSS-LLM)に対して、独自に作成した訓練用フォームの合成HTML(仮想的なWebページの構造)を使ってファインチューニング(特定のタスクに合わせてLLMを再学習させること)を行いました。

その結果、実在するWebフォーム画面と合成フォーム画面の両方で性能を比較したところ、本手法によってチューニングされたLLMは、GPT-4oを含む強力な商用LLMと比較しても、すべての評価指標で明確に優れた性能を示しました。

具体的には、「構文の正確さ」「実行可能性」「入力フィールドカバレッジ」という3つの主要な評価指標において、従来の性能よりも約10%向上するという驚くべき結果が得られました。この大幅な性能向上は、前述の「複数のデータ生成パイプラインから、実行不可能なコードを除外するフィルタリング戦略」が、生成されるスクリプトの信頼性を高める上で非常に効果的であることを明確に示しています。

この成果は、LLMがWebブラウザ自動操作の分野で実用的なレベルに到達しつつあることを示しており、今後のソフトウェアテストのあり方を大きく変える可能性を秘めています。

今後の展望:ソフトウェアテストの完全自動化へ

アミフィアブル株式会社が構築したベンチマーク、データセット、そして方法論は、「フォーム中心のWeb自動化」に取り組むための強固な基盤として機能します。

この研究成果は、今後、大規模言語モデル(LLM)ベースのWebブラウザ操作自動化に関する応用研究を大きく促進するでしょう。そして、将来的には、ソフトウェアテストのプロセスがほぼ完全に自動化されるための重要な基礎となることが期待されます。

開発者は、手動でのスクリプト作成やテスト実行といった反復作業から解放され、より創造的で価値の高い開発業務に集中できるようになるかもしれません。これにより、Webアプリケーションの開発サイクルはさらに短縮され、高品質なサービスがより迅速に提供されるようになるでしょう。

研究を支える専門家たち

本研究に貢献した主要な著者の中から、アミフィアブル株式会社に所属するお二方をご紹介します。

野村尚新氏

ヨーク大学哲学部を卒業後、東北大学大学院で修士課程を修了。北陸先端科学技術大学院大学で博士課程を修了後、国立情報学研究所の特任研究員として論理学や自然言語処理など多岐にわたる研究に従事。2021年よりアミフィアブル株式会社に入社し、産学連携とAI研究部のリードとして、日々研究開発に尽力されています。

Quan Minh Bui氏

北陸先端科学技術大学院大学の博士課程を修了。在学中から国立情報学研究所のアシスタントを務め、大手企業との共同研究プロジェクトを通じてAIの知見を深めました。2023年にアミフィアブル株式会社に入社し、AI研究部の中核メンバーとして野村氏と共に活躍されています。

アミフィアブル株式会社について

アミフィアブル株式会社は、「差別化されたAIテクノロジーから世界に新しい価値を提供する」をミッションに掲げる企業です。

  • 会社名: アミフィアブル株式会社

  • 代表者: 代表取締役 河村 隆一

  • 事業: AI搭載テスト工程自動化プラットフォーム「Esplat」の開発及び運用

  • URL: https://www.amifiable.co.jp/

同社は、労働集約的になりがちなソフトウェア開発のテスト工程をAIテクノロジーで自動化するプラットフォーム「Esplat」の開発・運用を手掛けています。2021年6月には特許(特許第6902814号)も取得した自社開発の「Esplat」を武器に、多くの企業でソフトウェア開発の効率化と品質向上に貢献しています。

「Esplat」の導入によるソフトウェア品質の向上やテスト工数の削減だけでなく、QA(品質保証)チームの立ち上げ、テスト推進のPMO(プロジェクトマネジメントオフィス)、設計書や各種業務の標準化支援など、総合的な品質管理コンサルティングも提供しています。顧客のニーズに合わせて、ITコンサルタント、AIコンサルタント、エンジニアが連携し、多様な課題解決に取り組んでいます。

まとめ:AIが拓くWebテストの新たな時代

アミフィアブル株式会社が発表した大規模言語モデル(LLM)を活用したSeleniumベースのWebブラウザ自動操作に関する論文は、Webアプリケーション開発におけるテストのあり方を根本から変える可能性を秘めた画期的な研究成果です。

これまで手動でのスクリプト作成に多くの労力が費やされてきたWebブラウザ自動テストにおいて、LLMが「構文的に正しく、実行可能で、意図に適合した」高品質なテストスクリプトを自動生成できる道筋を示しました。特に、初の専用データセットの構築と、実行可能性を重視した独自のデータ生成パイプラインは、この分野の研究を大きく前進させるものです。

この研究は、ソフトウェアテストの完全自動化という未来に向けた重要な一歩であり、開発者がより本質的な業務に集中できる環境を創造することに貢献するでしょう。AI技術の進化が、私たちの働き方やビジネスのあり方をどのように変えていくのか、今後の展開から目が離せません。

アミフィアブル株式会社の「Esplat」のように、AIを活用したテスト自動化ソリューションは、今後ますます多くの企業で導入が進むことでしょう。この論文が、Web開発の現場に新たな効率と品質をもたらすきっかけとなることを期待します。

タイトルとURLをコピーしました