UiPathのAI自動化技術が世界でトップ評価!Claude Opus 4.5搭載「Screen Agent」がOSWorldベンチマークで1位獲得
AI(人工知能)技術の進化は目覚ましく、ビジネスの現場でもその導入が加速しています。そうした中で、エージェンティックオートメーションのグローバルリーダーである米UiPath(ユーアイパス)が、画期的な成果を発表しました。同社のAI自動化ソリューション「UiPath Screen Agent」が、国際的な独立評価「OSWorld-Verifiedベンチマーク」において、エージェンティックオートメーション分野で堂々の1位を獲得したのです。
この快挙は、特に「Claude Opus 4.5」という最先端の大規模言語モデル(LLM)を搭載したUiPath Screen Agentによって達成されました。企業がAIを導入し、業務全体で活用していく上で、この評価は非常に大きな意味を持ちます。本記事では、このニュースの詳細と、UiPath Screen Agentがどのような技術で、なぜこれほど高い評価を得たのかを、AI初心者の方にも分かりやすく解説していきます。

UiPath Screen Agentとは?AIがパソコン操作を自動化する画期的な技術
UiPath Screen Agentは、UiPathが提供するエージェンティックオートメーションの中核をなす技術です。エージェンティックオートメーションとは、AIがまるで人間のオペレーターのように、自律的にパソコン上のさまざまなアプリケーションを操作し、決められたタスクを実行する仕組みを指します。もう少し具体的に見ていきましょう。
大規模言語モデル(LLM)の活用
UiPath Screen Agentの大きな特徴は、大規模言語モデル(LLM)を活用している点です。LLMとは、人間が使う自然な言葉(日本語や英語など)を理解し、文章を生成したり、質問に答えたりする能力を持つAIのことです。ChatGPTやGoogle Geminiなどが有名ですが、今回のUiPath Screen Agentには「Claude Opus 4.5」という高性能なLLMが搭載されています。
このLLMが搭載されていることで、UiPath Screen Agentは、人間が自然な言葉で指示を出すだけで、パソコンの画面上で行うタスクを自律的に実行できるようになります。例えば、「このウェブサイトにログインして、最新のレポートをダウンロードし、その内容をスプレッドシートにまとめる」といった複雑な指示も、自然言語で理解し、適切に操作を実行することが可能になるのです。これは、従来のRPA(ロボティック・プロセス・オートメーション)が、あらかじめ設定された手順通りにしか動けなかったのに対し、AIが状況を判断して柔軟に対応できる「エージェント」としての能力を持っていることを意味します。
UiPath ScreenPlayの中核技術
UiPath Screen Agentは、UiPathのAI自動化プラットフォームである「UiPath ScreenPlay」の中核技術として位置づけられています。ScreenPlayは、ユーザーインターフェイス(UI)型タスクの自動化に特化しており、AIエージェントが視覚的に画面を認識し、操作を行うことを可能にします。これにより、ウェブブラウザ、デスクトップアプリケーション、さらには複数のアプリケーションにまたがる複雑なワークフローも、AIがスムーズに処理できるようになります。
例えば、顧客情報をCRM(顧客関係管理)システムに入力し、その情報を基に会計システムで請求書を作成し、さらにメールで顧客に送信するといった一連の業務も、UiPath Screen Agentが自律的に連携して実行できます。これは、業務の効率化だけでなく、人的ミスの削減や、従業員がより創造的な仕事に集中できる環境を創出することに繋がります。
OSWorld-Verifiedベンチマークとは?AIの真の実力を測る評価基準
今回、UiPath Screen Agentがトップ評価を獲得した「OSWorld-Verifiedベンチマーク」とは、一体どのような評価基準なのでしょうか。AIの性能を測るベンチマークは数多く存在しますが、OSWorldベンチマークは特に「エージェンティックオートメーション」という、AIが自律的にタスクを遂行する能力に焦点を当てています。
実際のユースケースを想定した評価
OSWorldベンチマークの最大の特徴は、実際のビジネス環境やユースケースに近い状況でAIの有効性を検証する点です。一般的なAIベンチマークが特定のデータセットや限られたタスクで性能を測るのに対し、OSWorldベンチマークは、より複雑で多様な「オープンエンドなコンピュータータスク」を評価対象としています。
具体的には、ウェブアプリケーションやデスクトップアプリケーション、さらにはOSのファイル操作(ファイルI/O)など、多岐にわたるアプリケーションを横断する369ものコンピュータータクトを検証します。これは、企業が実際にAIを導入する際に直面する「さまざまなアプリケーションを連携させながら業務を進める」という課題に対応できるかを測るものです。AIが単一のタスクだけでなく、複数のツールや環境をまたいで、まるで人間のように状況を判断し、適切な操作を行えるかどうかが評価のポイントとなります。
マルチモーダルエージェント向けの初のスケーラブルな実環境
OSWorldベンチマークは、マルチモーダルエージェント向けとして初めて、スケーラブルな実環境を採用しています。マルチモーダルエージェントとは、テキストだけでなく、画像や音声など複数の情報源から情報を理解し、処理できるAIエージェントを指します。
このベンチマークは、AIが現実世界に近い複雑なコンピューター環境で、どれだけ柔軟かつ正確にタスクをこなせるかを検証します。そのため、企業がAIを複数のワークフローに導入する際の「確かな自信」に繋がる、非常に信頼性の高い評価基準とされています。このベンチマークでトップ評価を得ることは、AIエージェントが単なるデモンストレーションレベルではなく、実際のビジネス現場で実用レベルの性能を持つことを証明するものです。
なぜUiPath Screen Agentはトップ評価を獲得したのか?その技術的優位性
UiPath Screen AgentがOSWorld-Verifiedベンチマークでトップ評価を獲得した背景には、その優れた技術的優位性があります。特に、Claude Opus 4.5という高性能LLMとの組み合わせが、大きな要因となっています。
Claude Opus 4.5の強力な推論能力
Claude Opus 4.5は、Anthropic社が開発した大規模言語モデルの中でも特に高性能なモデルの一つです。このLLMは、非常に複雑な指示を理解し、論理的に推論する能力に優れています。UiPath Screen AgentがClaude Opus 4.5を搭載することで、以下のような強みが発揮されます。
-
高度な指示理解: ユーザーが自然言語で与える複雑な指示や曖昧な表現も、その意図を正確に読み取り、適切な操作に変換する能力が高まります。
-
状況判断と柔軟な対応: 予期せぬエラーや画面の変更など、想定外の状況が発生した場合でも、LLMの推論能力によって、最適な対応策を自律的に判断し、タスクを継続することができます。
-
マルチアプリケーション対応: ウェブブラウザ、デスクトップアプリ、ファイルシステムなど、異なる種類のアプリケーションを横断する複雑なワークフローにおいても、一貫した操作と情報連携をスムーズに行うことができます。
汎用モデルや他エージェントとの比較優位性
OSWorldベンチマークでは、UiPath Screen Agentだけでなく、汎用的なAIモデルや、コンピューター操作に特化したモデル、さらには他のエージェンティックフレームワークも評価されています。その中でUiPath Screen Agentがトップ評価を獲得したことは、その性能が他の追随を許さないレベルにあることを示しています。
これは、UiPathが長年培ってきたRPA技術と、最新のAI技術(特にLLM)を高度に融合させることで、エージェンティックオートメーション領域で独自の強みを確立している証拠と言えるでしょう。単にAIモデルの性能が高いだけでなく、実際のパソコン操作とAIの連携を最適化する技術が、UiPath Screen Agentの優位性を際立たせています。
SimpleTireのエンタープライズAI&オートメーション マネージャーであるNoble Keyser氏は、UiPath ScreenPlayを体験し、「自社の自動化を目に見える形で大きく前進させる可能性に期待している」と述べています。適応型知能がパートナーエコシステムを支援し、継続的なメンテナンスの削減に寄与することで、チームが成長に専念できる環境が実現するだろうと期待が寄せられています。
エージェンティックオートメーションの未来と企業にもたらす可能性
UiPath Screen AgentがOSWorldベンチマークでトップ評価を獲得したことは、エージェンティックオートメーションの未来、そして企業におけるAI導入の可能性を大きく広げるものです。
企業におけるAI導入の加速
多くの企業がAIの導入に関心を持つ一方で、「本当に効果があるのか」「どのように導入すれば良いのか」といった課題に直面しています。OSWorldベンチマークのような客観的な評価は、企業がAI投資を行う際の重要な判断材料となります。
UiPathのAI & Research担当シニアバイスプレジデントであるMircea Neagovici-Negoescu氏は、「組織がAIへの大規模な取り組みを進めるには、その投資が確実に成果につながるという確証が必要であり、ベンチマークは特定のユースケースや重要なワークフローの有効性を実証する上で非常に有用です」とコメントしています。今回の評価結果は、UiPath Screen Agentがエンタープライズレベルの規模とスピードでAIを活用できる、信頼性の高いソリューションであることを証明しており、企業のAI導入を後押しするでしょう。
業務の効率化と生産性向上
エージェンティックオートメーションは、定型業務だけでなく、これまでAIでの自動化が難しかった複雑な業務も自動化できる可能性を秘めています。例えば、顧客からの問い合わせに対応するカスタマーサポート業務、複数のシステムから情報を集約して分析するデータ処理業務、あるいは新規事業の市場調査といった、より高度な知的作業も、AIエージェントが支援できるようになるかもしれません。
これにより、従業員は反復的な作業から解放され、より創造的で戦略的な業務に集中できるようになります。結果として、企業全体の生産性が向上し、新しい価値創造に繋がることが期待されます。
UiPathの継続的な取り組み
今回のトップ評価は、UiPathがエージェンティックAIによるUIオートメーションの高度化に向けて継続的に取り組んできた成果と言えます。実は、2025年9月にも、OpenAI GPT-5を搭載したUiPath Screen Agentが同ベンチマークで2位を獲得していました。これは、UiPathが特定のLLMに依存することなく、最先端のAI技術を積極的に取り入れ、常に製品の性能向上に努めていることを示しています。
UiPathは、セキュリティ、ガバナンス、相互運用性を重視しながら、企業がエージェンティックオートメーションを安全かつ自信を持って推進できるよう支援しています。今後も、AI技術の進化に合わせて、そのプラットフォームを進化させていくことでしょう。
まとめ
UiPathのClaude Opus 4.5搭載UiPath Screen Agentが、OSWorld-Verifiedベンチマークでエージェンティックオートメーション分野のトップ評価を獲得したことは、AIと自動化の分野における画期的なニュースです。この成果は、UiPathが提供するAIエージェントが、実際のビジネス環境で高い有効性を発揮し、企業全体のAI導入を強力に推進できることを示しています。
AI初心者の方にも、大規模言語モデル(LLM)の力と、それがどのようにパソコン操作の自動化に活かされているか、そしてOSWorldベンチマークがいかに信頼性の高い評価基準であるかを理解していただけたでしょうか。エージェンティックオートメーションは、これからのビジネスにおいて、業務効率化、生産性向上、そして新しい価値創造の鍵となる技術です。
UiPathは、この分野のグローバルリーダーとして、今後も企業のAI活用を支援し、業界に革命をもたらす未来へと進んでいくことでしょう。エージェンティックオートメーションのさらなる進化に期待が高まります。
UiPath Screen Agent、UiPath ScreenPlay、UiPath Platformの詳細については、以下の英語ページをご覧ください。

