AI技術の進化は目覚ましく、ビジネスのあらゆる側面でその影響が感じられるようになりました。特に、企業の法務部門における契約書業務は、その複雑さと重要性から、AIによる効率化と精度の向上が強く求められています。この度、リーガルAIの分野をリードする株式会社LegalOn Technologiesが、Googleが開発した最新AIモデル「Gemini 3」の性能を、契約書業務に特化した独自ベンチマークデータセットで詳細に検証した結果を発表しました。
この検証は、単に最新モデルの性能を測るだけでなく、実際のビジネスシーンでAIがどれだけ役立つのか、そしてどのようなAIモデルを選べば良いのかという、企業にとって重要な問いに対するヒントを提供します。AI初心者の方にも理解できるよう、専門用語を避けつつ、その内容と意義を詳しくご紹介します。

Googleの最新AIモデル「Gemini 3」とは?その進化のポイントを徹底解説
Googleが2025年11月18日に公開した「Gemini 3」は、同社のAIモデルの主力として位置づけられる最新のモデルです。従来のモデルと比較して、いくつかの点で大きく進化しており、その能力は多岐にわたります。これらの進化は、契約書業務のような複雑なタスクにおいても、AIの活用範囲を広げる可能性を秘めています。
1. 複合的な情報からの推論能力が強化
「Gemini 3」は、複数の情報源から得られる複雑な情報を分析し、論理的に考察することで、新しい解決策や深い洞察を導き出す能力が格段に向上しています。これは、まるで博士号を持つ専門家が、さまざまな文献やデータを統合して深く考察するようなイメージです。
契約書業務においては、例えば、異なる契約書、関連法規、社内規定など、複数の文書を横断的に参照し、それらの情報を組み合わせて潜在的なリスクや矛盾点を発見したり、最適な条項の提案を行ったりする際に、この推論能力が非常に重要になります。単に情報を抽出するだけでなく、情報間の関係性を理解し、意味のある結論を導き出せる点が大きな強みです。
2. 多様な形式データの理解・処理能力が向上
このモデルは、テキスト情報だけでなく、画像、音声、動画、コードなど、あらゆる種類の情報を一度に、かつ文脈を深く理解しながら処理できるようになりました。これにより、AIが扱えるデータの幅が広がり、より多角的な分析や情報処理が可能になります。
契約書業務においては、例えば、契約書のスキャン画像から文字を認識し、その内容を理解したり、契約に関する会議の音声記録から重要な論点を抽出したりといった応用が考えられます。様々な形式のデータを統合的に扱うことで、より包括的な情報分析が期待できます。
3. 一度に処理できる情報量が大幅に拡大
AIが一度に記憶し、処理できる情報の量(これを「コンテキストウィンドウ」と呼ぶこともあります)が大幅に拡大しました。「Gemini 3」は、小説一冊分(最大100万トークン)に相当する膨大なデータを一度に読み込み、全体を把握した上で質問に回答する能力を持っています。
この進化は、特に長い契約書や関連する複数の文書を扱う契約書業務において絶大な効果を発揮します。従来であれば、AIが一度に処理できる情報量に限りがあったため、長い文書を分割して処理する必要があり、文脈の理解が途切れる可能性がありました。しかし、「Gemini 3」は契約書全体や関連文書群を一度に読み込むことで、全体的な整合性や複雑な条項間の関係性をより正確に理解し、精度の高い回答や修正案を生成できるようになります。
LegalOn Technologies独自の検証方法:契約書業務に特化したリアルな評価
LegalOn Technologiesは、AIモデルの一般的な性能だけでなく、実際の契約書業務でどれだけ役立つかを評価するため、独自に開発したベンチマークデータセットを用いて「Gemini 3」の検証を行いました。このデータセットは、契約書業務における主要なタスクを網羅しており、より実践的な視点からAIモデルの能力を測ることができます。
検証では、以下の主要なタスクに焦点を当てました。
-
論点の抽出: 契約書の中から、特に注意すべき点や交渉が必要な条項を正確に特定する能力。
-
契約書の修正: 契約書の内容を、特定のルールや目的に基づいて適切に修正する能力。
-
プレイブックへのルール反映: 企業独自の契約書作成・レビューガイドライン(プレイブック)に沿って、契約書にルールを適用する能力。
-
契約に関する質問への回答: 契約書の内容や関連法規に基づいて、質問に正確に回答する能力。
これらのタスクについて、LegalOn Technologiesは「Gemini 3」の性能を、現在広く利用されている他の主要なAIモデルである「GPT-5.1」や「Claude Sonnet 4.5」と比較検証しました。さらに、日本語と英語の両方で評価を行うことで、言語による性能差も明らかにしようと試みました。
「Gemini 3」の検証結果:他モデルとの比較で見えた強みと課題
この徹底的な比較検証の結果、「Gemini 3」は多くのタスクで高い品質を示したものの、タスクごとに性能差が大きく、また応答速度に課題があることも明らかになりました。この結果から、現時点では、すべての契約業務領域で一貫して優れた性能を示す「万能なモデル」は存在せず、各モデルが異なるタスクでそれぞれ異なる強みを発揮していることが分かります。
英語タスクでの比較:「Gemini 3」は構造化された推論に強み、GPT-5.1は速度とリスク検知で優位
英語の契約書業務タスクでは、「Gemini 3」と「GPT-5.1」がそれぞれ異なる分野で強みを示しました。
「Gemini 3」は、構造化された推論やルールに基づく作業が求められるタスクで特に優れている傾向がありました。具体的には、以下のような点で高い精度を記録しています。
-
要約、抽出、翻訳といった、契約業務において基盤となるスキルでは、「GPT-5.1」を3〜6ポイント上回る精度を示しました。これは、特定の情報を正確に抜き出したり、内容を簡潔にまとめたり、異なる言語に正確に変換したりする能力において「Gemini 3」が優れていることを意味します。
-
プレイブックに基づいて自社ひな形を修正するタスクでは、「Gemini 3」が「GPT-5.1」よりも約5ポイント高い評価を得ました。これは、明確なガイドラインやルールがある場合に、それに従って契約書を修正する能力が高いことを示しています。取引先が提示した契約書に対するプレイブック適用では、両モデルはほぼ同等の精度でした。
-
契約書の修正タスクのうち、自社ひな形の修正では、「GPT-5.1」が約30%の評価だったのに対し、「Gemini 3」は約70%と、非常に高い評価を獲得しました。これは、自社の標準的な契約書フォーマットに沿って修正を行う際に、「Gemini 3」がより適切で高品質な修正案を生成できることを示唆しています。
一方で、「GPT-5.1」は、リスク検知やリスクに基づく修正が必要なタスクで優勢でした。これは、より複雑な判断や、潜在的なリスクを見抜く能力において「GPT-5.1」が強みを持つことを示しています。
-
契約書の論点抽出では、「GPT-5.1」が「Gemini 3」を僅差で上回りました。これは、契約書の中から特に議論すべき重要なポイントや、交渉の余地がある条項を特定する能力において、「GPT-5.1」がより優れている可能性を示しています。
-
契約書の修正業務のうち、リスクを検知、またはプレイブックに基づいて修正するタスクでは、「GPT-5.1」の方が「Gemini 3」よりも適切に修正できたケースが多かったと報告されています。これは、明確なルールがない中で、法的リスクやビジネス上の影響を考慮した上で、より洗練された修正案を提案する能力において「GPT-5.1」が優位であることを示唆しています。
また、応答速度の観点では、「GPT-5.1」は全てのタスクにおいて、「Gemini 3」より2〜4倍の速さを発揮しました。これは、実務においてAIを頻繁に利用する場合、作業効率に大きな影響を与える重要な要素となります。
日本語タスクでの比較:「Claude Sonnet 4.5」と「Gemini 3」が高スコアを記録
日本語の契約書業務タスクでは、英語とは異なる興味深い結果が見られました。これは、AIモデルが学習するデータの特性や、言語ごとの構造の違いが影響している可能性を示唆しています。
-
Claude Sonnet 4.5: 論点抽出やプレイブックに基づいたレビューにおいて、最も高い精度を記録しました。これは、日本語の契約書における重要なポイントの特定や、企業独自のガイドラインに沿ったレビューにおいて、「Claude Sonnet 4.5」が非常に優れた能力を持つことを示しています。
-
Gemini 3: 契約書を修正するタスクで最も優れた性能を発揮しました。日本語の契約書において、誤字脱字の修正、表現の調整、特定の条項の追加・削除など、具体的な修正作業において「Gemini 3」が高い品質の提案ができることを示しています。
-
GPT-5.1: 英語タスクで強みを示した一方、日本語タスクでは特に突出したスコアは出ませんでした。これは、AIモデルを選定する際に、使用する言語も重要な考慮事項となることを示唆しています。
検証結果から見えてくるAIモデルの選び方とビジネスへの影響
今回のLegalOn Technologiesによる検証結果は、企業が契約書業務にAIを導入する上で非常に重要な示唆を与えてくれます。最も明確な結論は、「すべてのタスクにおいて最高の性能を発揮する単一の『万能なAIモデル』は存在しない」ということです。
目的とタスクに応じたモデル選択の重要性
企業は、契約書業務のどの部分をAIで効率化したいのか、どのようなタスクに重点を置くのかによって、最適なAIモデルを選定する必要があることが明らかになりました。
-
例えば、明確なルールやガイドラインに基づいて契約書を修正したり、特定の情報を正確に抽出したりするタスクが多い場合は、「Gemini 3」が非常に強力なツールとなるでしょう。
-
一方、潜在的なリスクを検知したり、より高度な判断を伴う修正案を生成したりするタスクに重点を置く場合は、「GPT-5.1」が優れた選択肢となる可能性があります。
-
また、日本語での論点抽出やガイドラインに沿ったレビューを重視するなら、「Claude Sonnet 4.5」の検討も有効です。
精度と速度のバランスを考慮
AIモデルの選定においては、単に精度だけでなく、応答速度も重要な要素です。いくら精度が高くても、処理に時間がかかりすぎると、実務での使い勝手が悪くなり、かえって業務効率を低下させてしまう可能性があります。
例えば、日常的に大量の契約書を処理する必要がある場合、応答速度が速いモデルを選ぶことで、業務のボトルネックを解消し、全体の生産性を向上させることができます。タスクの性質や業務フローに応じて、求められる精度と許容できる速度のバランスを見極めることが重要です。
LegalOn Technologiesは、今後も活用場面や業務プロセスに最も適したモデルを選定するために、継続的に比較検証を行っていくとしています。これは、AI技術の進化が速い現代において、企業が常に最新かつ最適なソリューションを選択できるよう、重要な情報を提供し続けるという同社のコミットメントを示しています。
株式会社LegalOn Technologiesについて
株式会社LegalOn Technologies(リーガルオンテクノロジーズ)は、AI分野における高度な技術力と法律・契約の専門知識を兼ね備えた、グローバルリーガルAIカンパニーです。2017年の設立以来、AIを活用したリーガルAIサービスの開発に注力し、現在は「LegalOn: World Leading Legal AI」を展開しています。
同社は、グローバルでの有償導入社数が2025年9月末時点で7,500社を突破するなど、その技術力とサービスは世界中で高く評価されています。2025年1月からは事業領域をコーポレート全体に拡大し、AIカウンセル「CorporateOn」の提供を開始しました。大規模言語モデル(LLM)やAIエージェントなどの最先端のAI技術を製品開発に取り入れ、多様な企業課題に応えるソリューションを通じて、顧客企業のビジネスを支援しています。
LegalOn Technologiesに関する詳細情報は、以下の公式サイトをご覧ください。
まとめ
LegalOn TechnologiesによるGoogle最新AIモデル「Gemini 3」の検証は、契約書業務におけるAI活用の現状と未来を具体的に示す画期的な取り組みです。今回の結果は、AIモデルがそれぞれ異なる得意分野を持つこと、そしてタスクや言語、応答速度といった多様な要素を考慮して最適なモデルを選択することの重要性を浮き彫りにしました。
AIは「万能薬」ではなく、その特性を理解し、適切に活用することで真価を発揮します。企業がAIを導入する際は、自社の具体的なニーズとAIモデルの強みを照らし合わせ、最適な組み合わせを見つけることが成功の鍵となるでしょう。LegalOn Technologiesのような専門企業による継続的な検証と情報提供は、AI技術の恩恵を最大限に引き出し、ビジネスの効率化と競争力強化に貢献するための貴重な道しるべとなります。
今後もAI技術の進化は止まることなく、契約書業務をはじめとするビジネスの様々な領域に革新をもたらし続けるでしょう。この動向に注目し、AIを賢く活用していくことが、これからの企業経営においてますます重要になっていきます。

