RAG実用化の鍵!マクニカが「非構造化データ」整備を自動化する「Unstructured」提供開始
近年、AI技術の進化は目覚ましく、特に「生成AI」はビジネスの様々な場面での活用が期待されています。社内文書を効率的に活用し、ナレッジ検索や業務効率化を実現する「RAG(検索拡張生成)」の導入を検討する企業が増える中、その実用化には大きな課題が存在していました。それは、企業内に膨大に存在する「非構造化データ」の整備です。この課題に対し、株式会社マクニカは、Unstructured Technologies, Inc.(以下、Unstructured社)と国内初の販売代理店契約を締結し、非構造化データの整備を自動化するプラットフォーム「Unstructured」の提供を開始します。
生成AIとRAGへの高まる期待、そして見過ごされがちな課題
生成AIは、まるで人間のように自然な文章や画像を生成できる技術として、世界中で注目を集めています。この技術を企業で活用する際、特に重要な役割を果たすのがRAG(検索拡張生成)です。
RAGは、企業が持つ独自のデータ(社内マニュアル、営業資料、契約書など)をAIに学習させ、質問に対してそのデータに基づいた正確な回答を生成させる技術です。これにより、従業員は必要な情報を素早く見つけ出し、業務の効率化や意思決定の迅速化が期待できます。例えば、「〇〇製品の最新の仕様書はどこにある?」といった質問に対し、RAGが社内の文書から該当箇所を検索し、要約して回答するといった活用が考えられます。
しかし、RAGの導入を進める多くの企業が直面するのが「非構造化データ」の壁です。企業内に存在するデータの約80%は、PDF、Word文書、PowerPointプレゼンテーション、メール、画像、音声ファイルといった非構造化データであると言われています。これらのデータは、見出し、段落、表、画像などが複雑に混在しており、従来のAIモデルが正確に構造を把握することが難しいという特性を持っています。
非構造化データが引き起こすRAG実用化の課題
非構造化データがRAGの精度に悪影響を与える具体的な問題点は多岐にわたります。例えば、以下のようなケースが考えられます。
-
検索漏れや誤解釈: AIが文書の構造を正確に理解できないため、必要な情報を見落としたり、文脈を誤って解釈したりすることがあります。これにより、RAGが不正確な回答を生成してしまう可能性があります。
-
PoC(概念実証)から本番環境への移行の困難さ: 小規模な検証(PoC)では問題なく動作しても、実際の運用環境で大量の多様な非構造化データを扱うようになると、精度が安定せず、期待通りの性能を発揮できないケースが少なくありません。
-
データ整備の属人化と運用負荷の増大: 従来のデータ整備プロセスでは、高い専門性を持つ担当者が、文書ごとに適切な「チャンク設計」(データをAIが処理しやすい小さな塊に分割する作業)や情報抽出ルールを手動で設計・調整する必要がありました。この作業は非常に手間がかかるだけでなく、特定の担当者に知識が集中しやすく、属人化を招きます。さらに、文書の量が増えたり、内容が更新されたりするたびに再調整が必要となるため、運用フェーズでの工数負荷が継続的に増大し、結果としてプロジェクトが停滞してしまうこともありました。
こうした課題は、AIモデル自体の性能ではなく、むしろデータの「前処理」と「運用」の段階で発生することが多く、生成AI活用の本格展開を阻む大きなボトルネックとなっていました。
「Unstructured」による革新的なアプローチ
マクニカが提供を開始する「Unstructured」は、この非構造化データ整備の課題を自動化し、RAGの実用化を加速させるためのプラットフォームです。
Unstructuredは、非構造化データに含まれる段落、見出し、表、画像などの複雑な構造を保持したまま、LLM(大規模言語モデル)が扱いやすい「JSON」形式へと自動的に変換します。JSON(JavaScript Object Notationの略)は、データを「項目名」と「値」の組み合わせで表現する、システム間で広く使われているデータ記述形式です。これにより、RAGの精度と安定性を大幅に向上させることが可能になります。
具体的には、Unstructuredを利用することで、従来手動で行っていた文書ごとの細かいチューニング作業や、更新文書への再対応に伴う工数を大幅に削減できます。これにより、データ整備作業の属人化が解消され、継続的な運用負荷の軽減が実現されます。
「Unstructured」の主な特長
Unstructuredには、RAGの実用化を強力に後押しする以下の4つの特長があります。
-
各種クラウドサービスとの連携コネクターを標準装備
Unstructuredは、様々なクラウドサービスと標準コネクターで連携できます。これにより、非構造化データを他のストレージへ移動・複製することなく、データが更新された際も継続的に処理を行うことが可能です。既存のデータ基盤を活かした柔軟な運用が実現します。
この図は、Unstructuredが提供する「ETL Plus+ Platform」の概念を示しています。多様なソースコネクタからデータを抽出し、パーティショニング、チャンク化、エンリッチメント、埋め込みといった複雑な変換・処理を自動で行い、様々なデスティネーションコネクタへロードする一連の流れが表現されています。これにより、非構造化データがLLMが活用しやすい形式へと効率的に整備されます。 -
「RAG・生成AI活用」をゴールに据えた前処理設計
文書構造を考慮したパーティショニング(適切な単位でデータを分割すること)や、意味を損なわないチャンク設計、後段のAI処理を見据えたメタデータ付与など、RAGや生成AI活用に最適な形での前処理設計が施されています。これにより、非構造化データをそのまま業務で活用できる状態へ変換し、高品質なAI応答を可能にします。 -
ノーコードで始められる、迅速なPoC・導入
専門知識を持たないユーザーでも直感的に操作できるノーコードのGUI(グラフィカルユーザーインターフェース)を備えています。これにより、複雑な非構造化データ処理を安定して実行でき、迅速なPoC(概念実証)から本番導入までスムーズに進めることが可能です。 -
コンプライアンス及びセキュリティ基準への準拠
HIPAA、SOC 2 Type 2、GDPR、ISO 27001など、データ保護および情報セキュリティに関連する主要な法令、規制、業界標準に準拠しています。これにより、企業は安心してUnstructuredを導入し、機密性の高いデータを扱うことができます。
マクニカが提供する包括的な支援
マクニカは、Unstructuredプラットフォームの提供を通じて、日本企業における生成AIの実用化を加速させるための包括的な支援を行います。企業が既に利用しているデータ基盤やコンテンツ管理基盤との連携設計から、Unstructuredの導入、そしてその後の運用まで、一貫してサポートすることで、企業は安心して生成AIの活用を進めることができます。
Unstructured Technologies, Inc.のCEOであるBrian Raymond氏は、この提携について次のように述べています。
「世界中の企業データの約80%は非構造化データであり、PDF、メール、プレゼンテーション、各種ドキュメントの中に埋もれたまま、AIシステムからは十分に活用できていません。これこそが、企業における生成AI導入を阻む最大のボトルネックであり、業界を問わず多くの組織から寄せられている共通の課題です。日本のエンタープライズ市場に対する深い知見と、最先端のAIソリューションへの強いコミットメントを持つマクニカは、Unstructuredを日本に展開する上で理想的なパートナーです。両社の協業により、日本企業が自社データの持つ真の価値を解き放ち、生成AIのPoC(概念実証)から本番環境での大規模展開へと移行できるよう支援していきます。」
このコメントからも、非構造化データがAI活用における喫緊の課題であり、マクニカとUnstructured社の協業がその解決に大きく貢献するであろうことがうかがえます。
Unstructured社とマクニカについて
Unstructured Technologies, Inc.
Unstructured社は2022年8月4日に設立され、カリフォルニア州サクラメントに本社を置いています。Brian Raymond氏が代表取締役CEOを務め、LLM(大規模言語モデル)向けのETL(Extract, Transform, Load)プラットフォームの開発および提供を主な事業としています。非構造化データの課題解決に特化した技術を持つ企業です。
Unstructured Technologies, Inc.の詳細については、以下のURLをご参照ください。
https://unstructured.io/
株式会社マクニカ
マクニカは、半導体、サイバーセキュリティをコア事業とし、最新のテクノロジーをトータルに取り扱うサービス・ソリューションカンパニーです。世界28か国・地域91拠点で事業を展開し、50年以上の歴史の中で培った技術力とグローバルネットワークを活かして、AIやIoT、自動運転などの最先端技術の発掘、提案、実装を手掛けています。
株式会社マクニカの詳細については、以下のURLをご参照ください。
http://www.macnica.co.jp
製品に関するお問い合わせ
「Unstructured」製品に関するお問い合わせは、以下のメールアドレスまでご連絡ください。
unstructured-sales@macnica.co.jp
製品の詳細情報については、以下のURLで確認できます。
https://www.macnica.co.jp/business/dx/manufacturers/unstructured/
まとめ:生成AI活用の未来を拓く「Unstructured」
生成AIの普及は、企業に新たな可能性をもたらしていますが、その実用化には非構造化データの整備という大きな課題が立ちはだかっていました。マクニカがUnstructured社と提携し、非構造化データ整備プラットフォーム「Unstructured」の提供を開始することで、この課題が解決され、より多くの企業が生成AIを本格的に活用できるようになるでしょう。
Unstructuredは、データの属人化を解消し、運用負荷を軽減しながら、RAGの精度と安定性を向上させます。これにより、企業は自社データの真の価値を最大限に引き出し、競争力強化や新たなビジネス創出へと繋げることが期待されます。生成AIが企業活動に深く浸透し、その恩恵を享受できる未来が、この新しいソリューションによって一層近づいたと言えるでしょう。

