現代社会において、AI技術の進化は目覚ましく、私たちの生活に多大な影響を与えています。特に「生成AI」と呼ばれる技術は、テキストや画像をまるで人間が作ったかのように生成できるようになり、その可能性は無限大です。しかし、その一方で、悪意のある目的で生成AIが悪用されるケースも増加しています。その代表例が「ディープフェイク」や「偽画像・偽映像」です。
ディープフェイクとは、AIを使って人物の顔や音声を合成し、あたかも本人が話しているかのような偽の映像や音声を作り出す技術です。これが社会問題となる中、これらの偽物を見破るためのAI技術の開発が急務となっています。このような背景から、ピクスタ株式会社は、機械学習用の新たなデータセット「人物実写・生成AI比較画像データセット」の販売を開始しました。

「人物実写・生成AI比較画像データセット」とは?
このデータセットは、AIが「本物の人物画像」と「生成AIによって作られた人物画像」を区別できるように学習させるための特別なデータ集です。AI初心者の方のために、いくつか専門用語を解説しましょう。
-
データセット: AIが学習するために使う、整理された大量のデータのことです。画像や音声、テキストなど、AIの種類によってさまざまなデータセットがあります。
-
機械学習: AIがデータからパターンやルールを自動的に見つけ出し、学習していく技術のことです。この学習によって、AIは新しいデータに対しても適切な判断や予測ができるようになります。
-
アノテーション: データセット内の画像や音声に、AIが理解できるような「タグ付け」や「目印付け」を行う作業です。例えば、画像内の人物の顔に枠をつけたり、年齢や性別を記録したりします。
今回発表された「人物実写・生成AI比較画像データセット」は、以下の特徴を持っています。
| 名称 | 人物実写・生成AI比較画像データセット |
|---|---|
| データ数 | 1,000点 |
| 価格 | 99,000円(税込) ※各種アノテーションは有料にて承ります |
| 内容 | 実写画像とAI生成画像の両方を含み、単独人物と複数人物の画像が収録されています。年齢層、性別、背景など、幅広いバリエーションが揃えられています。特に、実写画像は日本人、生成AI画像は日本人の実写風のものが選定されています。 |
| 枚数構成 | 単独人物・実写 300点、単独人物・生成 300点、複数人物・実写 200点、複数人物・生成 200点 |
| 特徴 | 商用利用可能であり、撮影者から機械学習用データ活用の許諾が取得済みです。 |
このデータセットには、以下のような画像が含まれています。

(※サンプル画像はすべて生成AI画像です)
このデータセットで何ができる?想定される活用例
このデータセットは、人物画像を対象としたAIモデルの開発や検証を行う法人・研究機関など、幅広い分野での活用が期待されています。特に、以下のような用途が想定されています。
1. 偽画像・偽映像の検知モデルの開発
実写画像と生成AI画像を比較して学習させることで、AIはフェイク画像や不正に合成されたコンテンツを自動的に見つけ出すモデルを構築できます。データセットには単独人物と複数人物の両方のシーンが含まれているため、実際の利用に近い条件でAIの精度を評価することが可能です。これにより、オンライン上の誤情報や詐欺行為の防止に役立つでしょう。
2. 本人確認(eKYC)における不正対策
オンラインでの本人確認(eKYC: electronic Know Your Customer)では、顔写真や顔映像が本人のものであるかを確認しますが、ここに生成AIで作られた偽の顔画像が使われるリスクがあります。このデータセットは、日本人・アジア人の特徴を含む画像で学習できるため、顔のすり替えや生成画像の混入を防ぐための識別モデルに利用できます。これにより、国内向けサービスのセキュリティと信頼性を大きく向上させることが期待されます。
3. 人物検出・属性推定モデルの学習
データセットには、年齢層や性別、人数構成が異なる様々な画像が含まれています。そのため、人物の検出、顔認識、表情の推定といった多様なタスクに対応するAIモデルの学習に役立ちます。混雑した場所での人物解析や、複数人が写るシーンでの顔認識など、より複雑な状況に対応できるAIの開発に貢献します。
4. 画像認識・分類AIの基盤データとして
人物画像の特徴抽出や分類、シーンの理解など、幅広い画像認識タスクの土台となるデータとして利用できます。実写と生成AIの両方の画像が含まれていることで、AIモデルの汎用性(様々な状況に対応できる能力)が向上し、よりロバスト(堅牢)なAIの開発につながると考えられます。
なぜ今、このデータセットが必要なのか?提供背景
生成AIの普及は、私たちの生活を豊かにする一方で、新たな社会課題も生み出しています。その一つが、人物の偽画像や偽動画がオンライン上で増加していることです。
トレンドマイクロ株式会社が2024年7月3日に発表した「ディープフェイクに関する国内実態調査2024」によると、18歳以上の日本人の約37.5%がディープフェイクと思われるコンテンツを目にした経験があり、約14.6%が何らかの悪用に遭ったと認識していると報告されています。これは、ディープフェイクがもはや遠い国の話ではなく、私たちの身近な脅威となっていることを示しています。
さらに、本人確認で利用される顔映像に生成コンテンツが紛れ込む可能性や、なりすましを目的とした偽映像のリスクについても、国内の研究機関から指摘されています。このような状況は、オンラインサービスの信頼性を揺るがしかねない深刻な問題です。
こうした背景から、偽画像・偽映像を検知する技術や、生成AIコンテンツの特徴を分析する取り組みが世界中で広がっています。しかし、実写画像と生成AI画像を体系的に比較できるデータ、特に日本人やアジア人の顔特徴を正確に反映した学習データは、これまで十分に整備されていませんでした。
ピクスタ株式会社は、この課題を解決するために、人物の実写画像500点とAI生成画像500点を収録した、合計1,000点の人物画像データセットを作成しました。単独人物と複数人物の両シーンを含めることで、より実際の環境に近い条件でAIが判定・検証を行えるように工夫されています。
このデータセットが、偽画像の検知技術の向上、本人確認の安全性強化、そしてオンラインサービスの信頼性確保など、幅広いAI開発と研究に貢献することを目指しています。
PIXTAの機械学習用画像・動画データ提供サービスとは?
ピクスタ株式会社が運営する「PIXTA(ピクスタ)」は、写真・イラスト・動画・音楽素材を扱う国内最大級のマーケットプレイスです。同社は、この豊富な素材を活かし、「機械学習用画像・動画データ提供サービス」を展開しています。
このサービスでは、1億点以上にも及ぶ商用利用可能な画像・動画・音声データを、機械学習の用途や要件に合わせて提供しています。オープンデータだけでは得にくい、以下のような強みがあります。
-
豊富な日本人画像ライブラリ: 国内最大級のストックフォトサイトであるPIXTAは、多種多様な日本人人物画像を保有しています。これは、日本市場向けのAI開発において非常に価値のある資産です。
-
高度なアノテーション技術: 機械学習の専門チームが、AI学習に必要なアノテーションを高度な技術で行います。これにより、AI開発者はデータ収集や前処理にかかる手間を削減し、AI開発に集中できます。
-
一気通貫の支援: データ収集からアノテーションまで、AI開発者のデータニーズを一貫してサポートします。

自動車や製造業界の大手企業をはじめ、多くの企業がPIXTAの機械学習用データ提供サービスを画像認識AIや物体検知AIの開発に活用し、高い評価を得ています。もし既存のストックデータでは要件を満たせない場合でも、PIXTAは創業20年の豊富な撮影経験を活かし、学習要件に合わせた新規撮影も可能です。

購入方法と詳細情報
今回発表された「人物実写・生成AI比較画像データセット」の購入を検討される方は、以下のPIXTA機械学習用画像・動画データ提供サービスのウェブサイトからお問い合わせください。
また、PIXTAの機械学習データサービスに関するより詳しい情報は、以下のnote記事でも確認できます。
PIXTAは、データ提供だけでなく、様々な撮影サービスも行っています。ご興味があれば、以下のリンクをご覧ください。
まとめ
生成AIの急速な発展は、社会に大きな変革をもたらしていますが、それに伴うディープフェイクや偽画像といった新たな脅威への対策も不可欠です。ピクスタ株式会社が販売を開始した「人物実写・生成AI比較画像データセット」は、こうした社会課題に対応するためのAI開発を強力に支援するものです。
特に、日本人・アジア人の顔特徴を反映したデータが含まれている点は、日本国内のサービスにおける本人確認やセキュリティ対策において、極めて重要な意味を持ちます。このデータセットが、偽画像検知技術の向上、オンラインサービスの信頼性確保、そしてより安全なデジタル社会の実現に大きく貢献していくことでしょう。AI技術の健全な発展のために、このような取り組みは今後ますます重要になっていきます。

