AI採用の未来を拓く！Qlean Datasetが「日本人・新卒採用選考の自己PR動画データセット」提供開始
「日本人・新卒採用選考の自己PR動画データセット」とは？
このデータセットが解決する課題と活用例
『Qlean Dataset（キュリンデータセット）』について
1. 『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
Visual Bank株式会社について
まとめ：HRテックの未来を切り拓くAI学習用データ

AI採用の未来を拓く！Qlean Datasetが「日本人・新卒採用選考の自己PR動画データセット」提供開始

近年、ビジネスの世界ではAI（人工知能）の活用が急速に進んでいます。特に採用活動においては、オンライン面接や動画選考が一般的になり、候補者の多様な情報を効率的かつ客観的に評価するためのAI技術が注目されています。

このような背景の中、Visual Bank株式会社は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset（キュリンデータセット）」から、画期的なデータセットの提供を開始しました。それが「日本人・新卒採用選考の自己PR動画データセット」です。このデータセットは、HRテック（人事×テクノロジー）分野におけるAI開発を強力に後押しし、採用の未来を大きく変える可能性を秘めています。

AI開発において、高品質なデータはAIの「先生」のような存在です。AIは、与えられたデータを学習することで、パターンを認識したり、予測を行ったりする能力を身につけます。そのため、どのようなデータを、どれだけ与えるかが、AIの性能を大きく左右するのです。この「日本人・新卒採用選考の自己PR動画データセット」は、まさに次世代のAI採用システムを構築するための「質の高い先生」となることを目指しています。

「日本人・新卒採用選考の自己PR動画データセット」とは？

このデータセットは、日本の新卒採用選考における自己PR動画という、非常に特定の状況を再現した動画データとその詳細な情報（メタ情報）で構成されています。AI初心者の方のために「データセット」とは、AIが学習するために集められた大量のデータの集まりと考えると分かりやすいでしょう。例えば、猫の画像をAIに学習させるための「猫の画像データセット」のように、特定の目的のために集められたデータ群を指します。

リアルな採用シーンを再現

このデータセットの最大の特徴は、実際のオンライン面接や動画選考の環境を忠実に再現している点です。具体的には、新卒の就職活動生を想定した若年層の日本人が、カメラに向かって自身の強みやエピソードを話す様子が収録されています。オンライン面接でよく見られる、上半身が映る「バストアップアングル」で撮影されており、視覚情報と音声情報の両方が、実際の選考環境に近い形で提供されます。

感情や意図を捉えるマルチモーダルデータ

このデータセットは、AIが人物の動的な特徴をより深く理解できるように、以下の2種類の収録内容を含んでいます。

フリートーク形式: 話し手の感情や抑揚（声の調子や高低）が自然に反映されやすい形式です。これにより、AIは単に話している内容だけでなく、話し手の感情の変化や話し方から伝わるニュアンスを学習できるようになります。
指定台本の読み上げ形式: 発話内容が固定されているため、同じ内容を異なる人が話した場合の音声や表情の違いを比較学習するのに適しています。

これらのデータは「マルチモーダルデータ」と呼ばれます。マルチモーダルとは、複数の情報源（モダリティ）を組み合わせたデータのことを指し、この場合は「視覚情報（表情、視線、身振り）」と「音声情報（発話内容、声のトーン、抑揚）」がそれにあたります。人間が相手を理解する際に、言葉だけでなく表情や声の調子なども含めて総合的に判断するように、AIもマルチモーダルデータを学習することで、より人間に近い高度な理解力を身につけることが期待されます。

これにより、音声認識（ASR：Automatic Speech Recognition、自動的に音声をテキストに変換する技術）の精度向上はもちろんのこと、視線や表情の変化、発話の流暢さといった、言葉以外の「非言語情報」から伝わるコミュニケーション要素の解析にも活用できます。

柔軟なカスタマイズ性

さらに、このデータセットは独自のモデルアサイン（特定の条件を持つ人物の選定）による追加収録が可能です。例えば、「特定の属性（性別、年齢層など）に絞った音声データをさらに増やしたい」「もっと長い時間の発話データを確保したい」といった、AI開発者の具体的なニーズに合わせて、データセットを柔軟に拡張・カスタマイズできるのが大きな強みです。

データセットの概要

提供されるデータセットの具体的な仕様は以下の通りです。

データ種別: 動画
被写物属性: 日本人（新卒就活生を想定した若年層）、性別情報あり
データ容量: 5,764.40MB
データ件数: 72クリップ
データ形式: mp4
撮影時間: 1動画あたり1分程度
撮影環境: オンライン面接を想定したバストアップアングル（正面）
その他: メタ情報として、性別および「台本あり/なし」のフラグをリスト形式で提供

サンプルページはこちらで確認できます: https://qleandataset.visual-bank.co.jp/lineup/ds-048

このデータセットが解決する課題と活用例

AI開発において、データ収集と整備は非常に時間とコストがかかる工程です。特に、多様な属性を持つ人物の動画データや、特定のシチュエーションを再現したデータは、個人情報保護や肖像権などの権利処理も複雑になり、自社で用意するのは困難な場合がほとんどです。このデータセットは、そうしたAI開発現場の課題を解決し、権利処理済みの高品質なデータを迅速に提供することで、開発者が本来のAIモデル開発に集中できる環境を整えます。

【研究用途】非言語コミュニケーション解析モデルの構築

就職活動という、評価される側にとって緊張感の高い場面では、話し手の心理状態が表情、視線の動き、発話のピッチ（声の高さ）などに強く影響します。このデータセットは、このような「緊張感」や「自信」といった心理状態が、非言語情報にどのように現れるかを分析するマルチモーダル解析の研究に活用できます。

例えば、AIが候補者の表情の微細な変化や視線の動きを解析することで、その人が話している内容に対してどれだけ自信を持っているか、あるいは緊張しているかを客観的に評価するモデルの開発に役立てられます。これは、人間の面接官が見落としがちな細かなサインをAIが捉え、より公平で多角的な評価を行う可能性を秘めています。

【産業用途】HRテックにおける動画選考支援アルゴリズムの開発

HRテック分野では、AIを活用した動画面接スクリーニング機能が注目されています。このデータセットは、その中核となるアルゴリズムの開発に貢献します。

発話内容の書き起こし（ASR）: 候補者の話す内容を正確にテキスト化することで、キーワード分析や内容理解の自動化を支援します。
非言語特徴量の抽出: 表情の明るさ、目線の定着度（カメラをしっかり見ているか）、身振り手振りといった非言語情報を数値化（特徴量化）し、候補者のコミュニケーション能力やプレゼンテーションスキルを客観的に評価するモデルの学習に利用できます。

これにより、膨大な数の応募動画を効率的にスクリーニングし、人間が評価すべきポイントを絞り込むことで、採用担当者の負担を大幅に軽減し、より質の高い採用活動を実現できるでしょう。

【産業用途】特定シチュエーションにおける音声合成（TTS）・音声変換モデルの開発

自己PRという緊張感のある発話環境を捉えたデータは、特定の感情や緊張度を再現する音声生成AI（Text-to-Speech, TTS）の学習にも非常に有効です。例えば、面接練習用のAIで、リアルな緊張感を伴う話し方を再現したり、特定のトーンに特化した音声変換モデルを開発したりする際のベースデータとして活用できます。

【産業用途】Web会議システム向けバーチャル背景・ライティング補正の検証

オンライン面接で一般的なバストアップ構図の動画データは、Web会議システムにおける技術開発にも応用可能です。人物の輪郭を正確に抽出する「セグメンテーション」技術や、肌の質感を自然に補正する「画質向上アルゴリズム」の精度評価に利用することで、より高品質で快適なオンラインコミュニケーション環境の実現に貢献します。

『Qlean Dataset（キュリンデータセット）』について

「Qlean Dataset」は、Visual Bank傘下の株式会社アマナイメージズが提供する、商用利用可能なAI学習用データソリューションです。AI開発の現場で必要とされる様々な形式のデータ（画像、動画、音声、3D、テキストなど）を、研究用途でも商用用途でも安全に利用できる形で提供しています。

特に注目すべきは、独自のデータラインナップ「AIデータレシピ」です。これは、国内・海外のデータホルダーやラジオ局、新聞社、通信社といったメディアとの協業を通じて継続的に拡充されており、業界特化型や最新トレンドに即した多様なデータを提供しています。

Qlean Datasetは、AI開発におけるデータ収集や整備にかかる負荷を軽減し、著作権や肖像権などの「権利クリア」な、法的リスクのないAI開発環境の構築を支援することで、開発者が安心してAIプロジェクトを進められるようサポートします。これは、AI開発における法的トラブルを未然に防ぎ、社会実装を加速させる上で非常に重要な要素です。

Qlean Datasetサイト: https://qleandataset.visual-bank.co.jp/
AIデータレシピ: https://qleandataset.visual-bank.co.jp/lineup

『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴

すべての被写体から同意取得: 肖像権などの権利処理が適切に行われているため、商用利用も安心して行えます。
既存データは最短1日で納品可能: 迅速なデータ提供により、AI開発のスピードアップに貢献します。
カスタム撮影・収録・収集による独自データ構築にも対応: 特定のニーズに合わせたオーダーメイドのデータセット作成も可能です。

お問い合わせ: https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業です。

同社は、漫画家をサポートするAI補助ツール『THE PEN』や、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持ち、幅広い事業を展開しています。

また、Visual Bankは、国の研究開発プログラム「GENIAC」にも採択されており、社会実装を見据えた先進的なAI技術の研究開発に取り組んでいます。このような取り組みを通じて、日本のAI産業の発展に大きく貢献していくことが期待されます。

Visual Bank企業URL: https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/

まとめ：HRテックの未来を切り拓くAI学習用データ

「日本人・新卒採用選考の自己PR動画データセット」の提供開始は、HRテック分野におけるAI開発に新たな可能性をもたらします。オンライン面接や動画選考が当たり前になった現代において、候補者の言葉だけでなく、表情や声のトーンといった非言語情報まで含めて総合的に評価できるAIの需要は高まる一方です。

このデータセットは、AIが人間のような多角的な視点を持つことを可能にし、より公平で効率的な採用活動を実現するための基盤となるでしょう。AI初心者の方も、このデータセットがどのようにAIの「学び」を支え、私たちの社会をより良くしていくのか、その可能性を感じていただけたのではないでしょうか。

Visual Bank株式会社とQlean Datasetは、今後も日本の多種多様なシーンを捉えた構造データの提供を通じて、人物の振る舞いを正確に理解・解析するAIの研究・開発を支援し、AIが社会に深く浸透する未来を創造していくことでしょう。HRテック領域だけでなく、様々な産業でのAI活用がさらに加速していくことが期待されます。

AI技術の進化は、私たちの働き方や社会のあり方を大きく変える力を持っています。その進化を支えるデータセットの重要性は、今後ますます高まっていくことでしょう。