AIが「似ている」を科学する!日本テレビ『モノマネMONSTER』を支えるクインティアの独自音声解析技術

エンターテインメントの世界にAIが新たな風を吹き込んでいます。株式会社クインティアは、日本テレビ放送網株式会社(以下、日本テレビ)の人気バラエティ番組『モノマネMONSTER』に、独自のAI採点技術を提供しました。この技術は、歌声モノマネの「似ている」度合いを、声質やビブラートといった様々な要素から科学的に数値化するものです。開発着手からわずか1ヶ月という驚異的なスピードで構築されたこのシステムは、番組の本番収録で実際に使用され、その技術力の高さが証明されました。
歌モノマネ評価の常識を変えるAI技術
これまで、歌モノマネ番組における「似具合」の評価は、審査員や観客の経験や感覚に頼る、いわゆる主観的なものが主流でした。しかし、クインティアが開発したこのAI採点技術は、その主観的な評価に客観的なスコアという新たな指標をもたらします。
AIが提供する客観的なスコアは、審査員による採点と組み合わせることで、番組の演出に深みと説得力を与えることに成功しました。視聴者は、単に「似ている」と感じるだけでなく、何がどのように似ているのかを数値で理解できるようになり、モノマネの楽しみ方が一層広がるでしょう。
「歌声モノマネ採点AI」の驚くべき特徴
クインティアが提供する「歌声モノマネ採点AI」は、一般的なカラオケ採点システムとは一線を画します。一般的なカラオケ採点が主に音程やリズムといった「歌唱力」を評価するのに対し、このAIは「歌声がどれだけ本人に似ているか」という、より複雑で高度な分析に特化しています。
具体的に、このAIがどのような特徴を持っているのかを詳しく見ていきましょう。
1. 多角的な特徴量分析で歌声を徹底解剖
このAIは、歌声を多角的に分析し、その特徴を数値化します。分析される主な要素は以下の通りです。
-
声質(timbre):声の「色」や「個性」とも言える部分です。例えば、低い声か高い声か、ハスキーかクリアか、といった声の基本的な特徴を捉えます。
-
しゃくり(pitch scoop):歌い始めや歌の途中で、低い音から目的の音程へ滑らかに持ち上げる歌唱テクニックです。モノマネでは、原曲アーティスト特有のしゃくりの癖を捉えることが重要になります。
-
ビブラート:音を長く伸ばす際に、その音程を細かく揺らす歌唱テクニックです。ビブラートの速さ、深さ、安定性などが分析対象となります。
-
抑揚(ダイナミクス):歌の音量の大小や強弱の変化のことです。感情表現に深く関わる要素であり、モノマネでは原曲アーティストの抑揚のつけ方を再現できているかが評価されます。
-
波形特徴量:音の波形そのものから抽出される様々な物理的な特徴です。声質の細かな違いや、特定の音の出し方などを捉えるのに役立ちます。
これらの要素を総合的に解析することで、AIは歌声の「似ている」度合いを詳細に評価します。
2. DTW(Dynamic Time Warping)を活用した柔軟な比較
歌モノマネでは、歌い手によって歌い出しのタイミングやテンポが多少異なることがあります。このような違いがあると、単純な比較では正確な評価が難しくなります。
そこで、「歌声モノマネ採点AI」は、DTW(Dynamic Time Warping)という技術を活用しています。DTWは、時間軸がずれている二つの波形(この場合は歌声のデータ)を最も効率的に比較するためのアルゴリズムです。これにより、歌い出しのタイミングやテンポの違いを吸収し、演者ごとの歌唱スタイルに差があっても、正確な比較と類似度の算出が可能になります。AI初心者の方にとっては少し難しく感じるかもしれませんが、簡単に言えば「多少タイミングがずれても、ちゃんと比較してくれる賢い技術」と考えると良いでしょう。
3. 放送現場仕様に最適化された実用性
テレビ番組の収録現場という特殊な環境で安定して稼働するためには、高い実用性が求められます。このAIシステムは、以下の点で放送現場に最適化されています。
-
音源分離:観客の歓声やスタジオの残響など、複雑な音響環境下でも、モノマネ対象の歌声だけを高い精度で抽出する技術です。これにより、ノイズに邪魔されることなく正確な分析が可能になります。
-
高速処理:番組収録の進行を妨げないよう、リアルタイムに近い迅速なスコア出力が実現されています。出演者が歌い終わってすぐに結果が表示されることで、番組のテンポが損なわれることはありません。
-
演出連動:収録現場のモニターにGUI(グラフィカルユーザーインターフェース)で採点結果を表示したり、番組演出に適したデータ形式で出力したりするなど、制作現場のニーズに合わせた柔軟な対応が可能です。

この画像は、モノマネ度判定AIの分析結果を示すダッシュボードの例です。総合類似度だけでなく、歌い方や声質、さらにビブラートやしゃくり、抑揚といった詳細な要素が数値とグラフで分かりやすく表示されており、AIがどのように「似ている」を評価しているかが一目で理解できます。
短期構築を可能にしたクインティアの技術力とパートナーシップ
このような高性能なAIシステムをわずか1ヶ月で構築できた背景には、クインティアが長年培ってきた独自の技術力と、強力なパートナーシップがあります。
独自開発のモジュール化された音声解析エンジン
クインティアは、音源分離、特徴量抽出、類似度算出など、音声解析に必要な様々な機能をモジュール化(部品化)した独自のエンジンを保有しています。これにより、今回の「歌声モノマネ採点AI」のように、特定の目的に合わせて必要なモジュールを迅速に組み合わせ、再構成することが可能となりました。ゼロから開発するよりも大幅な時間短縮が実現できたのは、このモジュール化されたエンジンの恩恵と言えるでしょう。
強力な開発パートナー「株式会社クロノキャスト」との連携
アプリケーション構築においては、開発パートナーである株式会社クロノキャストと連携しました。制作現場が求める高度なUI/UX(ユーザーインターフェース/ユーザーエクスペリエンス)と、システムとしての安定性を短期間で確保できたのは、両社の緊密な協力体制があったからこそです。
今後の展望:放送業界のDXと演出の拡張
今回の日本テレビへのAI技術導入は、AIが単なる業務効率化のツールに留まらず、視聴体験に新たな客観的指標を加える「演出の拡張」に大きく貢献することを実証しました。
クインティアは今後も、日本テレビをはじめとする放送局やメディア事業者とのパートナーシップを強化していく方針です。音声・映像解析、字幕生成、視聴者参加型コンテンツなど、放送領域におけるDX(デジタルトランスフォーメーション)を推進し、AI技術を活用した新しいエンターテインメントの形を提案していくことでしょう。きっと、AIがより多くの番組で活用され、視聴者にとってさらに魅力的でインタラクティブな体験が生まれることが期待されます。
株式会社クインティアについて

株式会社クインティアは、2021年9月に設立された、東京都中央区銀座に本社を置く技術企業です。AI・DX導入支援、放送システム開発、技術顧問サービスなどを展開しており、AI技術やAWS環境構築に強みを持っています。放送局の効率化支援など、最先端の技術で企業のDXを支援するプロフェッショナル集団として活動しています。
-
本社所在地:東京都中央区銀座1丁目12番4号 N&E BLD. 6F
-
代表取締役:占部 竣平
-
設立年月日:2021年9月8日
-
資本金:1,000万円
-
従業員数:10名
-
コーポレートサイト:https://www.quintia.co.jp
本件に関するお問い合わせ
株式会社クインティア
担当:経営管理部 小山田
E-mail:info@quintia.co.jp

