Rechoの音声AI技術がグローバルで最高水準を達成!文字誤り率1%以下の精度で未来の対話を開拓
AI技術の進化が目覚ましい現代において、音声AIは私たちの生活やビジネスに大きな変革をもたらそうとしています。そんな中、株式会社Recho(レコー)が、独自開発の音声合成(Text-to-Speech、以下TTS)および音声認識(Automatic Speech Recognition、以下ASR)モデルにおいて、世界トップクラスの性能を達成したことを発表しました。
これにより、Rechoの技術が世界的なプロダクトと比較しても同等、あるいはそれ以上の水準にあることが客観的に示されています。特に、文字誤り率(CER)1%以下という高い精度は、国内外のモデルと比較しても最高水準であり、日本発の技術がグローバル市場で競争力を持つことを証明しています。

Rechoの「Voice Agent」とは?人間レベルの対話を実現するAI
Rechoが開発する「Voice Agent」は、独自に培われた言語処理・音声技術を駆使し、まるで人間と話しているかのような高品質な対話を実現する音声AIプロダクトです。
従来のIVR(自動音声応答システム)やボイスボットは、定型的なやり取りや単一の質問にしか対応できないものが多く、問い合わせをする顧客側に負担を強いるという課題がありました。しかし、「Voice Agent」は文脈を理解し、顧客の問い合わせ内容を深く掘り下げて解決に導くことが可能です。これにより、顧客はストレスなくスムーズなコミュニケーションを行うことができ、企業側も対応の質を向上させることができます。
Rechoは、今回発表された高性能なTTSとASRの技術を基盤として、「Voice Agent」のさらなる開発と改善に力を入れています。
なぜRechoの音声AIが「最高水準」なのか?性能評価の詳細
Rechoの音声AIモデルが世界トップクラスの性能を達成した背景には、厳格な評価基準と独自の手法があります。ここでは、音声合成(TTS)と音声認識(ASR)それぞれの性能評価方法について詳しく見ていきましょう。
音声合成(TTS)の性能評価:自然さと正確さを追求
音声合成(TTS)は、文字情報を人間の声のような聞き取りやすい音声に変換する技術です。RechoのTTSモデルの評価では、実際の運用に近い多様なデータを用いて多角的な検証が行われました。
評価用の文章には、一般的な文章だけでなく、電話番号や品番のような数字・アルファベットを含む文章、住所や人名などの固有名詞を含む文章など、多岐にわたる種類が盛り込まれました。これにより、実用環境での性能を正確に測ることができたのです。
評価の結果、RechoTTSは主要な指標で非常に優れたスコアを記録しました。特に注目すべきは以下の点です。
-
文字誤り率(CER):音声認識や音声合成の評価で用いられる指標の一つで、認識結果の文字列と正解文字列がどれだけ異なるかを文字単位で算出します。この値が小さいほど精度が高いことを示します。RechoTTSは最小値を達成しました。
-
合成成功率(SSR):Rechoが独自に設定した指標で、人間が合成音声を聞いた際に、テキスト通り正しく読み上げられており、かつ人間の発話として違和感がない場合に1点として評価するものです。この値が大きいほど自然で高品質な音声であることを示し、RechoTTSは最も良いスコアを記録しました。
さらに、推論速度(音声が生成されるまでの時間)においても、ローカル環境と本番環境の両方で検証を行い、短文・長文に関わらず業界トップレベルの非常に優れた性能を示しました。話者類似度(声の特徴がどれだけ似ているか)の評価でも、複数の話者類似度モデルの平均値を取ることで客観的なスコアリングが行われ、高い類似性が確認されています。

上記の図は、RechoTTSが他の主要なTTSモデルと比較して、文字誤り率(CER)で0.88%と最も低く、合成成功率(SSR)で94%と最も高いスコアを達成していることを示しています。これは、Rechoの音声合成技術が非常に正確で自然な音声を生成できることを裏付けています。
音声認識(ASR)の性能評価:実践的な環境での高精度
音声認識(ASR)は、人間の発声を文字情報に変換する技術です。RechoのASRモデルの評価では、高品質なマイクで録音された音声データだけでなく、電話特有の雑音や他の人の発言などが含まれる、より実践的な音声データも用いて検証が行われました。これにより、実際の利用シーンに近い環境での性能を評価しています。
評価指標はTTSと同様に、音声とASRによる書き起こし結果との間のCER(文字誤り率)です。数字・日付・人名・住所などを含むRecho独自のデータセットが用いられ、これら固有名詞や数字の認識精度が厳しく評価されました。
さらに、ストリーミング性能と応答速度においても、業界一般の300ms(ミリ秒)と比較して約25%以下という優れた結果を示しました。これは、リアルタイムでのスムーズな対話を実現する上で非常に重要な要素です。

上記の図は、Recho ASRが他の主要なASRモデルと比較して、Product CER(実際のプロダクトの電話データを含む)で6.72%、Numbers 100 CER(番号や住所などの固有名詞を含む)で1.63%と、いずれも低い文字誤り率を達成していることを示しています。これは、Rechoの音声認識技術が実用環境において非常に高い精度を持つことを証明しています。
今後の展開:人手不足解消とグローバル市場への挑戦
Rechoの今回の技術は、すでに研究段階から実用段階へと移行しており、金融機関や大手プラットフォーマーをはじめとするエンタープライズ顧客への導入が進んでいます。
このベンチマーク結果は、日本発の技術がグローバル水準で十分に競争できることを示しています。音声AI領域ではこれまで海外のプレイヤーが先行していましたが、Rechoは国内市場でトップレベルの技術力を確立し、その品質が世界でも通用することを証明しました。
特に、コールセンター業界では深刻な人手不足が続いており、品質を維持しながら対応能力を拡大することが喫緊の課題となっています。これまでの音声AIの商用化が進まなかった背景には、日本語特有の「間」や「敬語表現」、業界特有の専門用語といった細部の品質が、実用水準に達していなかったことがあります。
Rechoは、この領域で妥協のない開発を継続し、業界トップレベルの品質を維持しながら、より多くのエンタープライズ顧客への展開を進めていく方針です。これにより、人手不足に悩む企業の課題解決に大きく貢献することが期待されます。
取締役 白 寧杰氏からのコメント
Rechoの取締役である白 寧杰氏は、今回の成果について次のようにコメントしています。
「研究機関のベンチマークと、実際の業務での適用可能性には隔たりがあります。私たちは、金融機関や官公庁といった厳しい品質基準を持つ顧客の皆様と向き合う中で、技術を磨いてまいりました。お客様が許容できない細部にこそ、本質的な課題があると考え、その解決に集中した結果が、今回の数字に表れています。Rechoは、日本からでもグローバル市場で勝負できることを証明し続けます。」
このコメントからも、Rechoが単なる技術開発に留まらず、実際のビジネス現場での課題解決に深くコミットしている姿勢がうかがえます。
用語解説:AI初心者にも分かりやすく
本記事で登場した専門用語について、AI初心者の方にも分かりやすく解説します。
音声合成(TTS:Text-to-Speech)とは
文字情報(テキスト)を、まるで人間が話しているかのような自然な音声に変換する技術のことです。昔のロボットのような機械的な声とは異なり、最近のTTSはイントネーションや感情まで再現できるようになり、非常に滑らかで聞き取りやすい音声が生成されます。
音声認識(ASR:Automatic Speech Recognition)とは
人間が話した音声(声)を、文字情報(テキスト)に変換する技術のことです。スマートフォンの音声アシスタントや、会議の議事録作成システムなどに利用されています。話し言葉を正確に聞き取り、書き起こすことが求められます。
文字誤り率(CER:Character Error Rate)とは
音声認識や音声合成の「正確さ」を測る指標の一つです。例えば、音声認識では、AIが聞き取って文字にした結果と、人間が正しく書き起こした文字を比較し、どれくらいの文字が間違っていたかをパーセンテージで表します。この数値が低いほど、AIの認識や合成が正確だということになります。特に、専門用語や固有名詞など、一文字の間違いが意味を大きく変えてしまう場合に重要な指標です。
合成成功率(SSR:Successful Synthesis Rate)とは
Rechoが独自に設定した、音声合成の「自然さ」と「正確さ」を測る指標です。合成された音声を聞いた人間が、「テキスト通りに正しく読み上げられているか」と「人間が話しているように自然か」の両方を評価します。テキストが正確でも、不自然な発音やノイズがあればスコアは下がります。この数値が高いほど、生成された音声が人間にとって違和感なく、高品質であると言えます。
Rechoは新たな仲間を募集しています
Rechoは、音声AI領域において世界水準の技術開発を推進しており、この最先端の環境で挑戦したいエンジニアを募集しています。基盤モデルの研究開発から、エンタープライズ顧客へのデリバリーまで、音声AIの未来を共に創る仲間を求めています。
求人一覧はこちらからご覧いただけます。
https://herp.careers/v1/recho

