エンジニア転職の常識を変える!Whisper × Claude APIで実現するAI面接官「Mentai」の5軸採点技術フローを徹底解説

AI面接でエンジニア転職を成功へ!WhisperとClaudeが実現する5軸採点AI面接官「Mentai」の革新技術を徹底解説

現代のエンジニア転職市場は、技術の進化とともに競争が激しくなっています。そんな中で、企業が候補者のスキルやポテンシャルを見極めるために最も重視するのが「面接」です。しかし、「面接対策」と一口に言っても、具体的に何をすれば良いのか悩む方も少なくないでしょう。

近年、ChatGPTのような生成AIの登場により、AIを使った模擬面接が手軽にできるようになりました。しかし、汎用的なAIでは、エンジニア採用で特に重視される「技術説明力」や「論理構造」といった専門的な評価基準に対応しきれないという課題がありました。例えば、「良い回答ですね」といった抽象的なコメントしか得られず、具体的な改善点が見えにくいといった経験をした方もいるかもしれません。

こうした課題に対し、株式会社X-HACKが開発したエンジニア特化AI面接練習Webアプリ「Mentai」は、革新的な解決策を提供しています。OpenAIの音声認識技術「Whisper API」と、AnthropicのAIフィードバック生成技術「Claude API」を組み合わせることで、単なるチャットではない、より実践的で具体的な「AI面接コーチ」の体験を実現しているのです。本記事では、Mentaiを支えるこの画期的な技術フローと、その詳細についてAI初心者にも分かりやすく解説していきます。

Mentaiとは?エンジニア特化AI面接練習アプリの誕生

株式会社X-HACKが提供する「Mentai」は、エンジニア転職を目指す方のために特別に設計されたAI面接練習Webアプリです。このアプリの最大の特徴は、一般的な面接対策ではなく、エンジニア採用に特化しているという点にあります。

エンジニアの面接では、単にコミュニケーション能力を問われるだけでなく、「自分の技術をどれだけ分かりやすく説明できるか」「課題解決に向けた思考プロセスを論理的に伝えられるか」「具体的な経験を交えて話せるか」など、専門的なスキルと経験に基づいた評価が求められます。汎用的なAIでは、これらのエンジニア特有の評価ポイントを深く掘り下げてフィードバックすることは困難でした。

Mentaiが「音声」での練習にこだわるのも、重要なポイントです。面接はテキストチャットではなく、実際に「話す」場です。頭の中で完璧にまとまった回答も、声に出してみると「えーと」「あの」といったフィラー(口癖)が増えたり、話の論理が崩れたり、時間配分がうまくいかなかったりすることがあります。こうした「話す力」に関する課題は、実際に声に出して練習しなければ気づきにくいものです。Mentaiは、ユーザーがマイクに向かって話すことで、本番の面接に限りなく近い環境を提供し、これらの課題を浮き彫りにします。

Mentaiのサービスはこちらから利用できます: https://mentai.recruit-hub.ai/

WhisperとClaudeの融合!面接官AIの驚くべき技術フロー

Mentaiでは、ユーザーが音声で回答してからAIによるフィードバックが返ってくるまでに、大きく3つのAI処理ステップを経ています。この技術フローこそが、Mentaiの高度なAI面接コーチングを可能にしています。

面接官AIの技術フロー

この画像は、Mentaiの技術フローを示しており、ユーザーの音声入力がOpenAI WhisperとAnthropic Claudeによって処理され、エンジニア採用に特化した5軸スコアとして評価される仕組みが概観できます。

ステップ1:音声録音(ブラウザ)

まず、ユーザーが話した声は、Webブラウザ上で「MediaRecorder API」という技術を使って録音されます。この技術のおかげで、専用のアプリをインストールする必要がなく、普段使っているWebブラウザだけで手軽に面接練習を開始できます。録音中には、画面に波形アニメーションが表示され、ユーザーは自分が「話している」という実感を持ちながら、安心して練習に取り組むことができます。

ステップ2:音声認識(OpenAI Whisper API)

録音された音声データは、次にサーバーに送られ、OpenAIが提供する高性能な音声認識技術「Whisper API」によって文字起こしされます。このステップは、後のAIフィードバックの質を大きく左右するため、非常に重要です。

エンジニアの面接では、「マイクロサービス」「CI/CD」「スクラム」といった専門用語が頻繁に登場します。一般的な音声認識システムでは、これらの専門用語が正確に認識されず、誤った文字起こしになることがあります。例えば、開発初期には「CI/CD」が「シーアイシーディー」とカタカナで認識される問題も発生したそうです。しかし、Whisper APIは高い精度を誇り、さらに「prompt」というパラメータに技術用語のリストを渡すことで、専門用語の誤認識を大幅に減らすことに成功しました。これにより、ユーザーの回答が正確にテキスト化され、その後のAI評価の精度が格段に向上しています。

ステップ3:AIフィードバック生成(Anthropic Claude API)

文字起こしされたテキストは、面接の質問文やユーザーの職種、経験レベル、業界といったプロフィール情報とともに、Anthropicの「Claude API」に送信されます。Claude APIは、単に文章の誤りを指摘する「添削」に留まりません。エンジニア面接に特化した独自の評価基準に基づき、詳細なフィードバックを生成する役割を担っています。

具体的には、以下の5つの評価軸でユーザーの回答をスコアリングし、良い点と改善点を具体的なコメントとして提示します。

  • 技術説明力:専門用語を適切に使えているか、技術的な概念を分かりやすく説明できているか、深い理解があるかなど。

  • 論理構造:回答が筋道立てて構成されているか、結論から話せているか、具体例と抽象論のバランスは適切かなど。

  • 具体性:経験や成果を話す際に、数値やチーム規模、具体的な状況を交えて説明できているかなど。抽象的な話に終始していないか。

  • 表現力:言葉遣いは適切か、相手に伝わりやすい表現か、説得力があるかなど。専門用語を使いすぎていないか、平易な言葉で説明できているか。

  • 流暢さ:話すテンポは適切か、「えーと」「あの」といったフィラーが少ないか、途中で言葉に詰まったり、論理が飛躍したりしていないかなど。

さらに、Claude APIは、質問のカテゴリ(例えば、技術課題系の質問、自己PR系の質問、志望動機系の質問など)に応じて、これらの5つの評価軸のウェイト(重み)を自動で調整します。これにより、「技術説明力を特に重視すべき質問」ではその軸の評価が重く、「表現力が問われる質問」では表現力の評価が重くなるなど、質問の意図に合った、より的確でパーソナライズされたAI面接対策フィードバックが実現されています。この多角的な評価により、ユーザーは自分の強みと弱みを詳細に把握し、効率的な改善につなげることができます。

ユーザー体験を追求したUXと評価設計

Mentaiは、単に高性能なAI技術を組み合わせただけでなく、ユーザーが快適に、そして効果的に面接練習を行えるよう、ユーザー体験(UX)と評価設計にも徹底的にこだわっています。

待ち時間を「面接の間」に変えるUX設計

AIによる音声認識やフィードバック生成には、どうしても数秒間の処理時間が発生します。Mentaiでは、このAI処理にかかる平均約10秒間(Whisper APIの音声認識に約2〜3秒、Claude APIのフィードバック生成に約5〜8秒)を、ユーザーにとって自然な「面接官が考えている時間」として捉え、体験の中に組み込んでいます。

実際の面接でも、面接官は候補者の回答を聞いた後、少し考える「間」があります。Mentaiでは、この「間」を再現するために、AI面接官が「考え中」を示すうなずきアニメーションを表示します。これにより、ユーザーは処理による待ち時間をストレスに感じることなく、まるで人間と対話しているかのようなリアルな面接体験を得られるのです。この細やかな配慮が、より実践的な練習環境を提供しています。

エンジニア採用の現場に合わせた5軸評価の設計

Mentaiの核となる5軸評価(技術説明力、論理構造、具体性、表現力、流暢さ)は、単なる思いつきで設計されたものではありません。実際にエンジニア採用の現場に携わる経験者への徹底的なヒアリングに基づいています。

開発当初は、評価軸を「技術力」「論理性」「表現力」の3つに絞ることも検討されたそうです。しかし、ヒアリングを通じて、「数値やチーム規模を交えて具体的に説明できるか」という具体性と、「フィラーの少なさや回答のテンポといった流暢さ」が、エンジニアの合否を分ける非常に重要なポイントであることが判明しました。この発見に基づき、評価軸を現在の5軸に拡張することで、より実践的で、実際の採用現場に即した評価が可能になりました。

さらに、前述の通り、質問の種類によって「技術説明力を重視すべき質問」や「表現力が問われる質問」といった形で、各評価軸の重み(ウェイト)を自動で調整する仕組みも導入されています。これにより、画一的なフィードバックではなく、ユーザーが回答した質問の意図に最も合った、きめ細やかなアドバイスを受けられるようになっています。

Mentaiを支える技術スタック

Mentaiの高度な機能は、最新かつ堅牢な技術スタックによって支えられています。主要な技術要素は以下の通りです。

  • フロントエンド: Next.js(TypeScript) – ユーザーインターフェースの構築、音声録音、フィードバック表示を担います。

  • バックエンド: Ruby on Rails(APIモード) – アプリケーションのビジネスロジックとAPIを提供します。

  • 音声認識: OpenAI Whisper API – ユーザーの音声をテキストに変換する役割を担います。

  • AI評価: Anthropic Claude API – 5軸採点と詳細なフィードバック生成を行います。

  • インフラ: AWS(ECS Fargate / RDS / CloudFront) – アプリケーションの本番環境を安定稼働させる基盤です。

  • 認証: Supabase Auth – ユーザーの認証・認可を安全に管理します。

これらの技術が連携し、Mentaiのシームレスで高機能なAI面接練習体験を実現しています。

今後の展望:さらなる進化を遂げるAI面接コーチ

株式会社X-HACKは、Mentaiのさらなる進化に向けて、意欲的な開発を進めています。現在のMentaiは、ユーザーが1問ずつ回答してフィードバックを得る形式ですが、今後はよりリアルな面接体験を提供するための機能が追加される予定です。

「面接モード」の開発

Anthropic Claude APIのストリーミング機能を活用し、AIがユーザーの回答内容を踏まえて、リアルタイムに深掘り質問を生成する「面接モード」の開発が進められています。これにより、本番の面接で感じる「突っ込まれる緊張感」をAIで再現し、より実践的な練習が可能になるでしょう。きっと、この機能はユーザーの面接対応力を飛躍的に向上させるはずです。

SNS連携機能

さらに、練習結果をX(旧Twitter)などのSNSで手軽にシェアできる連携機能の提供も開始されています。エンジニアの「自分のスキルやスコアを見せたい」という文化に合わせて、5軸スコアカードを簡単に共有できるようになります。この機能は、ユーザー同士の交流やモチベーション向上にも繋がるでしょう。詳細は次回のプレスリリースで改めて紹介される予定です。

まとめ

株式会社X-HACKが提供する「Mentai」は、OpenAI Whisper APIとAnthropic Claude APIを組み合わせることで、エンジニアの面接対策における新たなスタンダードを築きつつあります。高精度な音声認識と、エンジニア採用に特化した5軸評価による詳細なフィードバックは、従来のAI面接練習では得られなかった具体的な改善点を提供し、ユーザーの「話す力」と「伝える力」を総合的に強化します。

ユーザー体験を重視したUX設計や、実際の採用現場の声を反映した評価軸の設計など、細部にわたるこだわりが、Mentaiを単なるツールではなく、真の「AI面接コーチ」へと昇華させています。今後の「面接モード」やSNS連携機能の追加により、Mentaiはさらに進化し、エンジニアが自信を持って転職活動に臨むための強力なパートナーとなるでしょう。AI技術が個人のキャリア形成、特にエンジニアのスキルアップに貢献する可能性を、Mentaiは示しています。

株式会社X-HACKのコーポレートサイトはこちらです: https://x-hack.jp

タイトルとURLをコピーしました