ブログ一覧に戻る
AIWhisper音声認識機械学習トランスフォーマー

AI音声認識の仕組み入門:なぜWhisperは日本語を正確に認識できるのか

2026年4月10日10分で読めます

「AI音声認識はなぜあんなに正確なの?」——Kaigi AIを使っていると、そんな疑問が湧くことがあるかもしれません。

この記事では、音声認識の仕組みを技術的な背景から丁寧に解説します。エンジニアでなくても理解できるよう、図式的な説明を心がけます。

音声認識の全体像:3つのステップ

音声→テキストの変換は、大きく3つのステップで行われます。

音声波形 → 特徴量抽出 → 言語モデル → テキスト
(生の音) (メルスペクトログラム) (Transformer) (文字)

それぞれを順番に見ていきましょう。


ステップ1:音声の特徴量抽出

音声は「波」

音声は空気の振動です。マイクはこの振動を電気信号に変え、コンピュータは「時間×振幅」のデータとして保存します。これが波形(waveform)です。

人間の声の周波数範囲は約80Hz〜3,400Hz。音楽は20Hz〜20,000Hzに及びます。

フーリエ変換:周波数の分解

波形だけでは「どんな音が混ざっているか」がわかりません。フーリエ変換(Fourier Transform)を使うと、複合的な波を各周波数の成分に分解できます。

例えば「あ」という音は:

  • 基音(100〜200Hz)
  • 倍音(200〜2,000Hz)
  • 摩擦音成分

の組み合わせです。

メルスペクトログラム

人間の耳は低音と高音で感度が違います(低音の方が変化を敏感に感じる)。この人間の聴覚特性に合わせて変換したものがメルスケールです。

時間軸 × 周波数軸 × 音の強さ(色)で表現した2次元画像がメルスペクトログラムです。音声認識AIは、音声をこの「画像」として処理します。


ステップ2:Transformerモデルによる認識

なぜTransformerが革命的だったか

2017年にGoogleが発表した「Attention Is All You Need」論文は、自然言語処理を根本から変えました。

従来のRNN(再帰型ニューラルネット)は:

  • 文章を左から右に順番に処理
  • 長い文になると最初の情報を「忘れ」やすい

TransformerのSelf-Attentionは:

  • 文章全体を同時に見る
  • どの単語が他のどの単語と関係しているか重みを計算
  • 「私は彼女を愛している」→「彼女」が「私」の目的語であることを認識

Whisperのアーキテクチャ

WhisperはEncoder-Decoder型Transformerです:

音声(メルスペクトログラム)
         ↓
    [Encoder]          ← 音声の特徴を理解する
         ↓
    [Decoder]          ← テキストを生成する
         ↓
    「会議を始めます」

Encoderの役割:

  • メルスペクトログラムから音声パターンを抽出
  • 音素(音の最小単位)を認識
  • 文脈を理解

Decoderの役割:

  • Encoderの出力を受け取り、テキストを1文字ずつ生成
  • 言語モデルとして「この音の次に来そうな文字」を予測
  • 日本語なら漢字・ひらがな・カタカナを適切に選択

ステップ3:言語モデルの役割

音声認識は「聞こえた音」だけでなく「文脈から予測される言葉」も使います。

例えば:

  • 「会議のぎじろくを作成する」→「議事録」(○) vs「擬似録」(×)

音だけでは区別できなくても、言語モデルが「会議という文脈では議事録の方が自然」と判断します。

Whisperのトレーニングデータ

Whisperは680,000時間の音声データでトレーニングされています。

データ種別割合
英語約65%
その他言語(98言語)約35%
日本語推定2〜3%

日本語は全体の2〜3%ですが、それでも約13,000〜20,000時間の日本語音声データです。NHKのドキュメンタリー、YouTube動画、ポッドキャストなど多様なソースから収集されています。


なぜWhisperは日本語に強いのか

1. マルチリンガルトレーニング

Whisperは多言語を同時に学習しています。英語での学習が日本語認識にも波及する「言語間転移学習(cross-lingual transfer)」が起きています。

2. テキスト正規化

Whisperは日本語テキストの正規化処理も組み込まれています:

  • 全角・半角の統一
  • 漢字変換の最適化
  • 句読点の自動追加

3. 文脈ウィンドウ

Whisperは音声を30秒ごとのチャンクで処理しますが、前のチャンクのテキストを文脈として使います。会話の流れを維持できるため、長い文章での精度が高い。

4. Timestamp精度

単語レベルのタイムスタンプ生成機能により、どの発言がいつ行われたかを正確に特定できます。これは話者識別(Speaker Diarization)と組み合わせる際に重要です。


Whisper large-v3 vs. 小さいモデルの比較

Whisperには複数のサイズがあります:

モデルパラメータ数相対速度日本語WER
tiny39M32×18.4%
base74M16×12.1%
small244M8.3%
medium769M5.6%
large-v31,550M3.2%

large-v3の圧倒的な精度は、単純にパラメータ数(学習できる情報量)が多いためです。

ただし、処理速度はtinyの約1/32。リアルタイム処理には小さいモデルを使い、事後処理では精度優先でlarge-v3を使う、という使い分けが一般的です。


音声認識の限界と今後

現状の課題

話者識別(Speaker Diarization): 誰が話しているかを識別する技術は、Whisperではなくpyannoteなどの別モデルが必要です。複数人の会議録音では「誰が何を言ったか」の分離が課題。

方言・訛り: 関西弁・東北弁・九州弁などは標準語より精度が若干落ちます。研究は進んでいますが、完全な解決には至っていません。

専門用語(未知語): 医療・法律・最新IT用語など、トレーニングデータに少ない単語は誤認識しやすい。プロンプトによる事前ヒント(Whisperのinitial_promptパラメータ)で改善可能。

重なり合う発言: 複数人が同時に話すと認識精度が大幅に低下します。会議でのルール(「一人ずつ話す」)が重要。

今後のトレンド

  • マルチモーダル音声認識: 映像(口の動き)と音声を組み合わせた認識
  • エンドツーエンド話者識別: 音声認識と話者識別の一体化
  • リアルタイムlarge-v3: ハードウェア最適化によるリアルタイム高精度化

まとめ

AI音声認識の仕組みをまとめると:

  1. 音声 → メルスペクトログラム(人間の聴覚に合わせた周波数表現に変換)
  2. Transformer Encoder(音声パターンを理解)
  3. Transformer Decoder + 言語モデル(文脈を考慮してテキストを生成)

Whisperが日本語に強い理由:

  • 680,000時間の大規模多言語学習
  • 言語間転移学習の恩恵
  • 日本語固有の正規化処理
  • large-v3の15.5億パラメータによる高い表現力

AI音声認識は2022年のWhisper登場以来、急速に精度が向上しています。今後も大規模言語モデルとの統合が進み、さらに高精度・多機能になっていくでしょう。

Kaigi AIを無料で試してみませんか?

月60分まで無料。クレジットカード不要。30秒で登録完了。

無料で始める