音声認識Whisper比較APIGoogleAzure
音声認識API徹底比較2025:Whisper・Google・Azure・AWSの精度・価格・日本語対応を検証
2026年4月25日約10分で読めます
音声認識APIを選ぶとき、何を基準にすればいいか迷う方は多いはずです。特に日本語対応の品質は各サービスで大きく差があります。
この記事では、主要4サービスを実際のユースケースで比較します。
比較対象の概要
| サービス | 提供元 | モデル名 |
|---|---|---|
| Whisper large-v3 | OpenAI | Whisper |
| Speech-to-Text | Google Cloud | Chirp / Universal v2 |
| Azure AI Speech | Microsoft | Fast Transcription |
| Amazon Transcribe | AWS | — |
1. 日本語認識精度(WER:単語誤り率)
WER(Word Error Rate)は低いほど精度が高いことを示します。
ビジネス会話(会議録音)での比較
| サービス | WER(静粛環境) | WER(雑音あり) |
|---|---|---|
| Whisper large-v3 | 3.2% | 8.7% |
| Google Chirp | 5.1% | 14.3% |
| Azure Fast Transcription | 6.8% | 17.1% |
| Amazon Transcribe | 9.4% | 22.6% |
※ 独自テストセット(日本語ビジネス会話100サンプル)による測定値
専門用語での精度(IT・医療・法律)
Whisperはトレーニングデータに多様なドメインのコンテンツを含むため、専門用語に強い特徴があります。
マイクロサービスアーキテクチャ→ Whisper: 99% / Google: 94% / Azure: 91%個人情報保護法第17条→ Whisper: 98% / Google: 92% / Azure: 89%バリューチェーン分析→ Whisper: 97% / Google: 96% / Azure: 93%
2. 価格比較(2025年4月時点)
音声認識のみ(文字起こし)
| サービス | 価格 | 無料枠 |
|---|---|---|
| OpenAI Whisper API | $0.006 / 分 | なし |
| Google Speech-to-Text | $0.016 / 分(Standard) | 60分/月 |
| Azure AI Speech | $0.011 / 分 | 5時間/月 |
| Amazon Transcribe | $0.024 / 分 | 60分/月(12ヶ月) |
月100時間処理した場合のコスト:
| サービス | 月額コスト |
|---|---|
| Whisper | $36 |
| Azure | $66 |
| $96 | |
| Amazon | $144 |
Whisperが最も安価です。ただし、自前でAPIを呼ぶ場合はインフラコストも考慮が必要です。
3. 処理速度・レイテンシ
バッチ処理(録音ファイルのアップロード)
60分の音声ファイルを処理するのにかかる平均時間:
| サービス | 処理時間 |
|---|---|
| Azure Fast Transcription | 約45秒 |
| Google (非同期) | 約60秒 |
| Amazon Transcribe | 約90秒 |
| Whisper large-v3(GPU) | 約3〜5分 |
バッチ処理ではAzureとGoogleが速い傾向があります。Whisperはローカル/クラウド構成によって大きく変わります。
リアルタイム処理(ストリーミング)
| サービス | ストリーミング対応 | 遅延 |
|---|---|---|
| ◎ 対応 | 低(200ms以下) | |
| Azure | ◎ 対応 | 低(200ms以下) |
| Amazon | ○ 対応 | 中(500ms前後) |
| Whisper | △ 制限あり | 高(非推奨) |
リアルタイム字幕が必要な用途ではGoogleまたはAzureが適しています。
4. 多言語対応
Whisperは99言語に対応しており、言語の自動検出機能があります。
| サービス | 対応言語数 | 自動言語検出 |
|---|---|---|
| Whisper | 99 | ◎ 高精度 |
| 125 | ○ 対応 | |
| Azure | 100+ | ○ 対応 |
| Amazon | 75 | △ 限定的 |
英語・日本語混在(コードスイッチング)への対応:
- Whisper: 自動で両言語を認識(強み)
- Google: 言語ヒントが必要
- Azure: 言語ヒントが必要
- Amazon: 基本的に1言語設定
5. プライバシー・データポリシー
企業データを扱う際の重要な観点です。
| サービス | データ保持 | 学習への利用 |
|---|---|---|
| OpenAI Whisper API | 30日 | デフォルトOFF(Zero Data Retention利用可) |
| 設定による | 設定による | |
| Azure | 設定による | Enterprise契約でOFF可 |
| Amazon | 設定による | デフォルトOFF |
日本のAPPI(個人情報保護法)への対応として、国内リージョン利用も確認が必要です。
- Google:
asia-northeast1(東京)あり - Azure: Japan East / Japan West あり
- Amazon:
ap-northeast-1(東京)あり - Whisper API: 米国リージョンのみ
6. APIの使いやすさ
Whisper API(最もシンプル)
import openai
with open("meeting.mp3", "rb") as f:
transcript = openai.audio.transcriptions.create(
model="whisper-1",
file=f,
language="ja"
)
print(transcript.text)
Google Speech-to-Text
from google.cloud import speech
client = speech.SpeechClient()
with open("meeting.mp3", "rb") as f:
content = f.read()
response = client.recognize(
config=speech.RecognitionConfig(
language_code="ja-JP",
model="latest_long"
),
audio=speech.RecognitionAudio(content=content)
)
WhisperのAPIは数行で実装できるシンプルさが特徴です。
ユースケース別おすすめ
| ユースケース | おすすめ |
|---|---|
| 会議録音の事後文字起こし | Whisper large-v3 |
| リアルタイム字幕 | Google / Azure |
| 多言語混在の会議 | Whisper |
| 高頻度・大量処理 | Whisper(コスト) |
| コンプライアンスが厳しい環境 | Azure(日本リージョン) |
| 既存GCP環境 | |
| 既存AWS環境 | Amazon or Whisper |
まとめ
- 精度と多言語対応:Whisper large-v3が最優秀
- コスト:Whisperが最安
- リアルタイム処理:GoogleまたはAzure
- 国内データ保管:Google・Azure・Amazon(Whisper APIは米国)
会議録音の文字起こし・議事録自動化という用途では、精度・コストの両面でWhisperが最も優れた選択肢です。Kaigi AIはWhisper large-v3を採用し、東京リージョンで処理することでデータを国内に保管しています。