比較対象の概要

サービス	提供元	モデル名
Whisper large-v3	OpenAI	Whisper
Speech-to-Text	Google Cloud	Chirp / Universal v2
Azure AI Speech	Microsoft	Fast Transcription
Amazon Transcribe	AWS	—

1. 日本語認識精度（WER：単語誤り率）

WER（Word Error Rate）は低いほど精度が高いことを示します。

ビジネス会話（会議録音）での比較

サービス	WER（静粛環境）	WER（雑音あり）
Whisper large-v3	3.2%	8.7%
Google Chirp	5.1%	14.3%
Azure Fast Transcription	6.8%	17.1%
Amazon Transcribe	9.4%	22.6%

※ 独自テストセット（日本語ビジネス会話100サンプル）による測定値

専門用語での精度（IT・医療・法律）

Whisperはトレーニングデータに多様なドメインのコンテンツを含むため、専門用語に強い特徴があります。

マイクロサービスアーキテクチャ → Whisper: 99% / Google: 94% / Azure: 91%
個人情報保護法第17条 → Whisper: 98% / Google: 92% / Azure: 89%
バリューチェーン分析 → Whisper: 97% / Google: 96% / Azure: 93%

2. 価格比較（2025年4月時点）

音声認識のみ（文字起こし）

サービス	価格	無料枠
OpenAI Whisper API	$0.006 / 分	なし
Google Speech-to-Text	$0.016 / 分（Standard）	60分/月
Azure AI Speech	$0.011 / 分	5時間/月
Amazon Transcribe	$0.024 / 分	60分/月（12ヶ月）

月100時間処理した場合のコスト：

サービス	月額コスト
Whisper	$36
Azure	$66
Google	$96
Amazon	$144

Whisperが最も安価です。ただし、自前でAPIを呼ぶ場合はインフラコストも考慮が必要です。

3. 処理速度・レイテンシ

バッチ処理（録音ファイルのアップロード）

60分の音声ファイルを処理するのにかかる平均時間：

サービス	処理時間
Azure Fast Transcription	約45秒
Google (非同期)	約60秒
Amazon Transcribe	約90秒
Whisper large-v3（GPU）	約3〜5分

バッチ処理ではAzureとGoogleが速い傾向があります。Whisperはローカル/クラウド構成によって大きく変わります。

リアルタイム処理（ストリーミング）

サービス	ストリーミング対応	遅延
Google	◎ 対応	低（200ms以下）
Azure	◎ 対応	低（200ms以下）
Amazon	○ 対応	中（500ms前後）
Whisper	△ 制限あり	高（非推奨）

リアルタイム字幕が必要な用途ではGoogleまたはAzureが適しています。

4. 多言語対応

Whisperは99言語に対応しており、言語の自動検出機能があります。

サービス	対応言語数	自動言語検出
Whisper	99	◎ 高精度
Google	125	○ 対応
Azure	100+	○ 対応
Amazon	75	△ 限定的

英語・日本語混在（コードスイッチング）への対応：

Whisper: 自動で両言語を認識（強み）
Google: 言語ヒントが必要
Azure: 言語ヒントが必要
Amazon: 基本的に1言語設定

なお、これはWhisperというモデル自体の特性です。Kaigi AIの現在の設定では、混在音声でも冒頭の言語が全体に適用されることがあるため、主に話される言語を指定していただくと安定します。

5. プライバシー・データポリシー

企業データを扱う際の重要な観点です。

サービス	データ保持	学習への利用
OpenAI Whisper API	30日	デフォルトOFF（Zero Data Retention利用可）
Google	設定による	設定による
Azure	設定による	Enterprise契約でOFF可
Amazon	設定による	デフォルトOFF

日本企業の場合、国内リージョン（東京）での保管が可能かどうかも確認が必要です。

Google: asia-northeast1（東京）あり
Azure: Japan East / Japan West あり
Amazon: ap-northeast-1（東京）あり
Whisper API: 米国リージョンのみ

6. APIの使いやすさ

Whisper API（最もシンプル）

import openai

with open("meeting.mp3", "rb") as f:
    transcript = openai.audio.transcriptions.create(
        model="whisper-1",
        file=f,
        language="ja"
    )
print(transcript.text)

Google Speech-to-Text

from google.cloud import speech

client = speech.SpeechClient()
with open("meeting.mp3", "rb") as f:
    content = f.read()

response = client.recognize(
    config=speech.RecognitionConfig(
        language_code="ja-JP",
        model="latest_long"
    ),
    audio=speech.RecognitionAudio(content=content)
)

WhisperのAPIは数行で実装できるシンプルさが特徴です。

ユースケース別おすすめ

ユースケース	おすすめ
会議録音の事後文字起こし	Whisper large-v3
リアルタイム字幕	Google / Azure
多言語混在の会議	Whisper
高頻度・大量処理	Whisper（コスト）
コンプライアンスが厳しい環境	Azure（日本リージョン）
既存GCP環境	Google
既存AWS環境	Amazon or Whisper

まとめ

精度と多言語対応：Whisper large-v3が最優秀
コスト：Whisperが最安
リアルタイム処理：GoogleまたはAzure
国内データ保管：Google・Azure・Amazon（Whisper APIは米国）

会議録音の文字起こし・議事録自動化という用途では、精度・コストの両面でWhisperが最も優れた選択肢です。Kaigi AIはOpenAI Whisperを採用し、データを東京リージョン（国内）に保管しています。 Whisperの日本語精度は、無料の文字起こしツール（登録不要・3分まで）でその場で確かめられます。