🎤 リアルタイム音声テキスト化
マイクで話した内容がリアルタイムでテキスト化されます
🎙️ 通話開始
⏹️ 通話終了
待機中
💡 ヒント(hotwords)
ヒント(hotwords)は「この語を出したい」をサーバーに伝える機能です。認識そのもの(候補の優先度)に影響します。
※「正規化」は出力テキストの整形であり、ヒントとは役割が異なります。
電話番号補助(parakeet)
送信
調整(テスト用)
閉じる
ここで変更した値はサーバーに
settings
として送信されます。通話開始前に設定しておくと確実です(通話中の変更も可能)。
途中結果(PARTIAL)
有効
有効にすると体感の反応は良くなりますが、推論回数が増えるためCPU負荷が上がることがあります(本サーバーのデフォルトは負荷対策でOFF)。
正規化(表記ゆれの整形)
有効
認識結果を「読みやすい表記」に整える後処理です(例: 空白/記号/全角半角など)。
ヒント(hotwords)は「何を認識したいか」を誘導、正規化は「出力の表記」を整形、という違いです。
数値補助(k2+補助)
off(補助しない)
final(FINALで補助結果を返す)
patch(k2の後に修正メッセージを送る)
電話番号や数字の読み取りを改善したい場合に調整します。用途によっては副作用(過補正)もあり得ます。
ノイズ除去(noisereduce)
有効
ガヤガヤ環境向け。CPU負荷と遅延が増える可能性があります(まずはOFF→必要時だけONがおすすめ)。
ノイズ除去の強さ
0.80
0に近いほど弱く、1に近いほど強い除去(音声が痩せる/歪む可能性)になります。
定常ノイズ想定
有効
空調・PCファンなど一定のノイズならONが有利なことが多いです。人混みなど変動が大きい場合はOFFも検討。
バンドパス(VAD用)
有効
低周波の雑音や高周波ノイズを抑えて「発話/無音」の判定を安定させます。現在の帯域はサーバー設定に従います。
適応VAD倍率
無音時のノイズ床(平均エネルギー)×倍率をしきい値として使います。大きいほど誤検出は減る一方、発話の取りこぼしが増えます。
サーバー適用値
未接続
接続直後(ready)と settings 送信後(settings_applied)に更新されます。
設定送信
📝 テキスト化結果
途中結果(PARTIAL)
(まだありません)
「通話開始」ボタンを押してマイクに向かって話してください
経過時間
00:00
送信回数
0