Grok STT の単語レベルのタイムスタンプと話者分離はポッドキャスト編集者にとって必須だが、WERデータは自己完結型であり、第三者による再測定を待っている。

GROK-6.7%
STT-2.31%
原文表示
MeNews
xAIがGrokのSTTとTTS音声APIを公開、STTの全体的な誤認識率を6.9%に抑制
ME Newsによると、xAIは2つの独立した音声API:Grok STTとGrok TTSをリリースしました。これらは同じ音声スタックに由来し、Grok Voice、テスラ車載システム、Starlinkカスタマーサポートなどをサポートします。STTはRESTバッチ転写とWebSocketリアルタイムストリームを提供し、単語レベルのタイムスタンプ、話者分離、多チャンネル、逆テキスト正規化を備え、25以上の言語をカバーします。TTSは感情と韻律のインラインタグをサポートします。また、WER比較も公開されており、Grokは多くのシナリオでリードしていますが、第三者による再検証はまだありません。価格設定は、STTバッチ処理が0.10ドル/時間、ストリーミングが0.20ドル/時間、TTSは100万文字あたり4.20ドルです。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-dd0c6b87
· 10時間前
全くの別物だ、騙すな
原文表示返信0