Gate News記事、4月17日 — Googleは4月15日、感情表現と制御機能が強化された先進のテキスト読み上げモデルGemini 3.1 Flash TTSを公開しました。新モデルは、開発者API、エンタープライズ向けのVertex AI、そしてコラボレーションツールを通じて、段階的に展開されます。
モデルの中核機能には、微調整のための音声タグを自然言語ベースで指定して速度、イントネーション、感情を調整できることに加え、シーンやキャラクターの役割を指定してよりニュアンスのある音声出力を生成するための「Director Mode」が含まれます。マルチ話者機能により対話の同時生成が可能となり、ポッドキャスト、音声コンテンツ、AIアシスタントに適した、より自然な会話の流れを実現します。モデルは70以上の言語と方言に対応しており、地域ごとの訛りや表現を反映して、世界中でローカライズされた音声体験を提供することを示しています。
Googleは、パフォーマンスとコスト効率を強調し、Flashアーキテクチャによって計算コストを抑えつつ、ブラインドの人間評価ベンチマークで高いスコアを達成しました。生成される音声には、AI生成コンテンツを識別し誤情報と戦うためのSynthIDウォーターマーキングが含まれます。
この動きは、音声インターフェース分野での競争がいっそう激化していることを反映しています。OpenAIは、リアルタイムの音声機能を会話型AIと組み合わせ、人間らしいインタラクションを実現しようとしています。一方、Metaは、音声を使ったソーシャル体験を通じてAIキャラクターへの投資を拡大しています。業界の観測者は、現時点では高度な演技や創作といった領域は人が主導し続ける可能性があるものの、反復的で大規模な制作市場では、吹き替え、広告、オーディオブックの分野でAIの導入が段階的に進む可能性があると指摘しています。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
AIエージェントは、複雑な学術論文を独力で再現できるようになっている:Mollickは、誤りはAIではなく人間の原文に多いと述べている
Mollick は、公開された手法とデータだけで、AI agent が元の論文やコードがない状況でも複雑な研究を再現できると指摘している。再現が原論文と一致しない場合は、多くの場合 AI ではなく、論文自体のデータ処理の誤り、または結論の過度な解釈によるものだという。Claude はまず論文を再現し、その後 GPT‑5 Pro によるクロス検証を行い、多くは成功するが、データが大きすぎる場合や replication data の問題がある場合には阻まれることがある。この傾向は人力コストを大幅に下げ、再現が一般的に実行可能な検証となり得ることを示すとともに、査読やガバナンスの制度上の課題も提起しており、政府のガバナンスツール、あるいはそれに関連する事項が重要な論点となっている。
ChainNewsAbmedia1時間前
OpenAI、GPT-5.4を起点にCodexをメインモデルに統合し、独立したコーディング系統を終了
Gate News メッセージ、4月26日—OpenAIの開発者エクスペリエンス責任者ロマン・ユエ(Romain Huet)が、Xでの最近の声明の中で、同社が独立して保守してきた専用のコーディングモデル系列であるCodexが、GPT-5.4からメインモデルに統合され、今後は別個の
GateNews1時間前
SalesforceがAIプロダクト向けに卒業生・インターン1,000人を採用し、FY2026の売上高見通しを引き上げ
ゲートニュース、4月26日 — Salesforceは、AIソフトウェア事業を拡大する中で、AgentforceやHeadless360を含むAIプロダクトに取り組むために、卒業生およびインターンを1,000人採用すると発表した。CEOのMarc BenioffがXで明らかにした。
同社はまた、2026会計年度の売上高見通しを、US$41.45 bからUS$41.55 bの範囲へと引き上げた
GateNews1時間前
Alibaba Cloudが統合型のテキストから画像生成と編集を搭載したQwen-Image-2.0-Proを発表、多言語テキスト表示に対応
Gate Newsのメッセージ、4月26日 — Alibaba Cloud Bailianプラットフォームは、テキストから画像生成と画像編集を単一モデルで統合した、Qwen-Image-2.0シリーズの高機能版であるQwen-Image-2.0-Proをリリースしました。ユーザーは、自然言語コマンドを通じてツールを切り替えることなく、オブジェクト、テキスト、スタイルを直接変更できます。
GateNews3時間前
DeepSeek V4-Pro APIが5月5日まで75%割引、出力価格は100万トークンあたり$0.87に低下
Gateニュースメッセージ、4月26日 — DeepSeekはV4-Pro API料金に期間限定で75%の割引を発表し、5月5日15:59 UTCまで有効です。割引後の100万トークンあたりの料金は:入力キャッシュヒット $0.03625
GateNews4時間前
Anthropic、2026年の中間選挙に先駆けてClaude向けに選挙の安全対策を導入
Anthropicは金曜日、2026年の米国中間選挙や今年世界中で行われるその他の主要な選挙を前に、同社のClaude AIチャットボットが武器化されて誤情報を拡散したり、有権者を操作したりすることを防ぐことを目的とした、一連の選挙の信頼性に関する施策を発表した。サンフランシスコ拠点の
CryptoFrontier9時間前