Google bringt Gemini 3.1 Flash TTS mit verbesserter emotionaler Ausdruckskraft und Multi-Speaker-Fähigkeiten auf den Markt

Gate News-Meldung, 17. April — Google hat Gemini 3.1 Flash TTS, ein fortschrittliches Text-to-Speech-Modell mit verbesserten Funktionen zur emotionalen Ausdruckskraft und Steuerung, am 15. April vorgestellt. Das neue Modell wird schrittweise über Entwickler-APIs, das Enterprise-Produkt Vertex AI und Kollaborationstools ausgerollt.

Zu den Kernfähigkeiten des Modells gehören auf natürlicher Sprache basierende Audio-Tags zur Optimierung von Geschwindigkeit, Intonation und Emotion sowie ein „Director Mode“, mit dem Szenen und Rollen der Figuren festgelegt werden können, um nuanciertere Sprach-Ausgaben zu erzeugen. Eine Multi-Speaker-Funktion ermöglicht die gleichzeitige Generierung von Dialogen und schafft so natürlichere Gesprächsabläufe, die sich für Podcasts, Audioinhalte und KI-Assistenten eignen. Das Modell unterstützt über 70 Sprachen und Dialekte und berücksichtigt regionale Akzente und Ausdrucksweisen für lokalisiertes Voice-Erlebnis weltweit.

Google betonte Leistung und Kosteneffizienz und erzielte hohe Werte in Blind-Bewertungsbenchmarks durch Menschen, während die Rechenkosten durch die Flash-Architektur gesenkt wurden — konzipiert für die groß angelegte Einführung in Unternehmen. Generierte Audios enthalten SynthID-Wasserzeichen, um KI-generierte Inhalte zu identifizieren und Fehlinformationen entgegenzuwirken.

Der Schritt spiegelt einen sich verschärfenden Wettbewerb in sprachbasierten Schnittstellen wider. OpenAI kombiniert Echtzeit-Sprachfunktionen mit konversationsfähiger KI für Interaktionen, die menschlich wirken, während Meta seine Investitionen in KI-Charaktere mit stimmbasierten sozialen Erlebnissen ausweitet. Branchenbeobachter weisen darauf hin, dass zwar anspruchsvolle Schauspiel- und kreative Arbeiten vorerst weiterhin von Menschen gesteuert werden könnten, aber in wiederholbaren und groß angelegten Produktionsmärkten wie Synchronisation, Werbung und Hörbuch-Segmenten eine schrittweise KI-Adoption zu erwarten ist.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Anthropic führt Wahlschutzmaßnahmen für Claude ein, bevor die Zwischenwahlen 2026 anstehen

Anthropic kündigte am Freitag eine Reihe von Maßnahmen zur Integrität von Wahlen an, die verhindern sollen, dass sein Claude-KI-Chatbot missbraucht wird, um Fehlinformationen zu verbreiten oder Wähler zu manipulieren – vor den US-amerikanischen Zwischenwahlen 2026 und anderen wichtigen Wettbewerben in diesem Jahr auf der ganzen Welt. Der in San Francisco ansässige

CryptoFrontier59M her

DeepRoute.ai Fortschrittliches Assistenzfahrsystem durchbricht 300.000 Fahrzeug-Deployments: Ziel 2026 1 Million City NOA-Flotte

DeepRoute.ai kündigt an, dass sein fortschrittliches Assistenzfahr-Pilot-System in China kumuliert über 300.000 Fahrzeuge installiert hat; im vergangenen Jahr wurden dabei über 180.000 potenzielle Unfälle vermieden. Das Ziel für 2026 ist eine Flotte von 1.000.000 Stadt-NOA-Fahrzeugen mit einer Auslastung von über 50%; dies wird als Schlüssel für die großflächige Kommerzialisierung von Robotaxis angesehen. Dies zeigt, dass das autonome Fahren in China in den Alltag übergegangen ist; zugleich zeichnet sich eine Trennungslinie gegenüber dem vertikal integrierten Weg in den USA ab, die den Zeitplan der Lieferkette im Asien-Pazifik-Raum beeinflusst.

ChainNewsAbmedia2Std her

DeepSeek veröffentlicht V4-Pro- und V4-Flash-Modelle zu 98% geringeren Kosten als OpenAI's GPT-5.5 Pro

Gate News-Meldung, 25. April — DeepSeek hat am 24. April Vorschauversionen von V4-Pro und V4-Flash veröffentlicht, beides Open-Weight-Modelle mit Kontextfenstern von einer Million Token. V4-Pro verfügt über 1,6 Billionen Gesamtparameter, aktiviert jedoch nur 49 Milliarden pro Inferenzdurchlauf mithilfe einer Mixture-of-Experts-Architektur.

GateNews7Std her

Richter weist Betrugsvorwürfe in Elons Musk OpenAI-Klage zurück; Verfahren schreitet mit zwei verbleibenden Vorwürfen zur Verhandlung voran

Gate News Nachricht, 24. April — Ein Bundesrichter hat Betrugsvorwürfe zurückgewiesen, die Elon Musk in seiner Klage gegen OpenAI, Sam Altman, Greg Brockman und Microsoft erhoben hatte, und damit den Weg frei gemacht, dass der Fall vor Gericht mit zwei verbleibenden Vorwürfen weitergeführt wird: Verletzung eines wohltätigen Treuhandverhältnisses und ungerechtfertigte Bereicherung. U.S.

GateNews10Std her

OpenAI-CEO Sam Altman entschuldigt sich dafür, das gesperrte Konto des Schulamoktäters nicht der Polizei gemeldet zu haben

Gate-News-Meldung, 25. April — OpenAI-CEO Sam Altman hat sich bei der Gemeinde Tamborine in Kanada dafür entschuldigt, dass das Unternehmen es versäumt hat, die Polizei über ein gesperrtes Konto zu informieren, das mit Jesse Van Rootselaar in Verbindung stand. Van Rootselaar tötete im Februar acht Menschen an einer Schule, bevor er sich selbst das Leben nahm. OpenAI

GateNews11Std her

VAE kündigen eine Verlagerung hin zu einem KI-Regierungsmodell in den nächsten zwei Jahren an

Seine Hoheit Scheich Mohammed bin Rashid Al Maktoum erklärte, das Ziel sei, dass 50% der staatlichen Ressorts über autonome agentische KI betrieben werden. Der Übergang wird außerdem die Schulung von Bundesbediensteten umfassen, um „KI zu meistern“, und wird von Scheich Mansour bin Zayed überwacht. Wichtige Erkenntnisse:

Coinpedia11Std her
Kommentieren
0/400
Keine Kommentare