xAI Lanza las APIs de Voz Grok, reduciendo los costos en un 60% en comparación con los competidores

Zach Anderson

18 de abril de 2026 00:53

Elon Musk’s xAI lanza las APIs de Voz a Texto y Texto a Voz de Grok a $0.10/hora, reclamando las tasas de error más bajas en los benchmarks de transcripción empresarial.

Elon Musk’s xAI lanzó dos APIs de audio independientes el 17 de abril, posicionando la tecnología de voz de Grok como un competidor directo de ElevenLabs, Deepgram y AssemblyAI a precios agresivos.

La API de Voz a Texto de Grok cuesta $0.10 por hora para procesamiento por lotes y $0.20 por hora para transmisión en tiempo real. Texto a Voz cuesta $4.20 por millón de caracteres. Ambas aprovechan la misma infraestructura que impulsa los vehículos Tesla y el soporte al cliente de Starlink.

Reclamaciones de Benchmark que Merecen Ser Analizadas

Las tasas de error de palabras publicadas por xAI cuentan una historia interesante. En reconocimiento de entidades en llamadas telefónicas—piensa en nombres, números de cuenta, fechas—Grok STT afirma una tasa de error del 5.0% frente a ElevenLabs con 12.0%, Deepgram con 13.5% y AssemblyAI con 21.3%. Esa es una diferencia significativa si se mantiene en producción.

La compañía demostró esto con un caso de prueba complicado: transcribir nombres galés como “Anghared Llewelyn Bowen” y “Oisin MacGiolla Phadraig” junto con detalles de hipotecas. Grok lo logró sin errores. Los modelos competidores tuvieron dificultades con las pronunciaciones y el formato de las fechas de manera inconsistente.

La transcripción de videos y podcasts muestra una competencia más ajustada—Grok y ElevenLabs empataron con una tasa de error del 2.4%, con Deepgram y AssemblyAI ligeramente por detrás con 3.0% y 3.2% respectivamente.

Características Técnicas para Desarrolladores

Más allá de la transcripción pura, xAI incorporó funciones que los clientes empresariales realmente necesitan: marcas de tiempo a nivel de palabra, diarización de hablantes en múltiples canales de audio y soporte para más de 25 idiomas con cambio fluido entre ellos.

La función de Normalización Inversa de Texto convierte automáticamente números, fechas y monedas hablados en formatos adecuados. “Four one four five five five one two three four” se convierte en un número de teléfono. “Six ninety-nine” en $6.99. Un pequeño detalle, pero elimina dolores de cabeza en el post-procesamiento.

Texto a Voz incluye etiquetas en línea para control de prosodia—susurros, risas, suspiros, énfasis, ajustes de ritmo. Los desarrolladores pueden agregar matices emocionales sin lidiar con marcado de audio complejo.

Contexto Estratégico

Este lanzamiento sigue a la adquisición de X Corp por parte de xAI en marzo de 2025 y llega en un momento en que la compañía amplía sus asociaciones de infraestructura. Solo dos días antes del anuncio de la API, surgieron informes de que xAI planea suministrar potencia de computación a Cursor, la startup de codificación impulsada por IA.

La supercomputadora Colossus, operativa desde diciembre de 2024, proporciona la potencia de respaldo. xAI parece estar monetizando esa capacidad en múltiples verticales—IA empresarial, herramientas para desarrolladores y ahora APIs de voz.

Para los desarrolladores que construyen agentes de voz o herramientas de transcripción, los precios son sustancialmente más bajos que los de los actores establecidos. Queda la duda si las afirmaciones de precisión de Grok sobrevivirán en despliegues reales a gran escala. La documentación y los límites de tasa están disponibles a través de la consola de APIs de xAI para quienes estén listos para probarlo.

Fuente de la imagen: Shutterstock

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado