Beating, Step Audio 2.5 Realtime, un modelo de voz en tiempo real de extremo a extremo de Step Cosmos, se lanzó en su API de plataforma abierta en abril de 2026. El modelo se centra en una conversación natural con personajes de carácter personalizables y percepción paralingüística (tono, pausas, suspiros).
En las pruebas oficiales, en cinco dimensiones, Step Audio 2.5 Realtime quedó en primer lugar en todas las categorías. La puntuación de evaluación subjetiva (conversaciones en la app telefónica de usuarios reales) alcanzó 80,41, frente a 68,01 para GPT-Realtime-1.5 y 67,16 para Gemini Live. En el benchmark de Voice Q&A, obtuvo 79,80, casi 1,5 veces los 53,20 de GPT-Realtime-1.5. Precios de API: 10 yuanes por millón de tokens de entrada (2 yuanes con aciertos de caché), 70 yuanes por millón de tokens de salida, con llamadas de voz continuas estimadas en 3,8 yuanes por hora.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
ByteDance planea aumentar el gasto en infraestructura de IA en un 25% este año, hasta 200 mil millones de yuanes
Según ChainCatcher citando Golden Data, ByteDance planea aumentar este año el gasto en infraestructura de IA en un 25% hasta 200 mil millones de yuanes, impulsado por el alza en los costos de los chips de memoria y el desarrollo acelerado de la inteligencia artificial.
GateNewsHace13m
Plataforma empresarial de IA cierra la ronda de financiación de $16M , liderada por a16z
Según Odaily, la plataforma de IA empresarial Pit anunció la finalización de una ronda de financiación de 16 millones de dólares liderada por a16z, con la participación de Lakestar y de ejecutivos de OpenAI, Anthropic, Google, Deel y Revolut. Pit se posiciona como “equipo de productos de IA como servicio”, diseñado para reemplazar las hojas de cálculo tradicionales y los sistemas SaaS rígidos.
GateNewsHace20m
Google impulsa exámenes de contratación que permiten a los ingenieros usar herramientas de IA
Según The Chosun Daily, Google está pilotando exámenes de contratación que permiten a los candidatos a ingeniero de software en EE. UU. usar herramientas de IA en puestos seleccionados de nivel inicial y medio. La prueba incluye tareas de comprensión de código en las que los solicitantes revisan código existente, corrigen errores y mejoran el rendimiento. Los entrevistadores evaluarán cómo los candidatos redactan instrucciones para la IA, verifican su salida, editan los resultados y depuran el c
GateNewshace2h
OpenAI descontinúa la API de ajuste fino con efecto inmediato; los usuarios existentes pueden acceder hasta el 6 de enero de 2027
Según el anuncio oficial de OpenAI monitoreado por Beating, la empresa está descontinuando su API de ajuste fino self-serve para desarrolladores con efecto inmediato. Los nuevos usuarios ya no pueden crear tareas de ajuste fino, mientras que los usuarios activos existentes pueden acceder al servicio hasta el 6 de enero de 2027. Los modelos ajustados finamente desplegados tendrán sus servicios de inferencia vinculados al ciclo de vida de sus modelos base, y se suspenderán cuando el modelo base se
GateNewshace3h
Sakana AI y Nvidia logran una inferencia 30% más rápida en H100 al omitir el 80% de los cálculos inválidos
Sakana AI y Nvidia han publicado TwELL como open-source, un formato de datos dispersos que permite a las GPU H100 omitir el 80% de los cálculos inválidos en modelos de lenguaje grandes sin perder precisión. La solución ofrece hasta un 30% más de velocidad en la inferencia y un 24% más rápida en el entrenamiento en H100, a la vez que reduce el uso máximo de memoria. En pruebas con un modelo de 1,5 mil millones de parámetros, el enfoque redujo las neuronas activas a menos del 2% mediante una regul
GateNewshace4h
Microsoft lanza código abierto el modelo Phi-Ground 4B y supera a OpenAI Operator y a Claude en precisión al hacer clic en pantalla
Beating informó que Microsoft recientemente publicó como código abierto la familia de modelos Phi-Ground, diseñada para resolver el problema de dónde debe hacer clic la IA en una pantalla de computadora. La versión de 4 mil millones de parámetros, combinada con modelos lingüísticos más grandes para la planificación de instrucciones, superó la precisión de clic de OpenAI Operator y Claude Computer Use en el benchmark Showdown y quedó en el primer lugar entre todos los modelos de menos de 100 mil
GateNewshace4h