Xiaomi lanza ControlFoley, un marco de audio y video de código abierto que permite un control preciso del sonido

Según Beating, el equipo de IA de Xiaomi lanzó ControlFoley y lo hizo de código abierto: un marco de generación de audio de video que ofrece a los creadores un control preciso sobre el estilo del sonido mediante descripciones de texto o audio de referencia. A diferencia de los sistemas tradicionales de doblaje con IA que infieren el sonido solo a partir de las imágenes, ControlFoley permite a los creadores modificar características de audio—como convertir un golpe de puerta en un impacto metálico o aplicar tonos de batería a los impactos de pelotas de tenis—manteniendo la sincronización audio-visual. El marco utiliza un codificador audio-visual espacio-tiempo con una estrategia de desacoplamiento tiempo-timbre. El informe técnico del proyecto, el código, los pesos del modelo y la demostración ya están disponibles.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios