Xiaomi veröffentlicht ControlFoley, ein Open-Source-Video- und Audio-Framework zur präzisen Steuerung von Sound

Laut Beating hat das KI-Team von Xiaomi ControlFoley veröffentlicht und Open Source gemacht, ein Framework zur Generierung von Video- und Tonaufnahmen, das Kreatoren eine präzise Steuerung des Sound-Stils über Textbeschreibungen oder Referenz-Audio ermöglicht. Im Gegensatz zu herkömmlichen KI-Dubbingsystemen, die den Klang nur aus den Bildern ableiten, erlaubt ControlFoley es Kreatoren, Audioeigenschaften zu verändern – zum Beispiel einen Türklopfer in einen metallischen Schlag umzuwandeln oder Drums-Töne auf Aufpralle von Tennisbällen anzuwenden – und dabei die Audio-Visual-Synchronität beizubehalten. Das Framework nutzt einen Zeit-Raum-Audio-Visual-Encoder mit einer Strategie zur Entkopplung von Zeit und Klangfarbe. Der technische Bericht des Projekts, der Code, die Modellgewichte und die Demo sind nun verfügbar.
Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare