TransPixeler: усовершенствованная генерация текста в видео с прозрачностью
Генеративные модели преобразования текста в видео достигли значительных успехов, что позволяет использовать их в различных областях развлечений, рекламы и образования. Однако создание видео RGBA, включающего альфа-каналы для прозрачности, остается сложной задачей из-за ограниченных наборов данных и сложности адаптации существующих моделей. Альфа-каналы имеют решающее значение для визуальных эффектов (VFX), позволяя прозрачным элементам, таким как дым и отражения, плавно вписываться в сцены. Мы представляем TransPixeler , метод расширения предварительно обученных видеомоделей для генерации RGBA, сохраняя при этом исходные возможности RGB. TransPixar использует архитектуру диффузионного трансформатора (DiT), включающую специфичные для альфа-канала токены и использующую тонкую настройку на основе LoRA для совместной генерации RGB и альфа-каналов с высокой согласованностью. Оптимизируя механизмы внимания, TransPixeler сохраняет сильные стороны исходной модели RGB и достигает строгого согласования между RGB и альфа-каналами, несмотря на ограниченные данные для обучения. Наш подход эффективно генерирует разнообразные и согласованные видео RGBA, расширяя возможности создания VFX и интерактивного контента.
Можно затестить демку тут