Alibaba анонсувала нову модель з відкритим кодом, призначену для створення кінематографічних відео.

Дмитро Джугалик — журналіст на Mezha.Media. Я спеціалізуюсь на темах, які мене надихають, зокрема, технологіях, іграх та кіно.

Alibaba представила нову модель штучного інтелекту, що здатна генерувати відео з людьми з використанням аудіо "на рівні кінофільмів". Wan2.2-S2V має 14 мільярдів параметрів й доступна з відкритим кодом на GitHub та інших платформах.

Оновлена модель здатна створювати високоякісні відеоматеріали, виходячи з одного зображення або аудіофайлу. Wan2.2-S2V має універсальні функції анімації персонажів, що дозволяють генерувати відео з різними варіантами ракурсу, такими як портретна, бюстова та повна перспектива.

Alibaba стверджує, що їхня модель може в реальному часі створювати дії персонажів та елементи навколишнього середовища, реагуючи на миттєві команди. Зняті відео доступні в якості 480p або 720p.

Wan2.2-S2V поєднує глобальне керування рухами за текстом із дрібними локальними рухами, керованими звуком. Це дозволяє створювати більш природних персонажів навіть у складних ситуаціях.

Китайська компанія відзначає, що іншим ключовим проривом моделі є інноваційна техніка обробки кадрів. Модель стискає кадри довільної довжини в єдину компактну презентацію, що значно зменшую вимогу до обчислювальних потужностей. Водночас компанія не вказує, якої саме довжини ролики можна генерувати.