Что такое Sora от OpenAI? Как получить доступ инструменту создания видео с помощью ИИ?

Что такое Sora от OpenAI? Как получить доступ инструменту создания видео с помощью ИИ?

Снова OpenAI потряс интернет с сенсационным объявлением о новом ИИ – генераторе видео под названием Sora, который может создавать жутко реалистичные видео. Некоторые из уже представленных примеров сложно отличить от реальной видеосъемки.

Sora – это диффузионная модель с архитектурой трансформера, что означает, что её нейронная сеть функционирует аналогично ChatGPT. OpenAI пока не делится официальной датой выпуска, но заявляет, что хочет показать людям, что «на горизонте» в области искусственного интеллекта.

Вот всё, что мы знаем о Sora на данный момент, и почему запуск генератора видео для широкой аудитории может занять некоторое время.

Что такое Sora?

Sora – это модель ИИ, преобразующая текст в видео, разработанная создателями ChatGPT, компанией OpenAI. «Преобразование текста в видео» означает, что Sora принимает текстовые подсказки и превращает их в короткие видеоклипы. Партия, выпущенная OpenAI на этой неделе, действительно впечатляющая.

«Sora способна генерировать сложные сцены с несколькими персонажами, определёнными типами движений и точными деталями объекта и фона», — объясняет OpenAI в блоге, опубликованном на этой неделе, в рамках которого было представлено больше видео. «Модель понимает не только то, что пользователь запросил в подсказке, но и как эти вещи существуют в физическом мире».

Как получить доступ к Sora сейчас?

В настоящее время Sora проходит испытания у исследователей безопасности, которые отвечают за то, чтобы убедиться в её безопасности перед выпуском для широкой аудитории, и оценивают «критические риски». Однако OpenAI говорит, что небольшой группе визуальных художников, кинематографистов и дизайнеров также был предоставлен доступ к Sora. Имена художников или дизайнеров, участвующих в испытании, не раскрываются.

Некоторые осведомлённые источники на форуме OpenAI кажутся уверенными, что в какой-то момент будет создан список ожидания, который станет первой возможностью получить доступ к Sora. К сожалению, нет никаких указаний на то, когда мы сможем подписаться на использование Sora.

Когда Sora будет доступна широкой публике?

К сожалению, в настоящее время нет даты выпуска для Sora. Весь контент, который за последние 24 часа стал вирусным в интернете, был опубликован в блоге, посвящённом объявлению OpenAI.

Интересно, что похоже, OpenAI даже не дало смутных намеков на то, когда это может быть стало общедоступным — даже не было указаний на то, что это произойдет в этом году. Это довольно необычно для такого крупного объявления и может указывать на то, что до общественного релиза ещё далеко — но, в то же время, OpenAI признаёт, что делится своим исследованием на ранней стадии. Учитывая скорость, с которой развивалась индустрия искусственного интеллекта за последние два года, точная дата запуска остаётся загадкой.

Что задерживает запуск Sora?

Как мы упоминали, OpenAI не готова выпустить Sora для широкой аудитории, не уверенная в том, что технологии генерации видео были достаточно протестированы на безопасность. Это очень важно, учитывая множество этических вопросов, связанных с созданием таких реалистичных видео — не говоря уже о годе с множеством выборов.

«Мы предпримем несколько важных шагов по обеспечению безопасности перед тем, как сделать Sora доступной в продуктах OpenAI», — добавили они. «Мы работаем с экспертами в области, такими как дезинформация, ненавистный контент и предвзятость — которые будут тестировать модель в условиях противостояния».

OpenAI также сообщает, что работает над классификатором детекции ИИ-видео, который может определить, было ли видео произведено Sora или нет. 

Это похоже на аналогичный шаг, предпринятый после запуска ChatGPT, после чего компания ИИ запустила классификатор текста. Однако позже он был закрыт из-за ненадёжности. Когда мы протестировали его на возможность выявления плагиата ChatGPT, он не смог даже обнаружить контент, созданный самим собой.

Как работает Sora?

«Sora — это диффузионная модель, которая генерирует видео, начиная с похожего на статический шум, и постепенно преобразует его, удаляя шум на многих этапах», — заявила OpenAI на этой неделе. 

Технология работает похоже на семью языковых моделей GPT, которые поддерживают чат-бота компании, ChatGPT. Все они используют архитектуру «трансформера» — тип нейронной сети, который принимает входные данные и «преобразует» их в выходные данные. Они также включили элементы DALLE-3, такие как система перехватывания изображений.

OpenAI обучала Sora на видео и изображениях в виде единиц данных — или «петчей». «Объединяя, как мы представляем данные», — отмечают в OpenAI, «мы можем обучать диффузионные трансформеры на более широком диапазоне визуальных данных, чем это было возможно ранее, охватывающем разные продолжительности, разрешения и соотношения сторон».