Сравнение запросов Sora и DALL-E 3: два продукта OpenAI, один победитель

Сравнение запросов Sora и DALL-E 3: два продукта OpenAI, один победитель

Sora — это попытка OpenAI покорить новую территорию в области ИИ: генерацию видео из текста. Давайте сравним ее нюансы и креативность с одним из других моделей OpenAI: DALL-E 3.

 

Автор: Джон Анджело Яп

Я слышал о генерации видео из текста уже некоторое время и, честно говоря, не придавал этому особого значения, поскольку меня не впечатляло то, что я видел в интернете. Я всегда думал, что попробую, когда они исправят проблемы. Однако, как прошли месяцы, я продолжал следить за последними новостями в этой области и оставался разочарованным.  Это продолжалось до февраля 2024 года, когда OpenAI снова шокировала мир, представив проект, который долго держали в секрете: Sora.  Как и большинство людей, я пока не мог его проверить — на самом деле, сейчас сентябрь 2024 года, и его все тестируют, команды тестировщиков.

   Так что мы сделали следующее: сравнили их демонстрационные результаты с собственным генератором изображений OpenAI: DALL-E 3. В этой статье я покажу вам их различия и сравню их без предвзятости.

Что такое Sora? 

Подобно DALL-E 3, Sora — это еще одна попытка OpenAI покорить пространство ИИ. Это диффузионная модель для генерации видео из текста, тогда как DALL-E 3 предназначен только для генерации изображений. К сожалению, на сентябрь 2024 года Sora еще недоступна для широкой аудитории, но мы, вероятно, можем ожидать публичную бета-версию в ближайшее время (при таком темпе, вероятно, это будет позже).

Судя по тому, что я видел в интернете, Sora кажется более креативной и реалистичной по сравнению с DALL-E 3. Что касается их сходств, Sora также использует технологии трансформеров (это значит, что она интегрирована с технологией GPT-4) для лучшего понимания запросов в рамках своей функции «переписывания заголовков». 

Кроме того, помимо генерации видео из текста, она также может принимать существующие видео в качестве входных данных и заполнять пробелы или расширять видео. Это открывает больше возможностей для инструмента, поскольку Sora предположительно может быть использована для создания запасных кадров для фильмов в будущем.

Sora против DALL-E 3: Сравнение результатов

Поскольку я не могу изменять соотношение сторон DALL-E с помощью Bing Create, мне не остается ничего другого, как сравнивать изображения в соотношении 1:1 с видео в соотношении 16:9 (или длиннее). Однако это не должно существенно повлиять на результаты, так как мы просто сравниваем их креативность и нюансы, и было бы несправедливо сравнивать более старую модель с другим назначением с новой, такой как Sora.

        Начнем с нюансов. Прежде всего, нужно признать, что здесь может быть предвзятость, поскольку эти запросы исходят от самой OpenAI, что означает, что они, вероятно, выбрали лучшие результаты для своей демонстрации. Тем не менее, Sora, похоже, имеет гораздо лучшую точность ответов, чем DALL-E 3. Кроме того, судя по тому, что я видел в интернете, кажется, что Sora взяла все хорошее от DALL-E и сделала это лучше, исправив все плохое. Она гораздо более креативна и создает более реалистичные изображения людей.

Когда Sora будет доступна для публики

Как я уже сказал, Sora еще не доступна для широкой аудитории. Это наводит на вопрос: если не сейчас, то когда?

В марте прошлого года Мира Муратти — технический директор OpenAI и ранее исполняющий обязанности CEO — сказала, что Sora должна стать доступной в этом году. Что ж, уже август, и последние новости, которые мы имеем, это то, что она только «начинает становиться доступной» для команд тестировщиков для оценки. Если она станет доступна в этом году, ожидайте ее в конце 2024 года. Однако, на мой взгляд, более вероятно, что она станет публичной в 2025 году. Тем временем появилось больше моделей генерации видео из текста (Pika Labs и Runway — самые популярные) с момента анонса Sora.

 

Заключение

Меня не удивляло так сильно ни одно ИИ-модель с тех пор, как я увидел Midjourney. И тот факт, что это произошло из неожиданных источников от компании ИИ, окруженной противоречиями и неопределенностью в прошедшем году, лишь подчеркивает это. Но стоит отдать должное: OpenAI не первая модель, которая пытается создать видео из текста. Из-за недостатка идей, я могу назвать Runway и Pika Labs как (предыдущих) лидеров в этой области.

Я определенно взволнован, чтобы попробовать Sora сам.