GPT-4o от OpenAI: Что нового и как она работает?

GPT-4o от OpenAI: Что нового и как она работает?

Альвин Р. Кабрал Автор статьи

OpenAI подняла ставки в конкурентной сфере генеративного искусственноголекта, представив модель, которая, по ее ожиданиям, привлечет больше пользователей на платформу и поможет отразить всех конкурентов. 

GPT-4o является обновленной версией базовой технологии больших языковых моделей, которая лежит в основе ChatGPT. На прошлой неделе ходили слухи о том, что ее запустят в качестве поисковой системы для конкуренции с Google, но Reuters сообщила, что OpenAI отложила этот запуск.  Генеральный директор OpenAI Сэм Альтман опроверг информацию о запуске, только чтобы затем опубликовать в X сообщение о том, что компания "усердно работает над чем-то новым, что, как мы думаем, понравится людям".  

Буква "o" в названии означает "омни", и компания из Калифорнии позиционирует GPT-4o как нечто единое для всех, что имеет смысл, поскольку "омни" означает "все" или "всё" – хочет ли OpenAI стать повсеместным в нашей жизни?  

 

Что такое GPT-4o? 

Краткий ответ: GPT-4o, по словам OpenAI, это "новая флагманская модель, которая может рассуждать по аудио, визуальным и текстовым данным в реальном времени".  

Ещё короче: это самый быстрый ИИ от OpenAI.  

Название "омни" относится к "шагу к гораздо более естественному взаимодействию человека с компьютером", сообщила OpenAI в блоге в понедельник.  

Она также нативно мультимодальна, что означает, что может принимать любую комбинацию текста, аудио и изображений в качестве входных данных, а также генерировать любую комбинацию текстовых, аудио и визуальных выходных данных.  

 

Насколько быстрый GPT-4o? 

OpenAI утверждает, что GPT-4o может отвечать на аудио-входные данные за всего 232 миллисекунды, в среднем — за 320 миллисекунд, что похоже на время ответа человека в разговоре, согласно нескольким исследованиям.  

Таким образом, GPT-4o требует использования меньшего количества токенов на различных языках — базовой единицы в ИИ, которая вычисляет длину текста и может включать знаки препинания и пробелы. Подсчет токенов варьируется от одного языка к другому.  

Среди языков, на которых по данным OpenAI требуется меньше токенов с GPT-4o, отмечены арабский (с 53 до 26), гуджарати (145 до 33), хинди (90 до 31), корейский (45 до 27) и китайский (34 до 24).  

Для сравнения, можно обратиться к исследованию 1968 года Роберта Миллера — "Время ответа в человеческо-компьютерных разговорных транзакциях", которое подробно описывало три уровня быстродействия компьютеров.  

Исследование показало, что время ответа в 100 миллисекунд воспринимается как мгновенное, в то время как одна секунда или меньше достаточно быстро для того, чтобы пользователи почувствовали, что могут свободно взаимодействовать с информацией. Время ответа более 10 секунд полностью отвлекает внимание пользователя.  

 

Как работает GPT-4o?

Самый простой ответ: OpenAI упростила процесс преобразования входящих данных в выходные.  

В предыдущих моделях ИИ OpenAI использовался Режим голоса для общения с ChatGPT с задержками 2.8 секунд (GPT-3.5) и 5.4 секунды (GPT-4) в среднем.

Режим голоса использовал три отдельные модели: одна простая модель транскрибировала аудио в текст, GPT-3.5 или GPT-4 принимала текст и выдавала его, а третья простая версия преобразовывала этот текст обратно в аудио.  

"Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации — он не может напрямую наблюдать за тональностью, несколькими говорящими или фоновыми шумами, и не может передавать смех, пение или выражать эмоции", — отметила OpenAI.  Однако с GPT-4o OpenAI удалось объединить все эти функции в одной модели с возможностями "от конца до конца" по тексту, визуальным данным и аудио, значительно сократив время обработки и количество информации.  "Все входные и выходные данные обрабатываются одной и той же нейронной сетью", — сказала OpenAI. 

Нейронная сеть — это метод ИИ, который обучает компьютеры обрабатывать данные аналогично человеческому мозгу.  Тем не менее, OpenAI заявила, что она "всё ещё только начинает исследовать" возможности и ограничения GPT-4o, поскольку это ее первая модель, которая объединяет все эти модальности.  

 

Что GPT-4o не может делать? 

Говоря о ограничениях, OpenAI признала "несколько" из них в модели GPT-4o, включая несоответствия в ответах. Она даже продемонстрировала, как GPT-4o может быть искусным в сарказме.  

Кроме того, OpenAI сообщает, что продолжает дорабатывать поведение модели после обучения — что критически важно для решения вопросов безопасности, ключевой проблемы современного ИИ.  

Компания заявила, что создала новые системы безопасности, которые служат в качестве защитных мер для аудио выходов, а также проводит тестирование модели с более чем 70 экспертами в областях социальной психологии, предвзятости, справедливости и дезинформации, чтобы выявить возможные риски. "Мы будем продолжать снижать новые риски по мере их обнаружения."

Сколько стоит GPT-4o?  

Хорошие новости — он бесплатен для всех пользователей, а платные пользователи получают "в пять раз больше лимитов возможностей", чем их бесплатные коллеги, сказал главный технолог OpenAI Мира Мурати на презентации. 

Однако, если вы не являетесь платным пользователем OpenAI, это обойдётся вам в $5 и $15 за один миллион токенов на вход и выход, соответственно.  Бесплатное использование GPT-4o должно пойти на пользу OpenAI, что также дополнит другие платные предложения компании.