OpenAI анонсирует новую модель ИИ, кодовое название "Strawberry", которая решает сложные задачи пошагово
Создатели ChatGPT раскрывают детали того, что официаль известно как OpenAI1, что показывает что ИИ нуждается не только в увеличении масштабов для дальнейшего развития.
OpenAI добилась последнего крупного прорыва в области искусственного интеллекта, увеличив размеры своих моделей до впечатляющих масштабов, когда в прошлом году была представлена GPT-4. Сегодня компания анонсировала новое улучшение, которое сигнализирует о смене подхода — модели, которая может “логически рассуждать” над многими сложными задачами и значительно умнее существующих ИИ без масштабной доработки.
Новая модель, получившая кодовое название OpenAI o1, может решать задачи, которые ставят в тупик существующие модели ИИ, в том числе самую мощную модель OpenAI на данный момент — GPT-4o. Вместо того, чтобы сразу же выдавать ответ, как это обычно делает большая языковая модель, она рассуждает над задачей, по сути, рассуждая вслух, как это мог бы сделать человек, прежде чем прийти к правильному результату.
Это то, что мы считаем новым парадигмой для этих моделей, говорит Мира Мурати, технический директор OpenAI. “Она гораздо лучше справляется с очень сложными задачами размышления.
Модель была кодово названа Strawberry внутри OpenAI, и, как сообщает компания, это не преемник GPT-4o, а скорее ее дополнение.
Мурати отметила, что OpenAI в настоящее время разрабатывает свою следующую главную модель, GPT-5, которая будет значительно больше своего предшественника. Но, хотя компания по-прежнему считает, что увеличение масштаба поможет раскрыть новые возможности ИИ, GPT-5, вероятно, также будет включать технологии размышления, представленные сегодня. “Существуют две парадигмы” говорит Мурати. “Парадигма масштабирования и эта новая парадигма. Мы ожидаем, что сможем объединить их.”
Большие языковые модели (LLM) обычно черпают свои ответы из огромных нейронных сетей, которые обучаются на колоссальных объемах данных. Они могут демонстрировать выдающиеся лингвистические и логические способности, но традиционно испытывают трудности с удивительно простыми задачами, такими как элементарные математические вопросы, требующие логического размышления.
Мурати отмечает, что OpenAI o1 использует обучение с подкреплением, при котором модели предоставляется положительная обратная связь, когда они дают правильные ответы, и отрицательная, когда они ошибаются, чтобы улучшить процесс размышления. “Модель уточняет свое мышление и дорабатывает стратегии, которые она использует для получения ответа,” говорит она. Обучение с подкреплением позволило компьютерам играть в игры с суперачителями и выполнять полезные задачи, такие как проектирование компьютерных чипов. Эта техника также является ключевым элементом для превращения LLM в полезный и послушный чат-бот.
Марка Чен, вице-президент по исследованиям OpenAI, продемонстрировал новую модель журналу WIRED, использовав ее для решения нескольких задач, которые предыдущая модель GPT-4o не могла решить. К ним относились сложный вопрос по химии и следующая головоломка: “Принцесса столько же лет, сколько принц станет, когда принцесса станет вдвое старше, чем принц был, когда возраст принцессы был в два раза меньше суммы их сегодняшнего возраста. Сколько лет принцу и принцессе?” (Правильный ответ: принцу 30, а принцессе 40 лет).
“Новая модель учится мыслить самостоятельно, а не пытается имитировать, как это делает человек” говорит Чен.
OpenAI сообщает, что ее новая модель значительно лучше выполняет ряд задач, включая задачи по программированию, математике, физике, биологии и химии. На Американском математическом турнире (AIME), тесте для студентов, GPT-4o решал в среднем 12 процентов задач, в то время как o1 успешно справился с 83 процентами, по данным компании.
Новая модель работает медленнее, чем GPT-4o, и OpenAI заявляет, что она не всегда демонстрирует лучшие результаты — отчасти потому, что, в отличие от GPT-4o, она не может осуществлять поиск в Интернете и не является мультимодальной, что означает, что она не может обрабатывать изображения или аудио.
Улучшение способностей к размышлению LLM в течение некоторого времени является горячей темой в исследовательских кругах. Действительно, конкуренты Pursue аналогичные исследовательские направления. В июле Google объявила о проекте AlphaProof, который сочетает языковые модели с обучением с подкреплением для решения сложных математических задач.
AlphaProof смогла научиться рассуждать над математическими задачами, изучая правильные ответы. Основной проблемой при расширении такого обучения является то, что для всего, с чем может столкнуться модель, нет правильных ответов. Чен отмечает, что OpenAI удалось построить систему размышления, которая гораздо более универсальна. “Я действительно думаю, что мы добились прорыва в этой области; я думаю, что это часть нашего преимущества” говорит Чен. “На самом деле, она довольно хороша в размышлении в различных областях.”
Комментарии (0)