13 мая 2024 года был анонсирован GPT-4o, новейшая флагманская модель OpenAI, способная в реальном времени работать с аудио, визуальными данными и текстом.
GPT-4o (где “o” означает “omni” или “всеобъемлющий”) представляет собой значительный шаг к более естественному взаимодействию человека с компьютером. Эта модель может принимать входные данные в любой комбинации текста, аудио и изображений и генерировать выходные данные также в любой комбинации текста, аудио и изображений.
Ответы на аудиовходы модель может давать всего за 232 миллисекунды, среднее время ответа составляет 320 миллисекунд, что сопоставимо с человеческим временем реакции в разговоре.
GPT-4o совмещает производительность GPT-4 Turbo по обработке текста на английском языке и кодировании, при этом значительно улучшена работа с текстами на неанглийских языках. Кроме того, модель работает гораздо быстрее и на 50% дешевле в API. Особенно модель улучшила понимание визуальных и аудио данных по сравнению с существующими моделями.
До GPT-4o для взаимодействия с ChatGPT в режиме голоса использовалась цепочка из трех отдельных моделей, что приводило к задержкам в 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4 в среднем. GPT-4o, обученная на всех модальностях (текст, визуал, аудио) одновременно, позволяет сохранять больше информации и реагировать более естественно, включая смех, пение и выражение эмоций.
Оценки модели
Как было измерено на традиционных эталонах, GPT-4o достигает уровня производительности GPT-4 Turbo по тексту, рассуждениям и интеллектуальным способностям в программировании, одновременно устанавливая новые рекорды по многоязычным возможностям, а также способностям в области аудио и визуализации.
Улучшенное логическое мышление
GPT-4o устанавливает новый рекордный результат в 88,7% по 0-шаговому COT MMLU (вопросы общих знаний). Все эти оценки были собраны с использованием нашей новой библиотеки простых оценок. Кроме того, на традиционном 5-шаговом MMLU без использования CoT, GPT-4o устанавливает новый рекордный результат в 87,2%. (Примечание: Llama3 400b все еще обучается).
Безопасность модели и ограничения
GPT-4o разработан с учетом безопасности по всем модальностям, используя такие техники, как фильтрация обучающих данных и уточнение поведения модели после обучения. Мы также создали новые системы безопасности для обеспечения защиты на выходах голосовых данных.
Мы оценили GPT-4o в соответствии с нашей рамкой готовности и в соответствии с нашими добровольными обязательствами. Наши оценки в области кибербезопасности, ХБРН (химической, биологической, радиологической и ядерной угрозы), убеждения и автономии модели показывают, что GPT-4o не превышает средний уровень риска ни в одной из этих категорий. Эта оценка включала проведение комплекса автоматизированных и человеческих оценок на протяжении всего процесса обучения модели. Мы тестировали как версии модели до мер по обеспечению безопасности, так и после них, используя специальную донастройку и подсказки для лучшего выявления возможностей модели.
GPT-4o также прошла обширное внешнее “краснокомандное тестирование” с участием более 70 внешних экспертов в таких областях, как социальная психология, предвзятость и справедливость, а также дезинформация, чтобы выявить риски, вносимые или усиливаемые вновь добавленными модальностями. Мы использовали эти знания для разработки наших мер безопасности с целью повышения безопасности взаимодействия с GPT-4o. Мы будем продолжать снижать новые риски по мере их обнаружения.
Мы признаем, что аудио модальности GPT-4o представляют собой ряд новых рисков. Сегодня мы публикуем текстовые и изображенческие входы и текстовые выходы. В ближайшие недели и месяцы мы будем работать над технической инфраструктурой, удобством использования через послеобучение и безопасностью, необходимыми для выпуска других модальностей. Например, на момент запуска голосовые выходы будут ограничены подборкой предустановленных голосов и будут соответствовать нашим существующим политикам безопасности. Мы поделимся дополнительными подробностями, касающимися полного спектра модальностей GPT-4o, в предстоящей информационной карте системы.
ВИДЕО – презентация GPT-4o от OpenAI
Доступность модели
GPT-4o является нашим последним шагом в продвижении границ глубокого обучения, на этот раз в направлении практической применимости. За последние два года мы приложили много усилий для повышения эффективности на каждом уровне стека. В качестве первого результата этих исследований, мы можем предложить модель уровня GPT-4 для более широкого использования. Возможности GPT-4o будут внедряться постепенно (с расширенным доступом “красной команды”, начиная с сегодняшнего дня).
Возможности GPT-4o для работы с текстом и изображениями начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступной в бесплатном тарифе и для пользователей Plus с лимитом сообщений, увеличенным до 5 раз. В ближайшие недели мы выпустим новую версию режима голоса с GPT-4o в альфа-версии в рамках ChatGPT Plus.
Разработчики также могут теперь получить доступ к GPT-4o через API как к текстовой и визуальной модели. GPT-4o работает в 2 раза быстрее, стоит вдвое дешевле и имеет лимиты скорости, выше в 5 раз, по сравнению с GPT-4 Turbo. Мы планируем запустить поддержку новых аудио и видео возможностей GPT-4o для небольшой группы проверенных партнеров в API в ближайшие недели.