ChatGPT получил новую модель GPT-4o: что умеет нейросеть и где ее попробовать

kesady · 19.05.2024

13 мая OpenAI провела презентацию, на которой представила новую улучшенную модель GPT-4o.
GPT-4 Omni, или просто GPT-4o, одновременно работает с текстом, картинками, видео и аудио. Раньше в ChatGPT для каждого формата действовали разные нейросетевые модели — это влияло на скорость ответов и качество результатов. Получается, новое поколение фактически переизобрело то, что зовется мультимодальностью в современных нейросетях.
В презентации отдельно сделали акцент на возможностях GPT-4o в качестве голосового помощника. Нейросеть эмоционально разговаривает, использует разные интонации и даже обладает харизмой — разработчики неоднократно отсылались к фильму «Она» . Расскажу, что показали на презентации, какие есть сценарии использования модели и где ее можно попробовать.

Что может GPT-4o

Вот чем GPT-4o отличается от предыдущих моделей.
Голосовой ассистент распознает речь и поддерживает диалоги в реальном времени. Взаимодействие происходит более естественно, чем раньше: время отклика на аудиозапросы составляет в среднем 0,3 секунды, что сопоставимо со скоростью реакции человека.
Нейросеть говорит не роботизированным монотонным голосом, а смеется, выражает эмоции, меняет интонации и даже поет.

Распознавание видео и изображений. GPT-4o лучше анализирует и интерпретирует визуальные данные. Она распознает объекты, действия и сцены в видео. Например, модель смогла транскрибировать ролик и выделить разных спикеров с записи встречи. Раньше нейросеть работала только со статичными изображениями: картинками, скриншотами, фото.
Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений. Она работает по принципу end-to-end, что означает, что все виды информации обрабатываются одной нейросетью.

Обработка текста соответствует уровню GPT-4 Turbo при работе на английском. На других языках работу существенно улучшили.
Увеличенное контекстное окно. Нейросети можно «скармливать» большие объемы информации. На презентации она поддерживала разговор в течение семи минут, а в примерах на сайте OpenAI сделала краткий пересказ 40-минутного видео.
Улучшенная работа с изображениями. Нейросеть создает текст практически без артефактов, а также консистентных персонажей в разных позах и 3D-модели.

Как получить доступ к GPT-4o и будет ли она бесплатной

Пока нейросеть доступна только с текстовыми и визуальными возможностями. Когда появится поддержка аудио и видео, неизвестно.
Разработчикам GPT-4o доступна по API. Она работает в два раза быстрее и стоит в два раза дешевле, чем GPT-4 Turbo. Компания также пересмотрела токенизацию : например, при генерации на русском языке количество токенов уменьшилось в 1,7 раза.

ChatGPT получил новую модель GPT-4o: что умеет нейросеть и где ее попробовать

kesady

Созидатель (II)

Что может GPT-4o​

Как получить доступ к GPT-4o и будет ли она бесплатной​

Что может GPT-4o

Как получить доступ к GPT-4o и будет ли она бесплатной