GPT-5: 4 новые функции, которые мы хотим увидеть

Быстрые ссылки

Что такое GPT-5 OpenAI?

Больше мультимодальности

Большее и более эффективное контекстное окно

Агенты GPT

Меньше галлюцинаций

GPT-4 от OpenAI на данный момент является лучшим инструментом генеративного ИИ на рынке, но это не значит, что мы не смотрим в будущее. Учитывая, что генеральный директор OpenAI Сэм Альтман регулярно намекает на GPT-5, вполне вероятно, что вскоре мы увидим новую, обновленную модель ИИ.

МУО Видео дня ПРОКРУТИТЕ, ЧТОБЫ ПРОДОЛЖИТЬ С СОДЕРЖАНИЕМ

По крайней мере, мы на это надеемся. Конкретной даты запуска GPT-5 не существует, и большая часть того, что, как мы думаем, мы знаем, получена в результате объединения другой информации и попыток соединить точки.

Тем не менее, независимо от даты выпуска, есть несколько ключевых функций, которые мы хотим увидеть при запуске GPT-5.

Что такое GPT-5 OpenAI?

GPT-5 является долгожданным преемником модели искусственного интеллекта OpenAI GPT-4, которая, как многие ожидают, станет самой мощной генеративной моделью на рынке. Хотя официальной даты выпуска GPT-5 в настоящее время нет, есть признаки того, что она может быть выпущена уже летом 2024 года. На данный момент известно очень мало подробностей о модели, но с некоторой долей уверенности можно сказать несколько вещей. уверенность:

OpenAI зарегистрировала товарный знак на это имя в Ведомство США по патентам и товарным знакам .
Несколько руководителей OpenAI обсуждали или намекали на возможные возможности модели.
Генеральный директор OpenAI Сэм Альтман неоднократно упоминал эту модель в марте 2024 года. Интервью на YouTube с Лексом Фридманом.

Все это указывает на одну захватывающую реальность: GPT-5 приближается! Тем не менее, на данный момент довольно многое является спекуляциями. Но есть несколько вещей, которые мы надеемся увидеть и вполне уверены в том, что увидим в модели. Вот некоторые из них:

1. Больше мультимодальности

Одним из наиболее интересных улучшений в семействе моделей ИИ GPT стала мультимодальность. Для ясности: мультимодальность — это способность модели ИИ обрабатывать не только текст, но и другие типы входных данных, такие как изображения, аудио и видео. Мультимодальность станет важным ориентиром для развития семейства моделей GPT в будущем.

Поскольку GPT-4 уже умеет обрабатывать входные и выходные изображения, улучшения, касающиеся обработки аудио и видео, являются следующей вехой для OpenAI, и GPT-5 — хорошее начало. Google уже добился серьезных успехов в такого рода мультимодальности со своей моделью Gemini AI. Для OpenAI было бы нетипично не ответить. Но, конечно, не верьте нам на слово. В его Подкаст «Распутай меня» [Стенограмма в формате PDF], Билл Гейтс спросил генерального директора OpenAI Сэма Альтмана, какие вехи он предвидит в серии GPT на ближайшие два года. Его первый ответ? Обработка видео.

Итак, мы ожидаем, что GPT-5 сможет экспериментировать с видео: загружать видео в качестве подсказок, создавать видео на ходу, редактировать видео с помощью текстовых подсказок, извлекать сегменты из видео и находить определенные сцены из больших видеофайлов. Мы ожидаем, что сможем делать то же самое с аудиофайлами. Да, это большой вопрос. Но, учитывая скорость развития ИИ, это вполне разумное ожидание.

2. Большее и более эффективное контекстное окно

Ральф Джетнер Борха/ фликр

Несмотря на то, что семейство моделей ИИ GPT является одной из самых сложных моделей ИИ на рынке, оно имеет одно из самых маленьких контекстных окон. Например, Claude 3 от Anthropic может похвастаться контекстным окном на 200 000 токенов. , пока Gemini от Google может обработать ошеломляющий 1 миллион токенов (128 000 для стандартного использования). Напротив, GPT-4 имеет относительно меньшее контекстное окно — 128 000 токенов, при этом примерно 32 000 токенов или меньше реально доступны для использования в таких интерфейсах, как ChatGPT.

почему хром такой пожиратель памяти

С появлением продвинутой мультимодальности улучшение контекстного окна практически неизбежно. Возможно, было бы достаточно увеличения в два или четыре раза, но мы надеемся увидеть что-то вроде десятикратного. Это позволит GPT-5 обрабатывать гораздо больше информации гораздо более эффективно. Однако большее контекстное окно не всегда означает лучшее. Итак, вместо того, чтобы просто увеличивать окно контекста, мы хотели бы видеть повышение эффективности обработки контекста.

Видите ли, модель может иметь окно контекста в один миллион токенов (около 700 000 слов), но не сможет выдать исчерпывающее резюме, когда ее попросят резюмировать книгу из 500 000 слов, потому что она не может адекватно обработать весь контекст, несмотря на наличие возможность сделать это в теории. То, что вы можете прочитать книгу в 500 тысяч слов, не означает, что вы можете вспомнить все, что в ней содержится, или разумно обработать ее.

3. Агенты GPT

Коширо К/ Шаттерсток

Возможно, одна из самых интересных возможностей выпуска GPT-5 — это дебют GPT Agents. Хотя термин «изменяющий правила игры», вероятно, слишком часто используется в сфере искусственного интеллекта, агенты GPT действительно изменят правила игры во всех практических смыслах. Но насколько это изменит правила игры?

Можете ли вы обновить MacBook Pro RAM?

В настоящее время модели искусственного интеллекта, такие как GPT-4, могут помочь вам выполнить задачу. Они могут написать электронное письмо, пошутить, решить математическую задачу или подготовить для вас сообщение в блоге. Однако они могут выполнять только эту конкретную задачу и не могут выполнить набор связанных задач, которые необходимы для выполнения вашей работы.

Допустим, вы веб-разработчик. В рамках вашей работы от вас ожидают многого: проектировать, писать код, устранять неполадки и многое другое. В настоящее время вы можете одновременно делегировать моделям ИИ только часть этих задач. Возможно, вы можете попросить модель GPT-4 написать код для домашней страницы, затем попросить ее сделать это для страницы контактов, затем для страницы «О программе» и т. д. Вам придется выполнять эти задачи итеративно. А есть задачи, которые модели просто не могут выполнить.

Этот итеративный процесс подсказки моделям ИИ для конкретных подзадач занимает много времени и неэффективен. В этом сценарии вы — веб-разработчик — являетесь человеческим агентом, ответственным за координацию и подсказку моделям ИИ по одной задаче за раз, пока вы не выполните весь набор связанных задач.

GPT Agents обещает специализированных экспертных ботов, координируемых, как мы надеемся, GPT-5, способных самостоятельно подсказывать и решать все подмножества сложных задач автономно. Акцент на «самоподсказках» и «автономности».

Итак, если GPT-5 поставляется с агентами GPT, вы можете попросить его «создать веб-сайт-портфолио для Максвелла Тимоти», а не просто «написать мне код для домашней страницы». Тогда GPT-5 теоретически сможет самостоятельно запрашивать запросы, вызывая опытных агентов ИИ для выполнения различных подзадач, необходимых для создания веб-сайта. Он может вызвать один GPT для поиска в Интернете информации о Максвелле Тимоти, другой агент для написания кода для разных страниц, другой агент для создания и оптимизации изображений и даже еще один агент ИИ для развертывания сайта, и все это без необходимости повторного вмешательства человека. подсказка.

4. Меньше галлюцинаций

Хотя OpenAI прошла долгий путь в борьбе с галлюцинациями в своих моделях ИИ, настоящей лакмусовой бумажкой для GPT-5 станет его способность решать постоянную проблему галлюцинаций, которая сдерживает широкое распространение ИИ в играх с высокими ставками. критически важные для безопасности области, такие как здравоохранение, авиация и кибербезопасность. Это все области, которые могли бы получить большую выгоду от активного участия ИИ, но в настоящее время избегают какого-либо значительного внедрения.

Для ясности, галлюцинация в этом контексте относится к ситуациям, когда модель ИИ генерирует и представляет правдоподобно звучащую, но полностью сфабрикованную информацию с высокой степенью достоверности.

Представьте себе сценарий, в котором GPT-4 интегрирован в диагностическую систему для анализа симптомов пациентов и медицинских отчетов. Галлюцинация может привести к тому, что ИИ с уверенностью поставит неправильный диагноз или порекомендует потенциально опасный курс лечения, основанный на воображаемых фактах и ложной логике. Последствия такой ошибки в медицинской сфере могут быть катастрофическими.

Подобные оговорки применимы и к другим областям, имеющим серьезные последствия, таким как авиация, ядерная энергетика, морские операции и кибербезопасность. Мы не ожидаем, что GPT-5 полностью решит проблему галлюцинаций, но ожидаем, что он значительно снизит вероятность таких инцидентов.

Поскольку мы с нетерпением ожидаем официального выпуска этой долгожданной модели ИИ, одно можно сказать наверняка: GPT-5 потенциально может переопределить границы возможного с искусственным интеллектом, открывая новую эру сотрудничества человека и машины и инноваций.