КАК СОЗДАТЬ ПРИЛОЖЕНИЕ С ПОМОЩЬЮ CHATGPT?

ChatGPT является производным от InstructGPT, который предложил инновационный метод интеграции обратной связи с человеком в процедуру обучения для лучшей синхронизации результатов модели с целями пользователей. Методика, известная как обучение с подкреплением на основе обратной связи с человеком (RLHF), всесторонне описана в публикации OpenAI 2022 года “Обучение языковых моделей следованию инструкциям с обратной связью с человеком”. Вот упрощенное объяснение процесса.

После завершения этапа предварительного обучения начинается тонкая настройка. Дальнейшее обучение ChatGPT проводится на меньшем, тщательно подобранном наборе данных, адаптированном к целевой области или задаче. Этот набор данных состоит из пар ввода-вывода, сгенерированных людьми-этикетировщиками, которые предоставляют ожидаемые ответы на список запросов.

Параметры ChatGPT обновляются во время точной настройки для лучшего соответствия целевой задаче или предметной области. Этот процесс позволяет модели генерировать более точные, релевантные и полезные ответы для конкретного контекста или текущей проблемы. Точная настройка настраивает общие языковые навыки ChatGPT, приобретенные в ходе предварительного обучения, в соответствии с конкретными требованиями желаемой задачи.

Этап точной настройки может также включать такие методы, как обучение с подкреплением на основе обратной связи с человеком (RLHF), что помогает минимизировать вредные, неправдивые или предвзятые результаты. Этот метод включает в себя комбинацию контролируемой тонкой настройки, моделирования вознаграждения и ближайшей оптимизации политики (PPO). RLHF стремится оптимизировать ответы модели на основе предпочтений человека, гарантируя, что модель генерирует точный текст, удобный для пользователя и соответствующий желаемому результату. Подробнее о курсе по разработке мобильных приложений с помощью искусственного интеллекта читайте на страницах https://skymodai.com/skymodai-mvp специализированного сайта.

Для точной настройки модели GPT3 используется несколько этапов. Вот подробный обзор:

Шаг 1: Модель контролируемой точной настройки (SFT)

Начальный этап разработки ChatGPT включал в себя контролируемую точную настройку (SFT) модели GPT-3. Команда из 40 подрядчиков создала контролируемый обучающий набор данных, содержащий входные данные с соответствующими известными выходными данными. Входные данные или подсказки были получены из реальных пользовательских запросов, отправленных в OpenAI API. Затем подрядчики составили подходящие ответы на эти запросы, таким образом создав набор данных с известными парами ввода-вывода. Используя этот набор данных, GPT-3 был доработан для создания модели SFT, также называемой GPT-3.5.

Набор данных был разработан для максимального разнообразия подсказок. Для достижения этой цели на каждый идентификатор пользователя было наложено ограничение в 200 подсказок, а подсказки с длинными общими префиксами были опущены. Кроме того, любые подсказки, содержащие личную информацию (PII), были исключены для защиты конфиденциальности пользователей.

В дополнение к сбору подсказок из OpenAI API, подрядчикам было поручено создать примеры подсказок для расширения категорий, в которых не хватало существенных реальных данных. Целевые категории включали:

  • Простые подсказки: Это общие запросы без какого-либо конкретного контекста.
  • Краткие подсказки: Это инструкции, содержащие несколько пар запрос-ответ.
  • Пользовательские подсказки: Они соответствуют конкретным вариантам использования, запрошенным через OpenAI API.

При формулировании ответов подрядчики стремились расшифровать предполагаемую инструкцию пользователя. В документе, описывающем процесс, выделены три основных способа поиска информации в запросах:

  • Прямые: запросы типа “Расскажите мне о …” запрашивают информацию напрямую.
  • Несколько советов: В этих подсказках приведены два примера по теме и предлагается привести еще один пример.
  • Продолжение: Здесь подсказки начинают историю и просят модель завершить ее.

Объединение подсказок из OpenAI API и тех, что созданы подрядчиками, привело к созданию набора данных из 13 000 пар ввода / вывода, что обеспечивает прочную основу для контролируемой модели.

Шаг 2: Модель вознаграждения

После обучения модели SFT, как описано на первом этапе, она начинает выдавать ответы, которые более точно соответствуют запросам пользователя. Следующий уровень доработки включает внедрение модели вознаграждения. Эта модель использует последовательность подсказок и ответов в качестве входных данных и выводит скалярное значение, называемое «вознаграждением’. Модель вознаграждения играет ключевую роль в применении обучения с подкреплением, когда модель учится генерировать результаты, максимизирующие вознаграждение (как описано на шаге 3).

Для обучения модели вознаграждения разработчикам этикеток было показано от 4 до 9 выходных данных модели SFT для одного запроса ввода. Их задачей было ранжировать эти выходные данные в порядке качества, от лучших к худшим, создавая таким образом различные комбинации ранжирования выходных данных. Однако обработка каждой комбинации как отдельной точки данных в модели привела к переоснащению, которое заключается в неспособности модели экстраполировать данные дальше, чем те, которые она видела.

Чтобы исправить это, при построении модели каждая группа рейтингов рассматривалась как единая точка пакетных данных. Такой подход гарантировал, что модель могла лучше обобщаться и избегать переобучения.

Шаг 3: модель обучения с подкреплением (RL)

Заключительный этап включает в себя применение модели обучения с подкреплением (RL). На этом этапе модель дополнительно уточняется с помощью обучения с подкреплением. Модели выдается случайное приглашение, и она реагирует на основе политики, изученной на этапе контролируемой тонкой настройки (SFT). Политика представляет стратегию, которую приобрела модель для максимизации вознаграждения. Модель вознаграждения, разработанная в ходе SFT, присваивает паре подсказок и ответов скалярное значение вознаграждения. Затем это вознаграждение используется для руководства моделью RL по дальнейшему совершенствованию своей политики.

Хотя шаги второй и третий можно повторять итеративно для дальнейшего совершенствования модели, это не было широко реализовано на практике.