Hitech logo

Кейсы

В DeepMind обнаружили, что БЯМ способны к «многократному» обучению

TODO:
Дарина Житова25 апреля, 12:31

Исследователи из Google DeepMind изучили возможности больших языковых моделей (БЯМ), которые могут работать с большим объемом текста через контекстное окно. Это исследование показало, что при включении сотен или даже тысяч примеров обучения непосредственно в запрос, возможности модели значительно улучшаются, а необходимость в традиционной тонкой настройке отпадает. Проще говоря, обучать БЯМ можно обычными текстовыми запросами, главное, чтобы они были объемными и содержали множество качественных примеров.

Самые интересные технологические и научные новости выходят в нашем телеграм-канале Хайтек+. Подпишитесь, чтобы быть в курсе.

Многие популярные БЯМ способны усваивать новые задачи, используя примеры, представленные во время вывода и обладают способностью обучаться «в контексте». Это означает, что для обучения модели достаточно предоставить ей примеры решенных задач и новую задачу для решения — не нужно менять внутренние параметры. Такой подход упрощает обучение ИИ и делает его доступнее для широкого круга пользователей. Однако, способность модели к обучению ограничена размером окна контекста. Например, у модели GPT-3 это окно составляет всего 2000 токенов, поэтому ей все же нужно менять параметры.

Нынешние модели, такие как Gemini 1.5 Pro, способны работать с более чем миллионом токенов, что позволяет использовать тысячи примеров в каждом запросе. Это расширение возможностей значительно улучшает производительность моделей в различных задачах, таких как перевод малораспространенных языков, решение математических задач, понимание тона текста и другие. По результатам исследований, производительность модели продолжает расти с увеличением количества примеров в запросе.

Тем не менее, существует ограничение, связанное с необходимостью создания большого количества качественных примеров, что особенно затруднительно в задачах, требующих рассуждений. Исследователи предложили две новые техники для уменьшения зависимости от данных, созданных человеком: усиленное ICL (многоразовое обучения в контексте), которое использует примеры, сгенерированные другой моделью, и неконтролируемое ICL, которое опирается на внутренние знания модели о задаче.

В своем исследовании они также обнаружили, что методика ICL помогает модели преодолевать стереотипы мышления, закрепившиеся из-за прежнего обучения. Таким образом можно даже натренировать модель решать задачи, которые не связаны с естественным языком, где обычное обучение на нескольких примерах оказывается неэффективным.

Исследователи полагают, что ICL станет важным инструментом разработки и тестирования новых приложений на основе БЯМ на начальной стадии. Однако на этапе масштабирования проектов важно будет использовать все доступные техники для сокращения токенов. На этой стадии наиболее перспективно задействовать малые модели.