google deepmind демонстрирует технологию genrm: точная настройка llm в качестве моделей вознаграждения для улучшения возможностей генеративного ии-рассуждения

google deepmind демонстрирует технологию genrm: тонкую настройку llm в качестве моделей вознаграждения для улучшения возможностей генеративного ии-рассуждения

2024-09-03

3 сентября it house сообщила, что 27 августа команда google deepmind опубликовала документ об arxiv, в котором представила и продемонстрировала генеративный верификатор genrm и творчески предложила модель вознаграждения для улучшения возможностей генеративного ии-рассуждения.

в индустрии искусственного интеллекта в настоящее время основным подходом к улучшению больших языковых моделей (llm) является режим best-of-n, то есть n решений-кандидатов, сгенерированных llm, сортируются проверяющим и выбирается лучшее решение. .

такие валидаторы на основе llm обычно обучаются как дискриминационные классификаторы для оценки решений, но они не могут воспользоваться возможностями генерации текста предварительно обученных llm.

чтобы преодолеть это ограничение, команда deepmind попыталась использовать следующую цель прогнозирования токена для обучения верификатора при выполнении проверки и генерации решения.

генеративный верификатор (genrm) команды deepmind в основном включает в себя следующие преимущества по сравнению с традиционными верификаторами:

бесшовная интеграция командных настроек

поддержка цепочки рассуждений

использование дополнительных расчетов времени вывода посредством голосования большинством

при использовании валидаторов на основе gemma для решения алгоритмических задач и задач математического рассуждения в начальной школе genrm превосходит дискриминационные валидаторы и валидаторы llm-as-a-judge, увеличивая процент задач, решенных с использованием best-of-n, на 16–64%.

как сообщает google deepmind, преимущество genrm над категориальными моделями вознаграждения знаменует собой критическую эволюцию систем вознаграждения с использованием искусственного интеллекта, особенно с точки зрения их способности предотвращать мошенничество, изучаемое новыми моделями. этот прогресс подчеркивает острую необходимость улучшения моделей вознаграждения, чтобы привести результаты ии в соответствие со стандартами социальной ответственности.

новости

google deepmind демонстрирует технологию genrm: тонкую настройку llm в качестве моделей вознаграждения для улучшения возможностей генеративного ии-рассуждения

введение

моя контактная информация