новости

китайцы, родившиеся в 2000 году, опубликовали в журнале nature статью, в которой заявили, что большие модели менее надежны для человека.

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

работа китайца, родившегося в 2000-х годах, была опубликована в журнале nature, и эта большая модельная статья вызвала бурное обсуждение.

проще говоря, в статье было обнаружено, что более крупные модели, которые более точно следуют инструкциям, также становятся менее надежными, а в некоторых случаяхgpt-4 не так надежен, как gpt-3, при ответе на вопросы.

по сравнению с более ранними моделями, последние модели, которые обладают большей вычислительной мощностью и обратной связью с человеком, фактически ухудшили надежность ответов.

как только заключение стало известно, его сразу же привлекло к просмотру более 200 000 пользователей сети:

это также вызвало дискуссии на форуме reddit.

это напоминает людям, что многие модели экспертного/докторского уровня до сих пор не знают простого вопроса: «какая из них больше: 9,9 или 9,11».

что касается этого явления, в документе упоминается, что это также отражает:производительность модели не соответствует человеческим ожиданиям относительно сложности

другими словами, «llm одновременно преуспевают и (что более опасно) терпят неудачу там, где пользователи этого не ожидают».

илья суцкевер предсказал на 2022 год:

возможно, со временем эта разница уменьшится.

однако в данной статье обнаруживается, что это не так. не только серии gpt, llama и bloom, но дажеопенаиновыймодель o1 и клод-3.5-сонетесть также опасения по поводу надежности.

что еще более важно, в документе также было обнаруженополагайтесь на человеческий контроль для исправления ошибокэтот подход тоже не работает.

некоторые пользователи сети считают, что, хотя более крупные модели могут вызвать проблемы с надежностью, они также обеспечивают беспрецедентную функциональность.

нам необходимо сосредоточиться на разработке надежных методов оценки и повышении прозрачности.

другие полагают, что это исследование подчеркиваетиитонкие проблемы, с которыми пришлось столкнуться(балансирование расширения модели и надежности)

большие модели менее надежны, и полагаться на отзывы людей не работает.

чтобы проиллюстрировать вывод, в статье рассматриваются три ключевых аспекта, которые влияют на надежность llm с точки зрения человека:

1、непостоянная сложность: проваливаются ли программы llm там, где люди ожидают от них неудачи?
2、
уклонение от задач: избегают ли студенты llm ответов на вопросы, выходящие за рамки их возможностей?
3、
чувствительность к подсказкам языковых выражений: влияет ли сложность постановки задачи на эффективность постановки проблемы?

что еще более важно, авторы также анализируют исторические тенденции и то, как эти три аспекта развиваются в зависимости от сложности задачи.

разверните их один за другим ниже.

по первому вопросу в статье основное внимание уделяетсяэволюция правильности относительно сложности

судя по эволюции gpt и llama, по мере увеличения сложности корректность всех моделей будет существенно снижаться.(в соответствии с человеческими ожиданиями)

однако эти модели по-прежнему не могут решить многие очень простые задачи.

это означает, что пользователи-люди не могут обнаружить безопасное рабочее пространство llm и использовать его для обеспечения безупречной производительности развертывания модели.

удивительно, но новые llm в основном улучшают производительность при выполнении сложных задач, но не значительно улучшают результаты при выполнении более простых задач. например,гпт-4 по сравнению со своим предшественником гпт-3,5-турбо

вышеизложенное доказывает, что существует несоответствие между человеческими ожиданиями сложности и производительностью модели.и это несоответствие усугубляется в новой модели.

это также означает:

в настоящее время не существует безопасных условий эксплуатации, позволяющих людям определить, что llm можно доверять.

это особенно актуально в приложениях, требующих высокой надежности и определения безопасных рабочих пространств. это заставляет людей задуматься о том, действительно ли передовой машинный интеллект, над созданием которого упорно трудятся люди, является тем, чего ожидает общество.

во-вторых, что касается пункта 2, выводы статьи(избегание обычно относится к модели, отклоняющейся от ответа на вопрос или прямо заявляющей «я не знаю»)

по сравнению с предыдущими программами llm,новейшие программы llm радикально улучшают многие ответы, которые неверны или являются серьезной чепухой., а не тщательно избегать задач, выходящих за рамки их возможностей.

это также приводит к ироническому явлению: в некоторых тестах частота ошибок новых llm улучшается даже быстрее, чем точность (doge).

вообще говоря, чем сложнее задача, с которой сталкивается человек, тем больше вероятность того, что она будет неясной.

но реальная эффективность программ llm совершенно иная.их избегающее поведение не имеет существенной связи с трудностями.

это может легко привести к тому, что пользователи изначально будут чрезмерно полагаться на llm для выполнения задач, в которых они не очень хороши, но в конечном итоге разочаруют их.

как следствие, людям также необходимо проверять точность результатов модели и обнаруживать ошибки.(если вы хотите использовать llm для ленивости, вы получите большую скидку)

наконец, в статье обнаружено, что даже если некоторые показатели надежности улучшились, модель по-прежнему чувствительна к небольшим изменениям в формулировке той же проблемы.

дайте каштан, вопрос «можете ли вы ответить...?», а не «пожалуйста, ответьте на следующий вопрос...» приведет к различной степени точности.

анализ обнаружил:опираясь исключительно на существующие возможности масштабирования и формирования, вряд ли можно полностью решить проблему чувствительности индикации, поскольку последние модели существенно не оптимизированы по сравнению со своими предшественниками.

и даже если вы выберете лучший формат представления с точки зрения средней производительности, он может быть в основном эффективен для задач высокой сложности, но в то же время неэффективен для задач низкой сложности.(более высокий уровень ошибок)

это показывает, чточеловечество по-прежнему подвержено наводящему проекту

еще более пугающим является то, что газета обнаружила, чточеловеческий надзор не может снизить ненадежность модели

в документе на основе опросов людей анализируется, соответствует ли человеческое восприятие трудностей реальным результатам и могут ли люди точно оценить результаты модели.

результаты показываютв рабочей области, которую пользователи считают сложной, они часто считают неверные выходные данные правильными даже для простых задач, не существует безопасной рабочей области с низкой ошибкой модели и низкой ошибкой контроля;

вышеупомянутые проблемы ненадежности существуют во многих сериях llm, включая gpt, llama и bloom. в исследовании перечислено следующее.32 модели

эти модели демонстрируют разныерасширение масштабов(увеличение вычислений, размера модели и данных) иформирование(например, инструкции ft, rlhf).

в дополнение к вышесказанному авторы позже обнаружили, что некоторые из последних и мощных моделей также страдают от проблем с ненадежностью, упомянутых в этой статье:

включая модель o1 openai, claude-3.5-sonnet от antropicic и llama-3.1-405b от meta.

также есть документ, в котором приведены примеры.(подробную информацию см. в исходном документе)

кроме того, чтобы проверить, есть ли проблемы с надежностью у других моделей, автор использовал тестовые тесты, использованные в статье.надежностьскамейкаэто также открытый исходный код.

это набор данных, охватывающий пять областей: простая арифметика («сложение»), реорганизация словарного запаса («словесные головоломки»), географические знания («местоположение»), фундаментальные и сложные научные задачи («наука») и центрированные информационные технологии. трансформация («превращение»).

представление автора

первый документлексин чжоу, в настоящее время только что окончил кембриджский университет со степенью магистра в области компьютерных наук (24 года), и его исследовательский интерес — оценка больших языковых моделей.

до этого он получил степень бакалавра в области наук о данных в политехническом университете валенсии под руководством профессора хосе эрнандес-оралло.

его личная домашняя страница показывает, что у него было много стажировок. участвовал в красной команде тестирования на openai и meta.(консультационная компания red teaming)

что касается этой статьи, он сосредоточил внимание на:

проектирование и разработка общего искусственного интеллекта должныфундаментальное изменение, особенно в областях высокого риска, где предсказуемое распределение ошибок имеет решающее значение. прежде чем это будет достигнуто,существует опасность полагаться на человеческий надзор.

при оценке моделиучитывайте трудности, воспринимаемые человеком, и оценивайте модель избегающего поведения., может предоставить более полное описание возможностей и рисков модели, а не просто сосредоточиться на производительности при выполнении сложных задач.

в документе также конкретно упоминаются некоторые возможные причины этой ненадежности, а также решения:

в тестах scaling-up в последние годы все чаще добавляются более сложные примеры или придается больший вес так называемым «авторитетным» источникам. поэтому исследователи более склонны оптимизировать производительность моделей при выполнении сложных задач, что приводит к хроническому состоянию. ухудшение постоянства сложности.

при формировании (например, rlhf) нанятый человек склонен наказывать ответы, которые обходят задачу, в результате чего модель с большей вероятностью будет «говорить чепуху», когда сталкивается со сложными проблемами, которые она не может решить.

как решить эту ненадежностьв документе предполагается, что человеческие ожидания сложности можно использовать для лучшего обучения или точной настройки модели, а сложность задачи и уверенность модели можно использовать для лучшего обучения модели избегать проблем, выходящих за рамки ее собственных возможностей, и т. д.

что вы думаете об этом?