новости

o1 превосходит gpt-4 в медицинской сфере, и его производительность стремительно возрастает! китайская команда опубликовала статью: «мы становимся ближе к врачам с искусственным интеллектом».

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina



  новый отчет мудрости

редактор: лрс
[введение в новую мудрость]модель o1 openai продемонстрировала замечательную производительность при выполнении общих языковых задач. последняя оценка показывает производительность модели o1 в медицинской области с упором на понимание, рассуждение и многоязычные возможности. результаты значительно превзошли предыдущие модели!


когда модель большого языка была впервые выпущена, она успешно справилась со своей задачей, универсальностью предметной области и возможностями плавной генерации текста. однако в то время технологию можно было применять только для некоторых относительно простых задач.


с появлением быстрых технологий, таких как цепочка мышления, особенно недавно выпущенной модели o1 openai, она первой внедрила технологию внутренней цепочки мышления для стратегии обучения с подкреплением, которая улучшает способность больших моделей решать сложные проблемы и рассуждать для совершенно новый уровень.


хотя модель o1 продемонстрировала удивительно сильные возможности при решении различных общеязыковых задач, ее эффективность в профессиональных областях, таких как медицина, до сих пор неизвестна.


китайская группа из калифорнийского университета в санта-крус, эдинбургского университета и национальных институтов здравоохранения совместно опубликовала отчет, в котором провела всестороннее исследование o1 в различных медицинских сценариях и исследовала эффективность модели в понимании и рассуждении. .) и многоязычность.



оценка охватывает шесть задач с использованием данных из 37 наборов медицинских данных, включая две сложные задачи с вопросами и ответами, основанные на медицинском журнале новой англии (nejm) и профессиональном медицинском тесте lancet.


по сравнению со стандартными тестами ответов на медицинские вопросы, такими как medqa, эти наборы данных более клинически значимы и могут более эффективно применяться в реальных клинических сценариях.


анализ модели o1 показывает, что улучшение способности llm к рассуждению в большей степени способствует пониманию моделью различных медицинских инструкций, а также может улучшить способность модели рассуждать в сложных клинических сценариях.


стоит отметить, что точность модели o1 в 19 наборах данных и двух сложных сценариях вопросов и ответов превысила предыдущую gpt-4 в среднем на 6,2% и 6,6%.


в то же время исследователи обнаружили несколько недостатков в возможностях модели и существующих протоколах оценки, включая галлюцинации, непоследовательные многоязычные возможности и непоследовательные показатели оценки.


комплексная оценка медицинских возможностей крупных моделей


с точки зрения улучшения способности модели к рассуждению, подсказки цепочки мыслей (cot) представляют собой широко используемую стратегию подсказок, которая использует шаблоны рассуждений в модели для повышения способности решать сложные задачи.


модель o1 делает еще один шаг вперед, встраивая процесс cot в обучение модели, интегрируя обучение с подкреплением и демонстрируя высокую производительность рассуждений, однако модель o1 еще не оценивалась с использованием данных в профессиональных областях, и ее эффективность при выполнении конкретных задач все еще остается низкой; неизвестный.



существующие тесты llm в области медицины обычно оценивают только определенные возможности модели, такие как знания и рассуждения, безопасность и многоязычность. тесты относительно изолированы друг от друга и не могут всесторонне оценить расширенные модели, такие как o1.



чтобы обеспечить всестороннюю оценку, исследователи собрали различные медицинские задачи и наборы данных, охватывающие вышеупомянутые аспекты, и в процессе изучили три стратегии подсказок, в том числе:


1. прямые подсказки, помогающие использовать большие языковые модели для непосредственного решения проблем.

2. цепочка мышления, которая требует, чтобы модель думала шаг за шагом, прежде чем генерировать окончательный ответ.

3. несколько подсказок предоставляют модели несколько примеров для изучения сопоставления ввода-вывода на лету.


наконец, используйте соответствующую метрику для измерения разницы между сгенерированными ответами и реальными ответами.



фокус и задачи


исследователи использовали 35 существующих наборов данных и создали 2 дополнительных набора данных с более высокой сложностью для оценки, а затем классифицировали все 37 наборов данных на 3 аспекта и 6 задач для более четкой оценки и анализа, чтобы понять, как модель работает в конкретной области.


пониманиеотносится к способности модели использовать свои внутренние медицинские знания для понимания медицинских концепций.


например, в задачах по распознаванию концепций модели должны извлекать или разрабатывать медицинские концепции из статей или диагностических отчетов; при обобщении текста модели должны понимать концепции в сложных текстах для создания кратких изложений;


рассуждениепроверьте способность модели логически мыслить, выполняя несколько шагов, чтобы прийти к выводам.


в задачах вопросов и ответов модель должна следовать подсказкам, рассуждать на основе медицинской информации, представленной в вопросе, и выбирать правильный ответ из нескольких вариантов.


в дополнение к общим наборам данных вопросов и ответов исследователи также собрали реальные клинические вопросы из the lancet, the new england journal of medicine (nejm) и medbullets, чтобы лучше оценить клиническую полезность llm.


в задачах клинических рекомендаций модели должны предоставлять рекомендации по лечению или диагностические решения на основе информации о пациенте. в наборах данных ai hospital и agentclinic модель должна выступать в роли медицинского агента, в наборе данных medcalc-bench модель должна выполнять математические рассуждения и рассчитывать ответы;


многоязычие, языки ввода инструкций и вывода ответов разные.


набор данных xmedbench требует, чтобы llm отвечали на медицинские вопросы на шести языках, включая китайский, арабский, хинди, испанский, китайский и английский; в наборе данных ai hospital модель должна использовать китайский язык для вопросов и ответов.


показатели оценки


точность, прямая мера процента ответов, сгенерированных моделью, которые точно соответствуют истинному ответу.


в основном используется, когда реальным ответом является слово или фраза, включая наборы данных вопросов с несколькими вариантами ответов, наборы данных medcalcbench, а также наборы данных клинических рекомендаций и идентификации концепций.


оценка f1, гармоническое среднее точности и полноты, используется в наборах данных, где модели необходимо выбрать несколько правильных ответов.


синий и ружь, показатель обработки естественного языка, который измеряет сходство между сгенерированными ответами и реальными ответами, используя bleu-1 и rouge-1 для всех задач генерации в свободной форме в оценке.


alignscoreметрика, которая измеряет согласованность сгенерированных текстовых фактов, использует alignscore для всех неуказанных задач создания формата, чтобы оценить степень иллюзии модели.


лиловый, метрика, измеряющая разницу между распределением сгенерированного текста и текста, написанного человеком, используется для всех задач генерации неуказанного формата. значение метрики находится в диапазоне от 0 до 100, причем более высокие значения указывают на более высокое качество модели. выход.


результаты экспериментов


подскажите стратегию


для задач на вопросы и ответы на знания, задач агента, медицинских вычислительных задач и задач, связанных с многоязычностью, используйте методы прямой оперативной оценки;


для других задач meds-bench используется стратегия подсказок с тремя образцами в настройках эталона.



согласно заявлению openai, общие методы подсказок, такие как «цепочка мыслей» (cot) и «примеры в контексте», не очень полезны для повышения производительности o1, поскольку в модель уже встроен неявный cot.


чтобы дополнительно проверить это утверждение, исследователи добавили к оценке эффекты нескольких расширенных сигналов, включая cot, самосогласованность и рефлекс.


помимо выбора моделей gpt-3.5, gpt-4 и o1 для оценки, исследователи также выбрали две модели с открытым исходным кодом: одна — это большая языковая модель meditron-70b, обученная на данных медицинского центра, и новейшая и самая мощная модель с открытым исходным кодом. модель большая языковая модель llama3-8b


основные результаты


возможности o1 в клиническом понимании были расширены


когда была выпущена модель o1, openai в основном подчеркивала еезначительные улучшения знаний и способностей к рассуждению, таких как решение математических задач и генерация кода, также можно наблюдать по результатам экспериментов, и эту способность также можно перенести на понимание конкретных клинических знаний.



видно, что o1 превосходит другие модели с точки зрения понимания большинства клинических задач. например, o1 превосходит gpt-4 и gpt-3.5 в среднем по 5 наборам данных по распознаванию концепций с использованием f1 в качестве метрики соответственно на 7,6% и 26,6%. выше, со средним улучшением на 24,5% в обычно используемом наборе данных bc4chem.



при выполнении суммарного задания o1 улучшил свой показатель rouge-1 на 2,4% и 3,7% соответственно по сравнению с gpt-4 и gpt-3,5, доказывая его улучшенные способности к реальному клиническому пониманию. результаты также подтвердили роль больших языковых моделей. достижения в области общей обработки естественного языка могут эффективно привести к улучшению понимания моделей в области медицины.


мощные логические способности модели o1 в сценариях клинического диагноза.


в задачах, связанных с рассуждением, модель o1 также продемонстрировала свои преимущества в реальных диагностических ситуациях.


в недавно созданных сложных задачах с ответами на вопросы nejmqa и lancetqa средняя точность o1 в соответствующих наборах данных улучшена на 8,9% и 27,1% по сравнению с gpt-4 (79,6%) и gpt-3,5 (61,5%) соответственно.


еще одним заметным улучшением возможностей математического рассуждения o1 является то, что он улучшает базовый показатель medcalc-bench до 34,9%, что на 9,4% выше, чем у gpt-4.


в более сложных сценариях рассуждения, включающих несколько раундов диалога и моделирования окружающей среды, o1 превосходит gpt-4 и gpt-3.5 в тесте agentclinic, набирая как минимум 15,5% и 10% в подмножествах medqa и nejm соответственно. уровень точности был улучшен. , с баллами 45,5% и 20,0% соответственно.


помимо более высокой точности, ответы o1 также более краткие и прямые, в то время как gpt-4 генерирует галлюцинаторные объяснения рядом с неправильными ответами.



исследователи полагают, что улучшение знаний и рассуждений o1 в основном связано с использованием расширенных данных и базовых методов (таких как данные cot и методы обучения с подкреплением) во время процесса обучения.


основываясь на приведенных выше оптимистичных результатах, исследователи с волнением заявили в статье: «с моделью o1 мы все ближе и ближе приближаемся к полностью автоматическому ии-врачу».


ссылки: