ИИ полностью побеждает человеческих врачей! Исследование показало, что принятие клинических решений в больших моделях является поспешным и небезопасным, а самый низкий уровень точности составляет всего 13

ИИ полностью побеждает человеческих врачей! Исследование показало, что принятие клинических решений в больших моделях является поспешным и небезопасным, при этом самый низкий уровень точности составляет всего 13.

2024-07-29

Будут ли врачи-люди уволены из-за крупных моделей, таких как ChatGPT?

Это беспокойство не беспочвенно. Ведь большая модель Google (Med-PaLM 2) легко прошла USMLE и достигла уровня медицинского эксперта.

Однако новое исследование показывает:С клинической точки зрения,Человеческие врачи могут полностью победить нынешнюю модель искусственного интеллекта (ИИ), и нет необходимости слишком беспокоиться о личной «безработице».

Соответствующая исследовательская статья под названием «Оценка и смягчение ограничений больших языковых моделей при принятии клинических решений» была недавно опубликована в научном журнале Nature Medicine.

Исследование показало, что даже самые продвинутые модели большого языка (LLM) не могут поставить точный диагноз всем пациентам и работают значительно хуже, чем врачи-люди.

Точность диагноза врачей составила 89%, тогда как точность диагноза LLM - всего 73%. В одном крайнем случае (диагноз холецистита) LLM был правильным только в 13% случаев.

Еще более удивительно то, что точность диагностики LLM снижается по мере того, как о случае становится все больше информации, а иногда даже требуются тесты, которые могут представлять серьезный риск для здоровья пациента.

Как работает LLM в качестве врача скорой помощи?

Хотя LLM может легко сдать USMLE,Экзамен на получение медицинской лицензии и клинические случаи подходят только для проверки общих медицинских знаний кандидатов и гораздо менее сложны, чем повседневные сложные задачи по принятию клинических решений. 。

Принятие клинических решений — это многоэтапный процесс, который требует сбора и интеграции данных из разрозненных источников, а также постоянной оценки фактов для принятия обоснованных решений о диагностике и лечении пациентов.

Для дальнейшего изучения потенциала LLM в клинической диагностике исследовательская группа из Мюнхенского технического университета и их сотрудники создали базу данных, охватывающую 2400 реальных случаев пациентов и 4 распространенных заболевания брюшной полости, на основе базы данных рынка интенсивной терапии медицинской информации (MIMIC-IV). аппендицит, панкреатит, холецистит и дивертикулит).Смоделируйте реалистичную клиническую среду и воспроизведите процесс от отделения неотложной помощи до лечения. , тем самым оценивая его пригодность в качестве лица, принимающего клинические решения.

Рисунок | Источник набора данных и структура оценки. Этот набор данных получен на основе реальных случаев в базе данных MIMIC-IV и содержит полные данные электронных медицинских карт, записанных во время госпитализации. Система оценки отражает реальную клиническую ситуацию и обеспечивает комплексную оценку LLM по множеству критериев, включая точность диагностики, соблюдение руководств по диагностике и лечению, последовательность в следовании инструкциям, способность интерпретировать результаты лабораторных исследований и реакцию на изменения в инструкциях. устойчивость к изменениям объема и порядка информации. МКБ – Международная классификация болезней; КТ, компьютерная томография, УЗИ, магнитно-резонансная холангиопанкреатография;

Исследовательская группа протестировала Llama 2 и его производные, включая общие версии (такие как Llama 2 Chat, Open Assistant, WizardLM) и модели, ориентированные на медицинскую сферу (такие как Clinical Camel и Meditron).

Из-за проблем конфиденциальности и соглашений об использовании данных MIMIC данные не могут использоваться для внешних API, таких как OpenAI или Google, поэтому ChatGPT, GPT-4 и Med-PaLM не тестировались. Примечательно, что Llama 2, Clinical Camel и Meditron сравнялись или превзошли ChatGPT по эффективности на экзаменах по медицинскому лицензированию и биомедицинских тестах вопросов и ответов.

тестовая контрольная группа В исследование были включены четыре врача из двух стран с разным стажем работы в неотложной помощи (2, 3, 4 и 29 лет соответственно). Результаты показали, что LLM показала гораздо худшие результаты в клинической диагностике, чем врачи-люди.

1. Диагностическая эффективность ЛЛМ значительно ниже клинической.

Результаты врачей показывают, что действующие ЛЛМ значительно уступают врачам по общим показателям всех заболеваний (Р < 0,001),Разрыв в диагностической точности составляет от 16% до 25%. . Хотя модель хорошо работает при диагностике простого аппендицита, она плохо диагностирует другие патологии, такие как холецистит. В частности, модель Meditron не справляется с диагностикой холецистита и часто диагностирует у пациентов «камни в желчном пузыре».

Профессиональная медицинская LLM по общим характеристикам существенно не превосходит другие модели. , а когда LLM потребуется собрать всю информацию самостоятельно, его производительность еще больше ухудшится.

Рисунок | Точность диагностики при условии предоставления всей информации. Данные основаны на подмножестве MIMIC-CDM-FI (n = 80), средняя диагностическая точность показана над каждой полосой, а вертикальная линия представляет стандартное отклонение. Средняя эффективность LLM была значительно хуже (P <0,001), особенно при холецистите (P <0,001) и дивертикулите (P <0,001).

Рисунок | Диагностическая точность в сценариях автономного принятия клинических решений. По сравнению со сценарием полного предоставления информации общая точность оценки модели значительно снизилась. LLM показал лучшие результаты в диагностике аппендицита, но плохие результаты при трех патологиях: холецистите, дивертикулите и панкреатите.

2. Принятие клинических решений в LLM является поспешным и небезопасным.

Исследовательская группа обнаружила, чтоLLM плохо соблюдает диагностические рекомендации и легко упускает важную информацию о пациенте. . Также отсутствует последовательность в назначении пациентам необходимых лабораторных исследований. LLM также имеет существенные недостатки в интерпретации лабораторных результатов. Это говорит о том, что они ставят поспешные диагнозы, не до конца разобравшись в ситуации пациента, что представляет собой серьезный риск для здоровья пациента.

Рисунок | Оценка методов лечения, рекомендуемых LLM. Желаемая схема лечения была определена на основе клинических рекомендаций и лечения, фактически полученного пациентами в наборе данных. Из 808 пациентов Llama 2 Chat правильно поставил диагноз 603 людям. Из этих 603 пациентов Лама 2 Чат правильно рекомендовал аппендэктомию в 97,5% случаев.

3. LLM по-прежнему требует тщательного клинического наблюдения со стороны врачей.

кроме того,Все текущие программы LLM плохо соблюдают базовые медицинские рекомендации. , ошибка возникает в каждых 2-4 случаях, а несуществующее наведение придумывается в каждых 2-5 случаях.

Рисунок | Производительность LLM при разных объемах данных. В исследовании сравнивались характеристики каждой модели с использованием всей диагностической информации и использования только одного диагностического обследования и истории текущего заболевания. Почти для всех заболеваний в наборе данных MIMIC-CDM-FI предоставление всей информации не привело к оптимальной производительности. Это говорит о том, что LLM не может сосредоточиться на ключевых фактах, а производительность снижается, когда предоставляется слишком много информации.

Исследование также показало, что порядок информации, обеспечивающий наилучшую производительность для каждой модели, различен для каждой патологии, что, несомненно, еще больше увеличивает сложность последующей оптимизации модели. Эту задачу невозможно выполнить надежно без тщательного наблюдения врача и предварительной оценки. В целом, у них есть детальные недостатки в следовании инструкциям, порядке обработки информации и обработке соответствующей информации, и поэтому для обеспечения их правильного функционирования требуется значительный клинический контроль.

Хотя исследование выявило различные проблемы с клинической диагностикой LLM, LLM по-прежнему имеет большие перспективы в медицине и, вероятно, будет более подходящим для диагностики на основе истории болезни и результатов анализов. Исследовательская группа считает, чтоЭта исследовательская работа имеет возможности для дальнейшего расширения в следующих двух аспектах: ：

Проверка и тестирование модели. Дальнейшие исследования должны быть сосредоточены на более комплексной проверке и тестировании LLM, чтобы гарантировать ее эффективность в реальных клинических условиях.
Междисциплинарное сотрудничество: экспертам по искусственному интеллекту рекомендуется тесно сотрудничать с клиницистами для совместной разработки и оптимизации LLM, подходящего для клинической практики, и решения проблем практического применения.

Как ИИ меняет здравоохранение?

Не только вышеупомянутое исследование, но и команда Национальных институтов здравоохранения (NIH) и их сотрудники также обнаружили аналогичные проблемы — при ответе на 207 вопросов, связанных с изображениями,Хотя GPT-4V дает высокие результаты при выборе правильного диагноза, он часто допускает ошибки при описании медицинских изображений и объяснении причин диагноза. 。

Хотя ИИ в настоящее время намного уступает профессиональным врачам-людям, его исследования и применение в медицинской промышленности всегда были важным «полем битвы» для конкуренции между отечественными и зарубежными технологическими компаниями и научно-исследовательскими университетами.

Например, Google публикуетБольшая модель медицинского искусственного интеллекта Med-PaLM2 , обладает мощными диагностическими и лечебными возможностями, а также является первой крупной моделью, достигшей «экспертного» уровня в тестовом наборе MedQA.

Предложено исследовательской группой из Университета Цинхуа.«Агентская больница» , может моделировать весь процесс лечения заболеваний, и его основная цель — позволить агенту-врачу научиться лечить болезни в моделируемой среде и даже постоянно накапливать опыт успешных и неудачных случаев для достижения саморазвития.

Гарвардская медицинская школа возглавляет разработку нового инструмента для лечения патологий человекаОбщий ИИ-помощник по визуальному языку — PathChat , который может правильно идентифицировать заболевания по секциям биопсии почти в 90% случаев, а его производительность лучше, чем у обычных моделей искусственного интеллекта и профессиональных медицинских моделей, представленных в настоящее время на рынке, таких как GPT-4V.

Рисунок | Инструкции по тонкой настройке набора данных и построению PathChat

Недавно генеральный директор OpenAI Сэм Альтман принял участие в создании новой компании Thrive AI Health, целью которой является использование технологии искусственного интеллекта, чтобы помочь людям улучшить свои повседневные привычки и снизить смертность от хронических заболеваний.

Они сказали,Гиперперсонализированная технология искусственного интеллекта Оно может эффективно улучшить образ жизни людей, тем самым предотвращая и леча хронические заболевания, снижая экономическое бремя медицины и улучшая общее состояние здоровья людей.

Сегодня применение ИИ в медицинской промышленности постепенно перешло от начальной экспериментальной стадии к стадии практического применения, но, возможно, предстоит еще пройти долгий путь, прежде чем он сможет помочь клиницистам расширить свои возможности, улучшить процесс принятия клинических решений или даже напрямую заменить его.

Новости

Введение

моя контактная информация