Проверяли ИИ вслепую — и не смогли найти разницу. Только вот одна деталь всё меняет.
В приёмном покое решения принимают на ходу: врач должен быстро понять, кому нужна помощь в первую очередь, что происходит с пациентом и какие действия выбрать. Новый эксперимент показывает, что часть такой работы уже может выполнять нейросеть — и иногда справляется не хуже человека.
Модель o1-preview от OpenAI , представленная в 2024 году, проверили на сложных клинических задачах. Алгоритм относится к так называемым рассуждающим моделям: перед ответом система перебирает несколько вариантов, проверяет выводы и уточняет решение. Такой подход ближе к тому, как врач анализирует симптомы и строит гипотезы.
На базе клинических случаев из проверенной медицинской базы модель ставила диагноз почти в 89% ситуаций. Для сравнения, GPT-4 показала около 73%. o1-preview также лучше справлялась с выбором следующего шага: какие анализы назначить, какое лечение начать, как действовать в сложных сценариях вроде подбора антибиотика или обсуждения тяжёлого прогноза.
Разница становилась заметнее на редких и сложных случаях. Среди них — необычные инфекции, повреждения сердца, аутоиммунные заболевания лёгких и поражения печени. В отдельных задачах модель опережала не только GPT-4, но и группу из сотен врачей.
Отдельный этап проверки провели на реальных данных из приёмного отделения больницы в Бостоне. В эксперимент включили 70 случаев с пациентами. Здесь модель обошла двух опытных врачей на разных этапах: сортировка пациентов по срочности, анализ симптомов, работа с медицинскими записями, решение о госпитализации или выписке. При слепой оценке эксперты не смогли стабильно отличить ответы нейросети от врачебных заключений.
Важная деталь: модель объясняла свои выводы. Система показывала, какие признаки поддерживают диагноз, а какие ему противоречат. Такой разбор помогает понять ход рассуждений, а не просто получить итоговый ответ.
При этом преимущество проявлялось именно на раннем этапе, когда информации о пациенте мало, а решение нужно принять быстро. По мере накопления данных разница между человеком и моделью сокращалась.
Исследователи подчёркивают: результаты не означают, что модель готова заменить врача. Диагностика — лишь часть медицинской практики. Врач оценивает состояние пациента не только по записям, но и по внешнему виду, дыханию, речи, реакции на осмотр. В эксперименте модель работала только с текстовыми данными.
Следующий шаг — проверка в реальных условиях под контролем специалистов. Разработчики считают, что такие системы стоит тестировать как помощников, а не как замену врачу. При этом остаются вопросы: точность в клинических испытаниях, безопасность решений , возможные ошибки и предвзятость алгоритмов.
В медицине уже есть примеры, где ИИ показывает высокий уровень, например в радиологии. Но сложное клиническое мышление в реальной практике пока не доказано в строгих испытаниях. Поэтому главная задача сейчас — понять, как такие модели поведут себя в больницах, где каждая ошибка имеет последствия.
В приёмном покое решения принимают на ходу: врач должен быстро понять, кому нужна помощь в первую очередь, что происходит с пациентом и какие действия выбрать. Новый эксперимент показывает, что часть такой работы уже может выполнять нейросеть — и иногда справляется не хуже человека.
Модель o1-preview от OpenAI , представленная в 2024 году, проверили на сложных клинических задачах. Алгоритм относится к так называемым рассуждающим моделям: перед ответом система перебирает несколько вариантов, проверяет выводы и уточняет решение. Такой подход ближе к тому, как врач анализирует симптомы и строит гипотезы.
На базе клинических случаев из проверенной медицинской базы модель ставила диагноз почти в 89% ситуаций. Для сравнения, GPT-4 показала около 73%. o1-preview также лучше справлялась с выбором следующего шага: какие анализы назначить, какое лечение начать, как действовать в сложных сценариях вроде подбора антибиотика или обсуждения тяжёлого прогноза.
Разница становилась заметнее на редких и сложных случаях. Среди них — необычные инфекции, повреждения сердца, аутоиммунные заболевания лёгких и поражения печени. В отдельных задачах модель опережала не только GPT-4, но и группу из сотен врачей.
Отдельный этап проверки провели на реальных данных из приёмного отделения больницы в Бостоне. В эксперимент включили 70 случаев с пациентами. Здесь модель обошла двух опытных врачей на разных этапах: сортировка пациентов по срочности, анализ симптомов, работа с медицинскими записями, решение о госпитализации или выписке. При слепой оценке эксперты не смогли стабильно отличить ответы нейросети от врачебных заключений.
Важная деталь: модель объясняла свои выводы. Система показывала, какие признаки поддерживают диагноз, а какие ему противоречат. Такой разбор помогает понять ход рассуждений, а не просто получить итоговый ответ.
При этом преимущество проявлялось именно на раннем этапе, когда информации о пациенте мало, а решение нужно принять быстро. По мере накопления данных разница между человеком и моделью сокращалась.
Исследователи подчёркивают: результаты не означают, что модель готова заменить врача. Диагностика — лишь часть медицинской практики. Врач оценивает состояние пациента не только по записям, но и по внешнему виду, дыханию, речи, реакции на осмотр. В эксперименте модель работала только с текстовыми данными.
Следующий шаг — проверка в реальных условиях под контролем специалистов. Разработчики считают, что такие системы стоит тестировать как помощников, а не как замену врачу. При этом остаются вопросы: точность в клинических испытаниях, безопасность решений , возможные ошибки и предвзятость алгоритмов.
В медицине уже есть примеры, где ИИ показывает высокий уровень, например в радиологии. Но сложное клиническое мышление в реальной практике пока не доказано в строгих испытаниях. Поэтому главная задача сейчас — понять, как такие модели поведут себя в больницах, где каждая ошибка имеет последствия.
- Источник новости
- www.securitylab.ru