Можно ли доверять медицинским советам ботов? Доктора пока не уверены в этом

Компания Babylon Health, капитализация которой оценивается в $2 млрд, предлагает услуги чатбота, дающего медицинские советы на основе описываемых симптомов. Его использовали уже 1,7 млн раз. Однако эксперты волнуются, что он работает не совсем так, как обещают в рекламе.

Можно ли доверять медицинским советам ботов? Доктора пока не уверены в этом - 1

Хэмиш Фрейзер впервые столкнулся с Babylon Health в 2017 году, когда они с коллегой для статьи в Wired ^[1] помогали проверять точность диагнозов нескольких систем на базе ИИ, работающих по симптомам, и предназначенных для выдачи советов любому человеку, имеющему смартфон. Среди конкурентов с распознаванием распространённых болезней, включая астму и опоясывающий лишай, худшей оказалась программа проверки симптомов от Babylon Health. Фрейзер, который тогда работал инспектором по информатике здоровья в Лидском университете в Англии, заключил, что компании нужно очень серьёзно улучшать свой сервис, чтобы не уйти с рынка.

«В тот момент у меня не было предубеждений ни для одной из них, и ни одной я просто не знал, поэтому у меня не было цели поквитаться с кем-то, и я подумал: Нда, это не очень-то хороший результат, — говорит Фрейзер, сейчас работающий в Брауновском университете. – Я подумал, что он исчезнут. Но как я ошибался».

С момента выхода той статьи многое изменилось. С начала 2018 года лондонская компания Babylon Health выросла от 300 сотрудников до почти 1500. Компанию оценивают в $2 млрд, и она утверждает, что хочет «предоставить доступные и недорогие медицинские услуги каждому человеку на планете». В Англии Babylon Health ведёт пятую по величине медицинскую практику под надзором национальной системы здравоохранения, в основном финансируемой правительством, что позволяет пациентам, живущим близ Лондона и Бирмингема, общаться по видеочату с докторами, или приходить в клинику по необходимости. Компания заявляет, что обработала более 700 000 цифровых консультаций пациентов с докторами, и в будущем планирует предоставлять подобные услуги и в других британских городах ^[2].

Babylon Health обещает экономить деньги на всё дорожающих медицинских услугах, используя ИИ для фильтрации пациентов, так, чтобы отдавать время и ресурсы только тем людям, кому действительно требуется врачебная помощь. Babylon Health работает как в Англии, так и за рубежом, и говорит, что её программу проверки симптомов использовали уже более 1,7 млн раз в таких местах, как Англия, Евросоюз, Канада, Юго-Восточная Азия и Саудовская Аравия. Скоро Babylon Health планирует расширяться ещё сильнее, и выйти в США и Китай.

Быстрое расширение может стать проблемой, поскольку «такую технологию – и не только программы проверки симптомов, но и другие цифровые вмешательства – можно очень быстро раскрутить и поменять», говорит Дэвид Вон, читающий лекции по теме использования ИИ в здравоохранении в Манчестерском университете в Англии, и работавший с Фрейзером над тестированием таких систем для статьи. «Однако потенциально они могут многое изменить», — говорит Вон, и в частности, Babylon Health является «примером компании, очень быстро сумевшей достичь очень многого».

Такое быстрое развитие событий вызывает определённые вопросы у экспертов, утверждающих, что Babylon Health поспешила ворваться на рынок, без адекватных доказательств работоспособности своих продуктов. Пока что не было никаких экспертных оценок их услуг, с рандомизированной проверкой и контрольными группами – методами, являющимися золотым стандартом в медицинской науке – которые бы показали, насколько хорошо ИИ справляется в реальных условиях с реальными пациентами. Однако же программа проверки симптомов от Babylon Health уже влияет на тысячи людей ежедневно – получая одобрение от правительственных регуляторов в тех странах, где она предлагает свои услуги.

«Они сумели получить одобрение от национальной системы здравоохранения, даже не проверив продукт на реальных пациентах, не пройдя сторонних проверок – и регуляторам это не мешает, — говорит Маргарет Маккартни, врач общей практики из Глазго, Шотландия, и критик продукции Babylon Health ^[3]. – Мне это кажется потрясающим».

Babylon Health утверждает, что удовлетворяет требованиям национальной системы здравоохранения, и во всех странах, где работает сервис, удовлетворяет всем запросам регуляторов. Также компания утверждает, что набирает исследователей из университетов для организации рандомизированных контрольных исследований. «Мы сделали важные шаги по направлению к тестированию и подтверждению безопасности и эффективности этой технологии, — говорит Кит Граймс, директор по клиническим инновациям Babylon Health. — Просто пока не в виде клинических испытаний».

Вызываю доктора чатбота

Программа проверки симптомов от Babylon Health выглядит, как чатбот, с которым пользователи общаются через приложение или на веб-сайте. Когда пользователь вводит свои основные симптомы в виде краткого предложения или фразы, программа проверки симптомов задаёт вопросы, связанные с возможным наличием связанных симптомов. В итоге, программа проверки симптомов определяет возможные причины и рекомендует дальнейшие действия – резерв консультации по видео с терапевтом или визит в больницу.

Можно ли доверять медицинским советам ботов? Доктора пока не уверены в этом - 2

Технология, лежащая в основе программы проверки симптомов, известна, как граф знаний, и работает, как цифровая энциклопедия по медицине, в которой размечена взаимосвязь различных заболеваний, симптомов и условий. Взаимосвязь представлена миллионами опорных точек из сотен медицинских источников, и постоянно обновляется. Программа проверки симптомов также может справляться с записями историй болезни – включая данные, собранные во время работы пользователей с программой – чтобы размечать возможную связь между заболеваниями различных пользователей.

Граф знаний можно подстроить, добавляя данные, помогающие оценить вероятность появления различных заболеваний в определённых популяциях и географических районах.

Babylon Health создаёт «модель медицины, применимой не только в Соединённом Королевстве и США, но глобально», — говорит Саурабх Джохри, старший учёный Babylon Health. Он говорит, что модель должна быть настраиваемой, чтобы «отражать местную специфику заболеваний – так, что если пациент жалуется на рвоту, лихорадку и диарею в Лондоне, то вероятность наличия у него малярии ниже, чем если бы он жил в Руанде».

Многие другие медицинские компании используют популярную в сфере искусственного интеллекта технологию машинного обучения, и такой её вариант, как глубокое обучение, чтобы обучать ПО анализировать данные пациентов для определения симптомов и простановки диагнозов. Просеивая огромные количества сырых медицинских данных, такие системы иногда могут обучать ПО находить такие скрытые закономерности и связи между опорными точками в данных, какие люди и наши медицинские знания иногда упускают. Подход Babylon Health не таков – оценки его ИИ напрямую отражают существующие медицинские знания людей и человеческое понимание взаимосвязей между симптомами и их причинами, не полагаясь на многообещающую, но иногда необъяснимую ^[4] работу машин.

Пока что Babylon Health использует глубокое обучение для интерпретации сообщений пациентов в чате с чатботом. ИИ также использует глубокое обучение для ускорения требовательного к вычислительным ресурсам поиска данных в графе знаний, где нужно проверять все возможные комбинации симптомов, заболеваний и факторов риска, подходящих для конкретного случая. Но в целом, ИИ от Babylon Health работает в основном за счёт медицинских знаний, накопленных людьми, не доверяя машине работу по построению логических взаимосвязей.

Можно ли доверять медицинским советам ботов? Доктора пока не уверены в этом - 3

У такого подхода могут быть преимущества. Один из недостатков машинного и глубокого обучения состоит в том, что им требуются огромные объёмы относящихся к делу обучающих данных и вычислительные мощности для обучения закономерностям. В зависимости от страны и системы здравоохранения не всегда легко получить доступ ко всем соответствующим медицинским данным, необходимым для обучения компьютерного ПО. Ещё один недостаток такого подхода – непрозрачность. Технологии машинного обучения часто не дают экспертам-людям понять, как именно ПО связало разные опорные точки в данных.

У подхода Babylon Health с прозрачностью дела получше. Компания использует модели, позволяющие штатным докторам и программистам «заглянуть под капот», говорит Джохри, и понять, как программа проверки симптомов пришла к какому-либо выводу.

Результаты под вопросом

Несмотря на все преимущества, Babylon Health пока ещё не доказала, что является моделью с ответственным поведением. Компания пыталась ^[5] заткнуть критикам рот при помощи судебных разбирательств ^[6], и получила выговор ^[7] от британских регуляторов за «вводящую в заблуждение» рекламу. В интервью с Wired U.K. и Forbes бывшие сотрудники компании обрисовали ситуацию, в которой корпоративная культура вступает в противоречие с необходимостью тщательного тестирования безопасности и эффективности применения ИИ в здравоохранении. В Forbes писали: «интервью с текущими и бывшими сотрудниками Babylon Health и независимыми докторами показывают широту обеспокоенности тем, что компания поспешила выкатывать ПО, недостаточно тщательно проверенное, а потом преувеличила его эффективность» (компания выражает активный протест ^[8] этим заявлениям).

Babylon Health также ввязывалась в споры с общественностью, делая заявления, которые некоторые критики впоследствии называли вводящими в заблуждение. 27 июня 2018 года компания попала в поле зрения СМИ, заявив во время прямой трансляции ^[9] в Королевском врачебном колледже Лондона, что её ИИ способен диагностировать распространённые заболевания не хуже людей-терапевтов. Это заявление основывалось на исследовании ^[10] компании, в котором работа ИИ сравнивалась с диагнозами, поставленными семью врачами. Также в исследовании программу проверки симптомов проверяли на части вопросов из экзамена, проводящегося для получения сертификата терапевта в Британии, на экзамене для получения членства Королевского колледжа врачей общей практики, а также на исторических записях независимого исследования ^[11] 2015 года, оценивавшего несколько программ проверки симптомов.

Однако вскоре учёные и медицинские организации начали проявлять беспокойство. Королевский колледж врачей общей практики ^[12], Британская ассоциация медиков ^[13] и Королевский колледж терапевтов ^[14] выпустили заявления, ставящие под вопрос утверждения Babylon Health, при том, что Королевский колледж терапевтов организовывал презентацию компании и помогал проводить упомянутое исследование. Для начала, в этом исследовании проверяли ИИ только на части вопросов для экзамена, и не проверяли программу на реальных людях в клинических условиях.

У Фрейзера и Вона, исследователей, помогавших Wired U.K. проверять программу проверки симптомов в 2017-м, также возникли вопросы к этому исследованию, поскольку в нём участвовало небольшое количество докторов, и его не рассматривали независимые эксперты. Парочка решила изучить это исследование поближе. В отчёте ^[15], опубликованном в журнале The Lancet в 2018 году, они заключили, что исследование Babylon Health не даёт убедительных доказательств того, что их программа проверки симптомов «способна справляться лучше докторов в любой реалистичной ситуации, и, кроме того, есть вероятность, что она справится с ней гораздо хуже».

Эти открытия напрямую влияют на реальных пациентов. «Если программа проверки симптомов советует вам оставаться дома и не ходить к доктору, такое решение имеет свои последствия в случаях, когда необходимая помощь откладывается или так и не оказывается», — говорит Энрико Коэйра, директор Центра медицинской информатики при Университете Макуэйра в Сиднее, Австралия, и автор работы 2018 года, опубликованной в журнале Lancet.

Ещё до появления волны критики, Babylon Health начала предварительные переговоры со Стэнфордским университетом о проведении дополнительного пилотного исследования, говорит Меган Махоуни, стэнфордский клинический исследователь, соавтор работы Babylon Health от 2018 года.

«Судя по всему, у ИИ может быть определённый потенциал», — говорит Махони, поясняя, что «у нас есть реальная ответственность за выход на новый уровень строгости в оценке этого потенциала, поскольку ИИ может оказаться реально полезным для поддержки и дополнения медицинских услуг».

Махоуни описала работу Babylon Health от 2018 года как «прекрасную для внутреннего исследования». Несмотря на её оптимизм, она предупредила, что никогда бы не решилась интегрировать этот ИИ в реальные сервисы здравоохранения или медицинские практики, основываясь исключительно на результатах этого исследования.

Когда журнал Undark задал вопрос о спорах по поводу этой работы, Babylon Health ответила заявлением, где, в частности, утверждалось: «Некоторые СМИ могли неправильно интерпретировать наши заявления, однако мы остаёмся при наших изначальных результатах и научных данных». Также там было указано, что работа 2018 года является «предварительной», и сравнивала ИИ компании с «небольшой выборкой врачей». Также Babylon Health сослалась на заключение исследования: «Потребуются дополнительные исследования с использованием более крупных групп реальных людей, чтобы сравнить эффективность этих систем с врачами-людьми».

Вычисления: лекарство XXI века

Даже Babylon Health признаёт, что предварительное исследование не соответствует золотым стандартам медицинских исследований. Однако это не остановило компанию – или регуляторов – от предоставления пациентам доступа к программе проверки симптомов.

Такой подход сравним с испытаниями нового лекарства на людях без тщательных проверок, говорит Айзек Кохейн, исследователь в области биомедицинской информатики из Гарвардской медицинской школы. И добавляет, что вычисления" можно считать лекарством XXI века – поэтому давайте относиться к ним так же ответственно".

Если Babylon Health действительно организует рандомизированные контрольные тесты, то, по мнению Фрейзера, это много даст для установления доверия к её расширению на американских и азиатских рынках. Компания планирует отправить протокол тестирования в журнал с предварительной экспертной оценкой статей в ближайшие месяцы, говорит Джохри, добавляя: «Мы будем проводить эти тестирования в Британии, а также обсуждаем этот вопрос с партнёрами в Китае и США».

Текущие правила ^[16] от Управления по санитарному надзору за качеством пищевых продуктов и медикаментов США рекомендуют проявлять снисхождение к программам проверки симптомов на основе ИИ, поскольку связанные с ними риски ниже, чем у других медицинских услуг. Управление «решило освободить от надзора программы проверки симптомов – и подобные им услуги – для поощрения инноваций, — говорит Фрейзер. – Однако у них, кажется, есть возможность при желании регулировать эту область гораздо сильнее».

Пока что некоторые независимые эксперты продолжают беспокоиться по поводу текущего варианта программы проверки симптомов от Babylon Health. В начале сентября независимый консультант британской национальной системы здравоохранения, часто критикующий Babylon Health в твиттере под псевдонимом Dr. Murphy ^[17], продемонстрировал ^[18] наличие возможного полового предубеждения ^[19] в программе проверки симптомов от Babylon Health.

59-летней курящей женщине, пожаловавшейся на внезапные боли в груди и головокружение, программа проверки симптомов поставила в качестве вероятного диагноза депрессию или паническую атаку. Для такого же пациента, в чьём профиле был указан мужской пол, программа проверки симптомов дополнительно указала возможные серьёзные проблемы с сердцем, порекомендовав посетить больницу или вызвать скорую.

Вместо того, чтобы спорить с этими обвинениями, как это было раньше, для ответа в твиттере ^[20] Babylon Health выбрала примирительный тон общения. В последовавшем посте в блоге ^[21] Babylon Health признала наличие в здравоохранении предубеждений, защищая при этом эффективность программы проверки симптомов.

Это не убедило Dr. Murphy в желании компании работать над потенциальными проблемами с её ИИ: «Наиболее опасный из всех врачей тот, кто не видит свои ошибки или не учится на них».

Автор: Вячеслав Голованов

Источник ^[22]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/iskusstvenny-j-intellekt/342201

Ссылки в тексте:

[1] статьи в Wired: https://www.wired.co.uk/article/health-apps-test-ada-yourmd-babylon-accuracy

[2] других британских городах: https://www.ft.com/content/582518b0-91dd-11e9-aea1-2b1d33ac3271

[3] критик продукции Babylon Health: https://www.bbc.co.uk/programmes/b08x9ckx

[4] иногда необъяснимую: https://undark.org/2019/12/04/black-box-artificial-intelligence/

[5] пыталась: https://www.thetimes.co.uk/edition/business/blitzscaling-babylon-ali-parsas-break-neck-scramble-for-success-3rstdzj8b

[6] судебных разбирательств: https://www.digitalhealth.net/2018/08/babylon-threatened-to-sue-cqc/

[7] выговор: https://www.asa.org.uk/rulings/babylon-healthcare-services-ltd-a18-439274.html

[8] активный протест: https://www.theinquirer.net/inquirer/news/3068427/babylon-health-hits-back-at-claims-its-ai-isnt-up-to-the-job

[9] прямой трансляции: https://twitter.com/drmurphy11/status/1038891399947673602?lang=en

[10] исследовании: https://arxiv.org/pdf/1806.10698.pdf

[11] исследования: https://www.bmj.com/content/351/bmj.h3480

[12] Королевский колледж врачей общей практики: https://www.rcgp.org.uk/about-us/news/2018/june/apps-and-algorithms-may-support-but-will-never-replace-gps-says-rcgp.aspx

[13] Британская ассоциация медиков: https://www.bma.org.uk/news/media-centre/press-releases/2018/june/ai-cannot-replace-the-essential-elements-of-the-doctor-patient-relationship

[14] Королевский колледж терапевтов: https://www.rcplondon.ac.uk/news/rcp-clarifies-position-use-artificial-intelligence-healthcare

[15] отчёте: https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(18)32819-8/fulltext

[16] правила: https://www.fda.gov/medical-devices/device-software-functions-including-mobile-medical-applications/examples-software-functions-which-fda-will-exercise-enforcement-discretion

[17] Dr. Murphy: https://twitter.com/drmurphy11?lang=en

[18] продемонстрировал: https://twitter.com/DrMurphy11/status/1170774525987971076?s=20

[19] полового предубеждения: https://www.publictechnology.net/articles/features/gender-bias-concerns-raised-over-gp-app

[20] ответа в твиттере: https://twitter.com/babylonhealth/status/1171109868188688389?s=20

[21] посте в блоге: https://www.babylonhealth.com/blog/tech/doctors-sex-and-the-ai-debate

[22] Источник: https://habr.com/ru/post/482810/?utm_source=habrahabr&utm_medium=rss&utm_campaign=482810

Нажмите здесь для печати.