Открытый набор задач в области здравоохранения

Успешное развитие и применение методов глубокого обучения к новым областям знания невозможно без специализированных бенчмарков и данных.

Нехватка подобного рода ресурсов особенно остро ощущается в строго регулируемых предметных областях. Ярким примером служит область автоматической обработки естественного языка (NLP) в медицине. Эта проблема, в частности, актуальна и для русского языка, т.к. наборы открытых медицинских данных и постановки задач машинного обучения крайне ограничены.

Мы предлагаем открытый бенчмарк, позволяющий тестировать ML-модели в широком наборе задач медицинской тематики.


RuMedDaNet

Цель задачи

Измерить способность модели "понимать" медицинский текст и правильно отвечать на уточняющие вопросы.

Описание задачи

Истинная медицинская модель искусственного интеллекта должна обладать всесторонними знаниями и 'пониманием' различных областей, связанных со здоровьем. Частично такие способности можно проверить, оценив ответы модели на контекстно-зависимые вопросы. Пример задания состоит из контекста и связанного с ним бинарного вопроса. Цель модели - правильно ответить на поставленный вопрос либо да, либо нет. Контексты собраны из широкого набора областей, связанных с медициной: терапия, физиология и анатомия человека, фармакология, биохимия и т.п. Вопросы сгенерированы и размечены асессорами.

Метрики

Accuracy


RuMedNLI

Цель задачи

Определить тип логической связи между двумя текстами на естественном языке.

Описание задачи

Логический вывод (Natural Language Inference) позволяет проверить способность модели делать суждения на основе медицинских записей с учётом лингвистических нюансов: парафраз, фразеологизмы, аббревиатуры и т.п.

Каждый пример определён парой входных текстов, первый из которых содержит начальное утверждение (фрагмент из истории болезни пациента), а второй является проверяемой гипотезой. Результатом такого вывода может быть три варианта:

  • - гипотеза верна, т.е. логически следует из начального утверждения;

  • - гипотеза нейтральна, на основе предложенных данных невозможно сделать однозначного вывода;

  • - гипотеза явно противоречит начальному утверждению.

Метрики

Accuracy


RuMedTest

Цель задачи

Проверка "знаний" модели в рамках специальности "Общая врачебная практика".

Описание задачи

Очевидно, что модель медицинского ИИ должна владеть приёмами клинического мышления и обладать глубокими знаниями в рамках базовых дисциплин ведущих медицинских высших учебных заведений.

В отличие от предыдущих, данная задача содержит только тестовую часть, без обучающей и валидационной. В такой постановке задача может быть использована для проверки больших языковых моделей в парадигме решения задач с минимальным набором обучающих примеров (zero- or few-shot learning).

Каждое задание состоит из вопроса и 4-х вариантов ответов, только один из которых правильный.

Метрики

Accuracy


ECG2Pathology

Цель задачи

Оценка качества multilabel-классификации ЭКГ-сигналов.

Описание задачи

Уже более 100 лет метод электрокардиографии остаётся надёжным инструментом диагностики тяжёлых сердечных заболеваний. При таком методе фиксируются электрические импульсы сердца. Измерение сердечной активности обычно происходит через 12 стандартных отведений (каналов), полученные данные отображаются на электрокардиограмме (ЭКГ). Анализ и выявление сердечных патологий в таких сигналах требует кропотливой работы и внимания врачей-кардиологов высокой квалификации. Однако, методы машинного обучения для анализа ЭКГ-сигналов имеют огромный потенциал для более быстрого и качественного выявления возможных заболеваний сердца.

Данными для задачи являются ЭКГ-сигналы из открытого датасета PTB-XL. Разметка сигналов выполнена 3-мя кардиологами и проверена врачом-модератором в соответствии с тезаурусом диагностических заключений. Для каждого тестового примера нужно предсказать список из 73 возможных элементов тезауруса (сердечных патологий или служебно-технических классов).

Метрики

F1-мера (макро)


Лидерборд

Rank

Team

Model

RuMedDaNet

RuMedNLI

RuMedTest

ECG2Pathology

Upload date

No list result

При поддержке:

Logo Sber
Logo Sber