Открытый набор NLP-задач в области здравоохранения

Успешное развитие и применение методов глубокого обучения к новым областям знания невозможно без специализированных бенчмарков и данных.

Нехватка подобного рода ресурсов особенно остро ощущается в строго регулируемых предметных областях. Ярким примером служит область автоматической обработки естественного языка (NLP) в медицине. Эта проблема, в частности, актуальна и для русского языка, т.к. наборы открытых медицинских данных и постановки задач машинного обучения крайне ограничены.

Мы предлагаем открытый русскоязычный NLP бенчмарк, позволяющий тестировать языковые модели в широком наборе задач медицинской тематики.


RuMedDaNet

Цель задачи

Измерить способность модели "понимать" медицинский текст и правильно отвечать на уточняющие вопросы.

Описание задачи

Истинная медицинская модель искусственного интеллекта должна обладать всесторонними знаниями и 'пониманием' различных областей, связанных со здоровьем. Частично такие способности можно проверить, оценив ответы модели на контекстно-зависимые вопросы. Пример задания состоит из контекста и связанного с ним бинарного вопроса. Цель модели - правильно ответить на поставленный вопрос либо да, либо нет. Контексты собраны из широкого набора областей, связанных с медициной: терапия, физиология и анатомия человека, фармакология, биохимия и т.п. Вопросы сгенерированы и размечены асессорами.

Метрики

Accuracy


RuMedNLI

Цель задачи

Определить тип логической связи между двумя текстами на естественном языке.

Описание задачи

Логический вывод (Natural Language Inference) позволяет проверить способность модели делать суждения на основе медицинских записей с учётом лингвистических нюансов: парафраз, фразеологизмы, аббревиатуры и т.п.

Каждый пример определён парой входных текстов, первый из которых содержит начальное утверждение (фрагмент из истории болезни пациента), а второй является проверяемой гипотезой. Результатом такого вывода может быть три варианта:

  • - гипотеза верна, т.е. логически следует из начального утверждения;

  • - гипотеза нейтральна, на основе предложенных данных невозможно сделать однозначного вывода;

  • - гипотеза явно противоречит начальному утверждению.

Метрики

Accuracy


RuMedTest

Цель задачи

Проверка "знаний" модели в рамках специальности "Общая врачебная практика".

Описание задачи

Очевидно, что модель медицинского ИИ должна владеть приёмами клинического мышления и обладать глубокими знаниями в рамках базовых дисциплин ведущих медицинских высших учебных заведений.

В отличие от предыдущих, данная задача содержит только тестовую часть, без обучающей и валидационной. В такой постановке задача может быть использована для проверки больших языковых моделей в парадигме решения задач с минимальным набором обучающих примеров (zero- or few-shot learning).

Каждое задание состоит из вопроса и 4-х вариантов ответов, только один из которых правильный.

Метрики

Accuracy


Лидерборд

Rank

Team

Model

RuMedDaNet

RuMedNLI

RuMedTest

Upload date

No list result

При поддержке:

Logo Sber
Logo Sber