Как применить машинное обучение для медицинских данных (пример данных под катом)?

Есть поорядка 50K записей такого типа:
const data = {
    "osmotr": "Первичный осмотр в отделении, больную приняла зав.  <ПЕРСОНАЛЬНЫЕ ДАННЫЕ>\nЖалобы при поступлении: не высказывает\nКатамнез(со слов пациентки и сведений мед документации): Наблюдается психиатром с 2014 года. Является инвалидом второй группы б\\срочно. Проживает с мужем, дочерью <ПЕРСОНАЛЬНЫЕ ДАННЫЕ> в отдельной квартире(в г. <ПЕРСОНАЛЬНЫЕ ДАННЫЕ>), мать пациентки живет отдельно, но часто навещает дочь. Неоднократно госпитализировалась в ПБ в связи с обострением параноидной симптоматики. Неоднократно проходила лечение в условиях полустационаров при ПНД. Последняя выписка из ДО ДС в марте 2022г в удовлетворительном состоянии. В последующем посещала ПНД, принимала ПТ (<НАЗВАНИЕ ПРЕПАРАТА> 25мг  п\\и 11.07.2022). в настоящее время пациентка стоит на учете  в женской консультации по беременности (срок 6 недель),  для контроля за состоянием ( на фоне беременности и временной отмены ПФТ) направлена в ДС.\nСЕМЕЙНЫЙ СТАТУС (браки, разводы, дети, условия проживания): замужем, проживает с мужем и дочерью в отдельной квартире\nСОЦИАЛЬНЫЙ СТАТУС (места работы, причины увольнений, трудоспособность, дата установления инвалидности): Инвалид 2 группы бессрочно. Не работает. В выдаче листа нетрудоспособности  не нуждается.\nДЕЕСПОСОБНОСТЬ:дееспособна\nСУИЦИДАЛЬНОЕ ПОВЕДЕНИЕ: отрицает\nАНТИСОЦИАЛЬНОЕ (КРИМИНАЛЬНОЕ) ПОВЕДЕНИЕ: в анамнезе не выявлено\nУПОТРЕБЛЕНИЕ ПСИХОАКТИВНЫХ ВЕЩЕСТВ:  не курит, употребление алкоголя эпизодически \nКОМПЛАЕНТНОСТЬ: достаточная\nСОПУТСТВУЮЩИЕ ЗАБОЛЕВАНИЯ: отрицает\nАкушерский/гинекологический анамнез: одни роды./в настоящее время – беременность, 6 недель\nАллергический анамнез не отягощен.\nЭпиданамнез  За последние 30 дней контакт с инфекционными больными, жидкий стул, повышение температуры тела, выезд из Москвы, наличие в анамнезе венерических заболеваний, ВИЧ, туберкулёза отрицает. \nДала информированное добровольное письменное согласие на лечение в условиях дневного стационара.\nСоматическое состояние: правильного телосложения, удовлетворительного питания. Кожные покровы, видимые слизистые обычной окраски. В легких хрипы не выслушиваются. Сердечные тоны ритмичные, АД- 115/70 мм.рт.ст. Т-36,4. Живот мягкий, б/болезненный при пальпации. Физиологические отправления в норме.\nНеврологическое состояние: зрачки Д=С, фотореакция на свет содружественная. Нистагма нет. Язык по средней линии. Лицо симметричное. В позе Ромберга устойчива. Координаторные пробы выполняет верно. Общемозговых, менингеальных знаков нет.\nПсихическое состояние при поступлении: в сознании, ориентирована полностью и правильно. выглядит опрятно, соответственно возрасту. в беседу вступает, на вопросы отвечает верно. жалоб не высказывает. несколько суетлива, охвачена своей беременностью, говорит о планах обследования, признается, что \"это было незапланировано, но но муж рад и я тоже!\". в поведении упорядочена. фон настроения заметно не изменен.  мимика несколько обеднена. мышление  с элементами разноплановости, амбивалентности.   обманы восприятия отрицает, но признается, что \"были на прошлой неделе, когда я только узнала про беременности, понервничала\". спонтанно бредовых идей не высказывает. суицидальные мысли отрицает. сон медикаментозный. аппетит сохранен. \nНаправлена на ППБ\nмедикаментозной терапии не показано\n",
    "diagnose": "F20.014 Параноидная шизофрения, течение эпизодическое с нарастающим дефектом, неполная ремиссия"
}
}

Вопрос: что можно сделать в плане ML? Можно ли, например, сделать предсказание диагноза по тексту осмотра? Сделать умное автодополнение осмотра? Еще что-то?..
Куда стоит смотреть и что копать?

Если кто-то хочет посотрудничать на некоммерческой основе (например, написать совместную работу/статью/диплом) в этой области - добро пожаловать.
Если на коммерческой - тоже приветствуется, чтобы понимать порядок цен.
  • Вопрос задан
  • 194 просмотра
Пригласить эксперта
Ответы на вопрос 3
dimonchik2013
@dimonchik2013
non progredi est regredi
нанять девочку для нормирования фактов ))

а дальше - тупик
хотя по фото продвижения в медицине есть
Ответ написан
mayton2019
@mayton2019
Bigdata Engineer
Очень странно конечно ставить такую задачу как "наковырять хоть что нибудь". Как из говна собрать сливки. Прошу прощения за мой французский.

По делу.

Мне кажется что в таком виде как написано
В последующем посещала

данные не годятся для обучения.

А чтобы они годились - нужно сеть и вручную проанализировать какие признаки (features вообще у нас есть).
Например если есть температура - это вещественное значение. Если есть болезнь - и всего возможно 300 болезней то мы заводим 300 полей вещественного типа и заполняем их 1.0 если выявлен признак. А для всех других 299 ставим 0.0.

Да именно так. Системы машинного обучения не работают со словами. Все эти классификации, регрессии воспринимают только вещественные числа. Если вы вдруг (!) где-то видели систему которая что-то извлекает из текста - то не верьте. Вас обманывают. Текст все равно проходит векторизацию чтобы свести задачу о операциям над векторами величин.

По поводу умного авто-дополнения я вообще не могу ничего сказать. Непонятно.

Приведите пример хотя-бы на эти данных.
Ответ написан
@dmshar
Сегодня по количеству работ по применению методов машинного обучения медицина наверное занимает второе место после финсектора. А вы спрашиваете, что можно сделать. Да что угодно - про IBM Watson надеюсь слышали? Так это только самый известный пример.
Ну вот из последнего. Нечто даже прямо с habr'a.
https://habr.com/ru/company/first/blog/682516/
https://webiomed.ru/blog/obzor-rossiiskikh-sistem-...
https://habr.com/ru/post/673312/
https://towardsdatascience.com/machine-learning-in...
https://towardsdatascience.com/ai-for-healthcare-a...
https://developer.ibm.com/product-doclinks/
https://www.cnews.ru/articles/2019-11-20_nmits_onk...
https://data-flair.training/blogs/big-data-in-heal...
ну и так далее. Читайте, смотрите, думайте. Одно знаю абсолютно точно (по опыту). Для того, что-бы разрабатывать такие системы нужна очень плотная кооперация и взаимопонимание между условным врачом и условным датасаентистом. А поскольку такие задачи с "налета" не решаются - у "врача" должна присутствовать очень мощная заинтересованность, а у обычных "энтузиастов" из-за сложности задач запал заканчивается как правило довольно быстро. И остается ИТ-специалист с полуготовым решением на руках, которое и не приткнёшь никуда, и не лицензируешь и уж тем более не доведешь до ума без помощи "врача". Поэтом у врача должен быть какой-то внешний стимул, причем очень сильный.
Причем и "врач" и "датасаентист" в данном случае - это не один человек, а некоторые группы соответствующих специалистов. Иначе получите поделку, которая никому кроме самого автора и нафиг не будет нужной. Учтите это, когда будете искать "сотрудников".
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы