Мультимодальные модели в медицинской диагностике как универсальный инструмент

Multimodal models in medical diagnostics as a universal tool

A. G. Nazarenko, M. V. Fedorov, A. S. Moshkin, V. V. Arlazarov, V. V. Gribova, D. A. Repin, D. V. Voshev, O. Yu. Klevtsova, S. A. Ignatiev, D. A. Lyutkin, A. Yu. Romanov

Author information

1 — Federal State Budgetary Institution of the Ministry of Health of the Russian Federation “N.N. Priorov National Medical Research Center of Traumatology and Orthopedics”, 10, Priorova str., Moscow, 127299, Russian Federation.

ORCID: https://orcid.org/0000-0003-1314-2887

2 — Federal State Budgetary Institution of Science A.A. Kharkevich Institute for Information Transmission Problems of the Russian Academy of Sciences, 19, bldg. 1, Bolshoy Karetny Lane, Moscow, 127051, Russian Federation.

fedorov@iitp.ru

ORCID: https://orcid.org/0000-0003-3901-3565

3 — Federal State Budgetary Educational Institution of Higher Education I.S. Turgenev Oryol State University of the Ministry of Science and Higher Education of the Russian Federation, 95, Komsomolskaya str., Oryol, 302026, Russian Federation.

moshkin@internet.ru

ORCID: https://orcid.org/0000-0003-2085-0718

4 — Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences, 44, bldg. 2, Vavilova str., Moscow, 119333, Russian Federation.

vva777@gmail.com

ORCID: https://orcid.org/0000-0003-3260-9104

5 — Federal State Budgetary Institution of Science Institute of Automation and Control Processes of the Far Eastern Branch of the Russian Academy of Sciences, 5, Radio str., Vladivostok, 690041, Russian Federation.

gribova@iacp.dvo.ru

ORCID: https://orcid.org/0000-0001-9393-351X

6 — Federal State Budgetary Institution of Science A.A. Kharkevich Institute for Information Transmission Problems of the Russian Academy of Sciences, 19, bldg. 1, Bolshoy Karetny Lane, Moscow, 127051, Russian Federation.

repin@iitp.ru

ORCID: https://orcid.org/0009-0003-4191-6840

7 — Federal State Budgetary Institution “National Medical Research Center for Therapy and Preventive Medicine” of the Ministry of Health of the Russian Federation, 10, bldg. 3, Petroverigsky Lane, Moscow, 101990, Russian Federation.

dvvoshev@yandex.ru

ORCID: https://orcid.org/0000-0001-9216-6873

8 — Federal State Budgetary Institution of Science A.A. Kharkevich Institute for Information Transmission Problems of the Russian Academy of Sciences, 19, bldg. 1, Bolshoy Karetny Lane, Moscow, 127051, Russian Federation.

klevtsova-oy@iitp.ru

ORCID: https://orcid.org/0009-0004-9746-4414

9 — Federal State Budgetary Institution of Science A.A. Kharkevich Institute for Information Transmission Problems of the Russian Academy of Sciences, 19, bldg. 1, Bolshoy Karetny Lane, Moscow, 127051, Russian Federation.

ignatev-sa@iitp.ru

ORCID: https://orcid.org/0009-0002-0450-1913

10 — HSE University, 20, Myasnitskaya str., Moscow, 101000, Russian Federation.

adalyutkin@gmail.com

ORCID: https://orcid.org/0009-0007-0646-6521

11 — HSE University, 20, Myasnitskaya str., Moscow, 101000, Russian Federation.

a.romanov@hse.ru

ORCID: https://orcid.org/0000-0002-9410-9431

Published: 20.02.2026

Abstract
Text
References

Multimodal foundation models and medical multimodal large language models are establishing a new class of diagnostic clinical decision support systems capable of operating on heterogeneous data sources, including medical imaging (X-ray, CT, MRI, ultrasound, histopathology), physiological signals (ECG, EEG), clinical text (electronic health records, reports, discharge summaries), laboratory measurements, molecular profiling data, and related modalities. This article systematizes model architectures and training strategies that enable transferability across tasks and modalities, and discusses requirements for reliability, clinical validation, and regulatory classification of such models. Universality is interpreted as the ability of a single model or a unified modular framework to address a broad spectrum of tasks (detection, segmentation, triage, summarization, information extraction, and vision-language question answering) while preserving auditability of outputs and strict operational constraints. In particular, the system must not issue a final diagnosis or replace the clinician; instead, it provides well-grounded hypotheses, observations, and decision cues suitable for clinical verification and documentation in compliance with existing regulatory requirements.

Keywords: multimodal models; medical diagnostics; foundation models; SaMD; MDSW; clinical validation

Background.

С точки зрения анализа данных, задачи медицинской диагностики в реальной практике редко сводятся к анализу данных одной модальности. Клинический диагностический сценарий может включать в себя комбинацию жалоб и анамнеза, осмотра, лабораторных анализов, сигналов физиологического мониторинга, результатов лучевой диагностики и, нередко, текстовых заключений разных специалистов. Эта многослойность данных (различного качества) осложняет использование готовых алгоритмов, ориентированных на узкую задачу: так, системы, обученные только на изображениях, не используют контекст симптомов и лабораторных маркеров; модели, работающие только с текстом, не интерпретируют первичные данные КТ или ЭКГ. Кроме того, в условиях высокой нагрузки врач нередко вынужден опираться на неполный набор данных и эвристические правила, что повышает ценность инструментов, способных агрегировать и систематизировать разнородную информацию.

Мультимодальные модели предлагают единый подход, позволяющий формировать согласованное представление данных пациента, где каждый источник данных переводится в совместимое пространство признаков или токенов. Такой подход особенно важен для задач, в которых требуются:

1) сопоставление находок на изображении с клинической картиной;

2) объяснение вывода, привязанное к наблюдаемым фактам;

3) поддержка врача в условиях неопределенности и дефицита времени, включая приоритизацию пациентов и выявление критических состояний.

За последние годы появилось несколько направлений в проектировании фундаментальных моделей, обладающих универсальностью. Медицинские большие языковые модели (LLM), такие как Med-PaLM 2, показали высокий уровень на текстовых клинических тестах и вопросах, включая многоосевые человеческие оценки качества ответов [1].

Медицинские мультимодальные модели (например, Med-Gemini) расширяют контур до изображений и видеоданных и поддерживают подключение специализированных энкодеров новых модальностей [2, 3]. Радиологические фундаментальные модели (например, RadFM) целенаправленно строятся как универсальные модели, объединяющие 2Dи 3D-данные и связанные тексты [4]. Отдельный класс составляют открытые контрастивные модели типа CLIP, адаптированные к биомедицине и применимые к поиску, сопоставлению и переносу признаков [5].

Цель статьи

1) выделить признаки универсальности в моделях и критерии, определяющие степень универсальности;

2) описать архитектурные и обучающие решения, обеспечивающие переносимость между модальностями и диагностическими задачами;

3) предложить инженерный и клинический контур внедрения, совместимый с принципами безопасности, регуляторных норм и юридических ограничений.

Дополнительно рассматриваются типовые источники ошибок и ограничений, с которыми сталкивается практика внедрения мультимодальных моделей в медицинских учреждениях.

Определения и границы применимости мультимодальных моделей

Авторы считают необходимым уточнить базовые термины, которые используются в работе: что понимается под диагностической системой поддержки принятия решений, как в статье трактуется универсальность моделей и почему важно зафиксировать границы применимости. Четкие определения позволят избежать неоднозначных трактовок и отделить инженерные свойства системы от обобщенного описания.

Диагностические системы поддержки решений. В рамках статьи мультимодальная диагностическая система рассматривается как программный продукт, предназначенный для:

извлечения проверяемых фактов из первичных данных (например, очаг, размер, локализация, индекс, паттерн сигнала);
генерации клинически правдоподобных гипотез и альтернативных объяснений;
триажа (приоритизация пациентов и исследований);
формализации аргументов и указания на недостающие данные (какие исследования или анализы повышают определенность медицинских заключений).

Система не формирует финальный диагноз и не назначает лечение в императивной форме. Заключение модели трактуется как «дополнительное мнение» и подсказка для врача, что снижает риск ошибочного переноса ответственности при диагностических ошибках и соответствует практике применения высокорисковых систем. Важной особенностью такого подхода является возможность документировать отдельные шаги рассуждений модели и соотносить их с клиническими протоколами.

Универсальность как проверяемое свойство. Универсальность не определяется как «одна модель точнее всех во всем». Нами предлагается оперировать определением «универсальность» в смысле способности одной и той же модели или единого модульного контура (с общим ядром и стандартизированным интерфейсом модальных энкодеров) выполнять набор клинически значимых задач на нескольких модальностях при сохранении:

1) калибровки неопределенности (выход сопровождается оценкой уверенности или диапазоном, пригодным для триажа);

2) проверяемости (указаны признаки и источники, на которые опирается вывод);

3) внешней валидности (подтверждение на независимых площадках и на сдвиге доменов);

4) безопасности (ограничение на опасные рекомендации, устойчивость к провокациям, контроль галлюцинаций).

Такое понимание делает универсальность не лозунгом, а инженерной целью, достижение которой можно проверить с помощью заранее оговоренных протоколов и метрик.

Данные и стандарты

Универсальная мультимодальная система опирается на широкий спектр медицинских данных, которые отличаются по структуре, формату хранения и степени стандартизации. В этом разделе рассматриваются ключевые типы данных, с которыми приходится работать на практике, а также стандарты обмена информацией, определяющие возможность использования программных продуктов в экосистеме медицинских учреждений.

Изображения

Ключевые классы медицинских изображений включают рентгеновские снимки, КТ, МРТ, УЗИ, офтальмологические снимки, дерматоскопию, гистологические и цитологические препараты. На уровне инфраструктуры обмена медицинскими изображениями доминирует стандарт DICOM, обеспечивающий упаковку пиксельных данных и метаданных исследования [6]. DICOM критичен для воспроизводимости: одинаковые изображения в разных учреждениях могут иметь различную шкалу интенсивности, ориентацию, параметры реконструкции, что напрямую влияет на переносимость моделей. Для универсальной системы важно работать не только с «сырыми» данными, но и с рутинными преобразованиями (MPR, MIP, реконструкции в других плоскостях), на которые ориентированы врачи.

Сигналы и временные ряды

ЭКГ и ЭЭГ относятся к данным с высокой частотой дискретизации и значимой вариативностью артефактов. С точки зрения мультимодальности важно не только распознавание паттернов, но и согласование временных окон с клиническими событиями и лабораторными изменениями. Современная практика телемедицинского мониторинга на основе ЭКГ (в том числе скрининговые сценарии) показывает, с одной стороны, потенциал масштабирования, а с другой – необходимость строгой валидации [7, 8]. Для моделей с высокой степенью универсальности принципиально, чтобы сигнальные данные могли быть сопоставлены с текстовыми записями и образами: например, эпизод аритмии должен быть привязан к жалобам, лекарственной терапии и сопутствующим диагнозам.

Текст и структурированные данные

Тексты истории болезни, заключения, протоколы операций и выписки часто содержат критический контекст, без которого интерпретация изображений становится неоднозначной. Для обмена клиническими сущностями и событиями все чаще используется стандарт HL7 FHIR, обеспечивающий унификацию структуры медицинских данных и интеграцию в информационные системы [9]. Для мультимодальных систем FHIR служит универсальной шиной, связывающей первичные данные с контекстом пациента. Практически это означает, что интеграция модели в медицинскую ИС должна предусматривать не только импорт «картинок», но и доступ к структурированным объектам FHIR (наблюдение, состояние, процедура и др.), на основе которых формируется целостное представление о пациенте.

Молекулярные и лабораторные данные

Лабораторные показатели и данные молекулярного профилирования характеризуются высокой размерностью, сильными корреляциями и значительной межлабораторной вариабельностью.

Для универсальной модели критичны:

1) нормализация и приведение к единым единицам измерения;

2) учет референсных интервалов;

3) моделирование пропусков и частичной наблюдаемости.

Отдельной задачей является сопоставление лабораторных и молекулярных данных с временной осью заболевания и проводимой терапией, что позволяет моделировать динамику риска и оценивать влияние вмешательств.

Архитектуры мультимодальных моделей

Различные архитектурные подходы к мультимодальным моделям отражают разные компромиссы между универсальностью, эффективностью и интерпретируемостью. В этом разделе рассматриваются несколько ключевых классов архитектур, которые на практике используются в медицинской диагностике и могут быть ядром универсальных систем.

Контрастивные фундаментальные модели

Контрастивное обучение (семейство моделей CLIP) на парах «изображение– текст» формирует совместное эмбеддинговое пространство и позволяет решать задачи поиска и сопоставления без обучения под каждую патологию. В биомедицине этот подход представлен, в частности, BiomedCLIP [5]. Практическая ценность CLIP-подобных моделей в диагностике состоит:

в быстром переносе на новые домены через дообучение (адаптация домена);
построении индексов для похожих случаев (извлечение релевантных прецедентов);
подготовке признаков для последующих классификаторов и триажа.

Такие модели естественным образом встраиваются в универсальный контур как «слой признаков», поверх которого можно реализовывать специализированные алгоритмы для конкретных локальных задач учреждения без повторного масштабного предобучения.

Мультимодальные большие языковые модели

Мультимодальные большие языковые модели (MLLM) расширяют алгоритмы LLM за счет визуальных или иных энкодеров и механизма кросс-внимания, позволяя выполнять диалоговые и объясняющие функции. Например, модель LLaVA-Med основана на большой базе биомедицинских изображений с аннотациями, из которых производится генерация инструкций и последующее визуальное дообучение на парах «инструкция – ответ» [10]. В медицинском контексте этот класс моделей востребован для:

визуально-текстовых вопросных систем (VQA) по медицинским изображениям;
генерации структурированных выводов и черновиков заключений;
объяснения и декомпозиции диагностических гипотез, включая явное перечисление наблюдений и альтернатив.

С практической точки зрения MLLM выступают «языковым интерфейсом» ко всем остальным компонентам системы: через них врач формулирует запросы, получает ответы и может просить модель пояснять, на какие данные опирается тот или иной вывод.

Медицинские универсальные модели как модульные системы

Med-Gemini позиционируется как семейство мультимодальных моделей, специализированных на медицине и способных подключать пользовательские энкодеры новых модальностей, что напрямую связано с тезисом универсальности [2, 3]. Архитектурно универсальность поддерживается:

Единой «языковой» шиной рассуждения и планирования.
Наборами специализированных энкодеров (2D, 3D и сигналов).
Механизмами поиска, извлечения источников и инструментального вызова.

С инженерной точки зрения такой подход позволяет эволюционно расширять систему: добавление новой модальности или нового типа задачи не требует переписывания ядра, а сводится к разработке совместимого энкодера и уточнению инструкций для ядра модели.

Радиологические фундаментальные модели

RadFM описывается как доказательство концепции радиологической фундаментальной модели, объединяющей разнородные 2Dи 3D-наборы данных и связанные тексты, а также предусматривающей тщательную оценку результатов [4]. Радиологические фундаментальные модели реализуют универсальность внутри домена лучевой диагностики и задают требования к масштабной разметке, стандартизации и независимой проверке на клинических площадках. Они демонстрируют, что даже в пределах одной крупной области (радиология) универсальность достигается ценой значительных усилий по построению единого корпуса данных, нормализации протоколов и согласованию терминологии.

Критерии и протоколы доказательства универсальности мультимодальных моделей

Даже при наличии мощной архитектуры и большого объема данных универсальность модели не является автоматически доказанным свойством. Требуется формализовать критерии, по которым можно судить об их надежности применения, а также определить протоколы проверки этих критериев в разных условиях и на разных площадках.

Матрица «модальности на задаче»

Доказательство универсальности целесообразно строить как матрицу покрываемых сценариев. В таблице 1 приведен пример минимального ядра задач, которые должны быть поддержаны единым контуром модели.

Подобная матрица позволяет явно зафиксировать границы того, что система умеет, и тем самым избежать завышенных ожиданий. Для каждого блока «модальность-задача» должны быть определены набор метрик, тестовые выборки и процедуры периодической переоценки.

Внешняя валидация и сдвиг домена

Универсальная модель обязана проходить проверку на независимых данных из других учреждений и на сдвиге протоколов. В радиологии это означает учет различий в реконструкции изображений и аппаратуре, в ЭКГ – различия в устройствах и условиях снятия, в тексте – различия в стилях заполнения и терминологии. В протоколах клинической оценки для программного обеспечения как медицинского изделия (Software as a Medical Device, SaMD) ключевым считается построение цепочки: клиническая ассоциация, аналитическая валидация и клиническая производительность [11, 12].

На практике это означает, что перед внедрением универсальной системы в новом учреждении необходимо планировать локальное исследование, а не полагаться исключительно на результаты разработчика.

Калибровка и неопределенность

Для диагностической поддержки критично не максимизировать среднюю точность, а корректно указывать зоны неуверенности. Практический контур охватывает:

калибровку вероятностей на валидации;
оценку неопределенности (например, ансамбли или стохастический вывод);
детекцию выхода за домен (Out-ofDistribution detection, OOD) и отказ от ответа с указанием причин.

Важный элемент универсальности здесь заключается в том, что политика отказа от ответа и индикация неопределенности должны быть согласованы между разными модальностями: врач не должен получать высокий уровень уверенности по одной модальности и «молчание» по другой без объяснения причин такого рассогласования.

Проверяемость

Проверяемость может быть обеспечена привязкой вывода к наблюдаемым фактам. Система должна указывать, какие признаки на изображении или в сигнале использованы, какие фрагменты ЭМК подтверждают гипотезу, где есть противоречия. В мультимодальных моделях практическим механизмом является генерация структурированного отчета с обязательными полями: наблюдения, источники, альтернативы, что нужно уточнить, риск ошибки. На уровне интерфейса это реализуется как возможность «провалиться» из итогового текста к конкретному срезу КТ, участку ЭКГ или абзацу выписки, на которые опирается модель.

Стратегии обучения и адаптации

Будет ли универсальная модель работоспособна на практике, зависит не только от архитектуры, но и от того, как она обучалась и адаптировалась к конкретным клиническим задачам. В этом разделе кратко описаны основные стратегии предобучения, многоцелевого дообучения и интеграции инструментальных компонентов, которые позволяют приблизить модель к реальным условиям использования.

Предобучение на естественных парах и самоописании данных

Один из устойчивых сценариев тренировки визуально-языковых систем состоит в предобучении на парах «изображение–текст» (аннотации, протоколы), что формирует «семантическую стыковку» модальностей. Далее применяется тонкая донастройка инструкций, приближающая поведение модели к клинически полезному диалогу и формату ответа [10]. Важным практическим моментом является то, что такая двухэтапная схема позволяет использовать имеющиеся архивы изображений и текстов даже при ограниченном объеме строго размеченных данных для конкретной задачи (например, детекции редких патологий).

Дообучение на клинических задачах и многоцелевые функции

Универсальные модели должны использовать совмещение задач:

для изображений: сегментация, детекция, репортинг;
для сигналов: классификация паттернов, оценка рисков, прогноз;
для текста: извлечение фактов, нормализация терминов, проверка согласованности.

Совместное обучение снижает риск переобучения под одну нозологию и улучшает переносимость результатов, но требует строгого контроля утечек и стандартизации разметки. В реальных проектах это выражается в необходимости унифицировать схемы аннотации между отделениями и согласовать, какие именно поля отчета считаются «истиной» для обучения модели.

Инструментальный контур модели и извлечение данных

Для безопасной диагностики в исследовательском режиме важен инструментальный контур: индекс похожих случаев, поиск по локальной базе знаний, запрос внешних справочников в рамках утвержденных источников. Следует соблюдать требование: при генерации медицинских подсказок ссылки на источники должны быть воспроизводимы внутри учреждения (локальный индекс, утвержденные клинические рекомендации).

Мультимодальная модель в этом контуре выступает не только генератором текста, но и оркестратором запросов к внешним инструментам, что повышает прозрачность и управляемость решения.

Безопасность и ограничения

Вопрос безопасности для универсальных мультимодальных моделей имеет не только техническое, но и юридическое измерение. Неправильная формулировка вывода, отсутствие указания на неопределенность или некорректная интерпретация модельной подсказки врачом могут привести к прямому вреду пациенту. Поэтому архитектура и режим использования системы должны изначально проектироваться с учетом ограничений, связанных с клинической ответственностью и действующими регуляторными рамками. Основной принцип таких систем: они не должны ставить диагноз.

Почему нельзя выдавать финальный диагноз

Финальный диагноз является юридически значимым действием и влечет ответственность, выходящую за рамки модели, особенно при ошибках. В связи с этим выход системы должен быть ограничен:

Наблюдаемыми фактами из данных.
Вероятностными гипотезами и альтернативами.
Указанием недостающих исследований.
Флагами критических состояний для триажа.

Если модель начинает эксплицитно формулировать диагноз и план лечения, у пользователя возникает иллюзия заменяемости врача и подмены клинического решения алгоритмом. Это не только противоречит регуляторным ограничениям, но и создает риск неправильного интерпретирования модельных подсказок в условиях дефицита времени. Универсальные мультимодальные системы должны проектироваться так, чтобы структурно не позволять пользователю воспринимать их вывод как окончательное заключение, а навязывать формат «обоснованные наблюдения и гипотезы».

Управление рисками и регуляторные рамки

Для медицинского ПО применимы подходы управления рисками по ISO 14971 [13]. Для SaMD клиническая оценка формализуется документами IMDRF и регуляторными руководствами [11, 12]. Для рынка ЕС дополнительно учитываются требования AI Act (Regulation (EU) 2024/1689) и классификация медицинского программного обеспечения по MDR/IVDR и соответствующим руководствам MDCG [14–16]. На уровне принципов разработки и внедрения медицинского программного обеспечения на основе машинного обучения важны «Good Machine Learning Practice» (GMLP) [17].

Для универсальных мультимодальных моделей такой подход означает необходимость явного разделения исследовательского и клинического контуров использования, документирования ограничений и сценариев применения, а также регулярного пересмотра рисков при обновлении модели или расширении набора модальностей. В противном случае система быстро оказывается вне рамок первоначальной оценки риска, и формальная «сертификация» перестает соответствовать фактическому использованию.

Практические предохранители

В универсальном контуре должны быть реализованы практические предохранители:

режим отказа при низком качестве входа (артефакты, неполнота);
запрет на категоричные формулировки диагноза и лечения;
протокол аудита (логирование входов, версий модели, извлечение источников);
мониторинг после развертывания (дрейф данных, деградация).

На инженерном уровне это означает, что система должна обладать внутренним механизмом самопроверки: при возникновении нестандартной комбинации входов или при выходе за обученный домен она обязана не «галлюцинировать» ответ, а сигнализировать о невозможности надежной интерпретации. В противном случае масштабирование такой системы в статусе «универсальной» лишь увеличит масштаб потенциальных ошибок.

Отечественные прикладные направления в контексте универсальных мультимодальных моделей

Помимо международных разработок, существенную роль играют отечественные проекты, которые уже сегодня используют элементы мультимодальности и приближают практику к универсальным системам. В этом разделе кратко рассмотрены несколько направлений, показывающих, как отдельные локальные решения могут быть встроены в более широкий архитектурный контур.

Телемедицинский скрининг по ЭКГ и метаболические нарушения

Исследования и разработки, ориентированные на ранний скрининг по ЭКГ и вариабельности сердечного ритма, демонстрируют важный класс мультимодальности: совмещение сигнала, клинических данных и стандартизированных диагностических процедур.

Для задач неинвазивного выявления нарушений углеводного обмена предложены подходы, описанные в публикациях и защищенные патентами, что иллюстрирует переход от лабораторных прототипов к прикладным системам мониторинга [7, 8, 18, 19]. В контексте универсальных моделей эти работы показывают, как локальные, узкоспециализированные решения по сигналам могут быть встроены в более широкий контур, где ЭКГ рассматривается наряду с лабораторными и текстовыми данными.

Медицинская визуализация и работа с малыми датасетами

Значимая проблема практического внедрения мультимодальных моделей состоит в дефиците размеченных клинических данных и ограничениях на их обмен. Работы по сегментации патологий на УЗИ и МРТ в условиях малого датасета показывают важность прикладного инженерного контура: требуется аккуратная методология разметки, строгие разбиения данных, контроль доменного сдвига и интерпретируемые метрики. Необходимость соблюдения этих требований иллюстрируется работами [20–22], посвященными сегментации рака предстательной железы на ТРУЗИ и сегментации сосудистых структур на МРТ-изображениях. Эти примеры демонстрируют, что универсальность на уровне архитектуры не снимает потребности в аккуратной работе с конкретными небольшими выборками.

Открытые датасеты и воспроизводимость результатов на примере датасетов для стоматологии

Открытые датасеты создают основу для переносимости моделей и независимой проверки. Отечественный датасет AlphaDent представляет собой набор фотографий зубов с разметкой для сегментации и сопровождается описанием лицензирования, метрик и экспериментального протокола [23]. Этот пример показывает важность универсальности данных, поскольку для мультимодальных моделей требуется возможность интеграции визуальных данных с клиническим контекстом (жалобы, осмотр, индекс гигиены, анамнез). Успешное повторное использование подобных датасетов в разных учреждениях является индикатором реальной, а не декларативной воспроизводимости.

Онтологические модели и базы знаний

Онтологический подход обеспечивает формальную согласованность медицинских знаний, унификацию терминов и объяснимость выводов. Например, работы по интеллектуальным медицинским системам, включая дифференциальную диагностику COVID-19 и построение графов знаний [24, 25], иллюстрируют то, как может быть реализован компонент универсального контура модели, отвечающий за визуализацию результата и его проверяемость. Встраивание онтологических и графовых моделей в мультимодальные системы позволяет связать низкоуровневые признаки с высокоуровневыми клиническими понятиями и протоколами лечения.

Компьютерное зрение в медицине и доверенная идентификация документов

Медицинская практика требует не только анализа изображений, но и надежной цифровой инфраструктуры, включая проверку документов, идентификацию пациента и защиту от подделок. Интеграция методов распознавания и контроля документов с медицинскими сервисами повышает надежность конвейера обработки и хранения данных и снижает риск ошибок на уровне процесса [26]. В контексте универсальных систем это означает, что модель должна быть встроена в защищенную среду, где идентификация пациента и валидность поступающих медицинских документов проверяются автоматически.

Инженерный шаблон применения мультимодальных моделей как универсального инструмента для исследований

Чтобы мультимодальная модель могла использоваться не только в единичных пилотных проектах, а как основа для систематических исследований и прототипирования, необходим понятный инженерный шаблон. Ниже описывается типовая модульная архитектура, формат ответов и общий контур клинической оценки, которые могут быть адаптированы под конкретные условия исследовательской или медицинской организации.

Модульная архитектура

Рекомендуется архитектура из четырех слоев:

Слой данных: прием DICOM, сигналов, FHIR-объектов, нормализация.
Слой энкодеров: отдельные энкодеры под 2D, 3D, сигналы, текст.
Ядро рассуждения: MLLM с кросс-вниманием и инструментальным контуром.
Слой безопасности: калибровка, OOD, политика отказа, аудит.

Такая структура задает «скелет» универсальной системы, к которому можно последовательно добавлять новые модули, не нарушая целостности и не смешивая экспериментальные компоненты с уже верифицированными.

Единый формат ответа

Формат ответа модели не должен быть строго диагностическим. Для него рекомендуется формат отчета:

Наблюдения (перечисление фактов с указанием источника: срез, изображение ЭКГ, фрагмент ЭМК).
Гипотезы (2–5 альтернатив с вероятностной оценкой и условиями применимости).
Противоречия (вывод о том, какие из полученных результатов не согласуются с данными).
Уточнения (какие тесты или данные могут снизить неопределенность результата). Флаги риска (состояния, требующие приоритетного внимания).
Использование единого шаблона ответа для разных модальностей упрощает внедрение: врач независимо от источников данных получает результат в привычной структуре, а разработчик может отдельно контролировать качество каждого блока.

Клинический протокол оценки

Для проекта разработки комплексной системы на основе мультимодальной модели рекомендуется последовательность:

1) ретроспективная оценка на локальных данных;

2) внешняя оценка на независимой площадке;

3) проспективное исследование «второго мнения» (врач видит подсказку, но решение принимает сам);

4) мониторинг после внедрения.

Отчетность и публикационная дисциплина должны следовать расширениям CONSORT-AI и SPIRIT-AI при наличии клинических испытаний [27, 28]. Для универсальных моделей важно, чтобы подобные протоколы охватывали разные модальности и задачи; тестирование только одной из подсистем (например, анализа КТ) не может рассматриваться как достаточное доказательство общей эффективности и безопасности.

Практические примеры использования мультимодальных моделей в медицине

Благодаря системам компьютерного анализа изображений с использованием мультимодальных моделей стало возможно анализировать не только отдельные изображения, но и видеофрагменты выполняемых клинических наблюдений. Пример, иллюстрирующий успешное применение сегментации яичника и фолликулов на ультразвуковом диагностическом изображении, представлен на рисунке 1. В данном случае использование компьютерного анализа снижает нагрузку на врача-специалиста при выполнении рутинных процедур подсчета количества фолликулов. При этом за специалистом остается общая оценка особенностей их распределения, сопоставление с контекстом состояния здоровья и возрастом пациента.

Не менее важной задачей является сегментация и определение размера позвоночных артерий. Достаточно простая задача для врачей-рентгенологов требует существенных временных затрат для изучения показателей для каждого пациента на всех диагностических изображениях. Решение мультимодальной задачи, состоящей в сегментации изображения, объединенного с оценкой размеров позвоночных артерий, позволило значительно улучшить рутинный анализ данных, повысив скорость и точность выполняемых расчетов.

Работа с количественными данными может выполняться не только при анализе изображений, но и для интерпретации результатов исследований, как это реализовано программе оценки гемодинамики на уровне артерий шеи с функциональными пробами (ПОГАШ ФП) [28]. Изображения одного из рабочих окон программы для оценки гемодинамики на уровне артерий шеи с функциональными пробами и графического представления результатов исследования приведены на рисунках 3 и 4.

Таким образом, применение мультимодального подхода позволяет с помощью моделей сопоставлять различные данные исследований. С развитием цифровой инфраструктуры в сфере здравоохранения использование методов сопоставления и анализа разнородной диагностической информации повышает качество диагностических мероприятий, за счет чего достигается более точное, не предвзятое, лишенное субъективизма восприятие состояния здоровья пациентов. Становятся доступны новые пути для развития концепции персонифицированной медицинской помощи, формирования качественно новой медицинской документации, позволяющей наблюдать за состоянием здоровья пациентов, не зависимо от привязки к конкретному специалисту, региона и прочих факторов.

Ограничения и типовые источники ошибок применения мультимодальных моделей в медицине

Даже при корректной архитектуре, качественных данных и аккуратной оценке мультимодальные модели остаются источником специфических ошибок. В заключительном аналитическом разделе кратко выделяются ключевые типы сбоев, на которые следует обращать внимание при проектировании и внедрении универсальных систем, и обсуждаются способы снижения соответствующих рисков.

Галлюцинации и ложные причинно-следственные связи

Мультимодальные фундаментальные модели могут генерировать убедительный текст без достаточного основания в данных. Это требует соблюдения ряда правил: 1) принудительного вывода на основе только источников; 2) отказа при отсутствии подтверждений; 3) отделения фактов от гипотез. Особую опасность представляют ложные причинно-следственные связи: модель может «объяснить» наблюдение в духе учебника, хотя в конкретном случае такое объяснение не подкреплено данными и противоречит клиническому контексту. В инженерной практике для ограничения галлюцинаций применяются механизмы принудительного цитирования источников, строгое отделение режимов «генерации свободного текста» и «структурированного отчета», а также дополнительные проверки на основе независимых моделей или правил. Универсальная система должна предусматривать явные индикаторы уверенности и очевидности вывода и запрещать формулировки, которые могут быть интерпретированы как однозначный диагноз без ссылок на данные.

Сдвиг домена и деградация при изменении протоколов

Изменение аппарата, протокола КТ или структуры ЭМК вызывает дрейф признаков и деградацию качества работы модели. Универсальный контур должен включать мониторинг распределений, периодическую переоценку и документирование версий модели. Иначе накопление малых изменений в инфраструктуре (обновление PACS, внедрение новой формы электронной карты, смена лабораторного анализатора) приводит к постепенному ухудшению качества, которое долгое время может оставаться незамеченным.

Для снижения этого риска необходимы автоматизированные процедуры контроля качества, включающие сравнение текущих данных с эталонными выборками, отслеживание ключевых метрик по времени и формализацию критериев, при которых требуется пересмотр или переобучение модели. В случае универсальной системы важно, что деградация по одной модальности (например, текстовой) может косвенно ухудшать и качество мультимодального вывода в целом.

Неравномерность качества разметки

Разметка в медицине вариативна, зависит от конкретного врача и контекста. Для задач сегментации и детекции требуется двойная разметка данных, оценка согласованности и использование активного обучения, чтобы снизить затраты труда на разметку. В противном случае модель фактически обучается на индивидуальном стиле одного специалиста и воспроизводит его особенности, а не консенсус профессионального сообщества.

В универсальных системах этот эффект усиливается тем, что ошибки и неоднородность разметки в одной подсистеме (например, в сегментации) могут «просачиваться» в другие задачи через общие представления и приводить к скрытым сдвигам на уровне всей модели. Поэтому при проектировании мультимодальных моделей необходимо закладывать процессы согласования схем аннотации, ревизии спорных случаев и регулярного обновления обучающих наборов с привлечением клинических экспертов.

Conclusion.

Мультимодальные фундаментальные модели делают медицинскую диагностику такой, что универсальность становится инженерно проверяемым свойством, а не только маркетинговым термином. Единый контур модели способен объединять изображения, сигналы и клинические текстовые данные, что обеспечивает применение для широкого круга задач от триажа до извлечения фактов и формирования гипотез. При этом использование мультимодальных моделей для медицинской диагностики имеет ряд проблем и ограничений, которые нельзя игнорировать при реальном внедрении, а также различные проблемные аспекты этического характера в управлении развитием социальной сферы [29, 30, 31].

Доказательство универсальности требует разработки матрицы покрытия, внешней валидации, калибровки неопределенности и проверяемости выводов модели. В практическом применении существуют следующие ограничения: система не должна ставить финальный диагноз и заменять врача, а должна предоставлять воспроизводимые подсказки и наблюдения, совместимые с клинической оценкой и соответствующие регуляторным рамкам. Дополнительно необходимы устойчивые механизмы управления рисками, мониторинга дрейфа данных и поддержания качества разметки.

В качестве направления дальнейших исследований можно выделить интеграцию онтологических и графовых моделей знаний с мультимодальными архитектурами, развитие стандартов описания и обмена мультимодальными медицинскими датасетами, а также разработку общепринятых протоколов аудита и мониторинга универсальных систем. Только сочетание архитектурных инноваций с аккуратной клинической и регуляторной работой позволит реализовать потенциал мультимодальных моделей как действительно универсального, но при этом безопасного и проверяемого инструмента.

Singhal K., Tu T., Gottweis J., et al. Towards expert-level medical question answering with large language models [Electronic resource] // arXiv preprint arXiv:2305.09617. – 2023. – DOI: 10.48550/arXiv.2305.09617.
Saab K., Tu T., Weng W.-H., et al. Capabilities of Gemini models in medicine [Electronic resource] // arXiv preprint arXiv:2404.18416. – 2024. – DOI: 10.48550/arXiv.2404.18416.
Yang L., Xu S., Sellergren A., et al. Advancing multimodal medical capabilities of Gemini [Electronic resource] // arXiv preprint arXiv:2405.03162. – 2024. – DOI: 10.48550/arXiv.2405.03162.
Wu C., Zhang X., et al. Towards generalist foundation model for radiology by leveraging web-scale 2D&3D medical data // Nature Communications. – 2025. – Vol. 16, Art. No. 7866. – 22 p. – DOI: 10.1038/s41467-025-62385-7.
Zhang S., Xu Y., Usuyama N., et al. BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [Electronic resource] // arXiv preprint arXiv:2303.00915. – 2023. – DOI: 10.48550/arXiv.2303.00915.
DICOM Standards Committee. DICOM Standard [Electronic resource]. – 2025. – URL: https://www.dicomstandard.org/current/ (дата обращения: 14.12.2025).
Berezin A.A., Novikov R.S., Novopashin M.A., Pozin B.A., Shmid A.V. , et al. Computerized method for non-invasive detection of carbohydrate metabolism disorders by heart rate variability and a wearable autonomous device for its implementation: patent. RU 2751817 C1, 2021. – Cl. 31.08.2020; publ. 19.07.2021. – Bull. No. 20. (In Russian).
Shmid A.V., Novopashin M.A., Berezina A.A. и др. Компьютеризированный способ неинвазивного выявления нарушений углеводного обмена по вариабельности сердечного ритма и носимое автономное устройство для его реализации: пат. RU 2751817 C1, 2021. – Заявл. 31.08.2020; опубл. 19.07.2021. – Бюл. № 20.
HL7 International. HL7 FHIR (Fast Healthcare Interoperability Resources) overview [Electronic resource]. – 2025. – URL: https://www.hl7.org/fhir/overview.html (дата обращения: 14.12.2025).
Li C., Wong C., Zhang S., et al. LLaVA-Med: Training a large language-and-vision assistant for biomedicine in one day [Electronic resource] // arXiv preprint arXiv:2306.00890. – 2023. – DOI: 10.48550/arXiv.2306.00890.
International Medical Device Regulators Forum (IMDRF). Software as a Medical Device (SaMD): Clinical Evaluation. – 2017.
U.S. Food and Drug Administration. Software as a Medical Device: Clinical Evaluation; International Medical Device Regulators Forum; Guidance for Industry and FDA Staff; Availability [Electronic resource]. – 2017. – URL: https://www.federalregister.gov/documents/2017/12/08/2017-26441 (дата обращения: 14.12.2025).
International Organization for Standardization. ISO 14971:2019 Medical devices – Application of risk management to medical devices [Electronic resource]. – 2019. – URL: https://www.iso.org/standard/72704.html (дата обращения: 14.12.2025).
European Union. Regulation (EU) 2024/1689 of the European Parliament and of the Council (Artificial Intelligence Act) [Electronic resource]. – 2024. – URL: http://data.europa.eu/eli/reg/2024/1689/oj (дата обращения: 14.12.2025).
European Commission, DG SANTE. Update: MDCG 2019-11 rev.1 – Qualification and classification of software (MDR/IVDR). – News announcement, June 2025.
U.S. Food and Drug Administration. Good Machine Learning Practice for Medical Device Development: Guiding Principles [Electronic resource]. – 2021. – URL: https://www.fda.gov/medical-devices/software-medical-device-samd/good-machinelearning-practice-medical-device-development-guidingprinciples (дата обращения: 14.12.2025).
Busenkov A.A., Kholodov E.A., Novikov R.S., Pozin B.A. Approach to data visualization for users of telemedicine systems for early disease detection from ECG // Proceedings of the Institute for System Programming of the RAS. – 2022. – Vol. 34, No. 2. – P. 201–208. – DOI: 10.15514/ISPRAS-2022-34(2)-16.
Shmid A.V., Berezina A.A., Novopashin M.A. , et al. Computerized method for non-invasive detection of carbohydrate metabolism disorders using an electrocardiogram: patent. RU 2728869 C1, 2020. – Cl. 30.08.2019; publ. 31.07.2020. – Bull. No. 22. (In Russian).
Zaev R., Romanov A., Solovyev R. Segmentation of prostate cancer on TRUS images using ML // Proceedings of the 2023 International Russian Smart Industry Conference (SmartIndustryCon). – IEEE, 2023. – P. 460–465. DOI: 10.1109/SmartIndustryCon57312.2023.10110727.
Lyutkin D. A., Romanov A. Y., Nasonov D. Segmenting prostate cancer on TRUS images with a small dataset: A comprehensive methodology // Proceedings of the 2023 International Russian Smart Industry Conference (SmartIndustryCon). – IEEE, 2023. – P. 454–459. – DOI: 10.1109/SmartIndustryCon57312.2023.10110773.
Prikhodko R., Moshkin A., Romanov A. Segmentation of vertebral arteries on the MR images // Proceedings of the 2025 International Russian Automation Conference (RusAutoCon). – IEEE, 2025. – P. 273–278. – DOI: 10.1109/RusAutoCon65989.2025.11177298.
Sosnin E.I., Vasilev Y.L., Solovyev R.A., Stempkovskiy A.L., Telpukhov D.V., Vasilev A.A., Amerikanov A.A., Romanov A.Y. AlphaDent: A dataset for automated tooth pathology detection [Electronic resource] // arXiv preprint arXiv:2507.22512. – 2025. – DOI: 10.48550/arXiv.2507.22512.
Gribova V.V., Kul’chin Y.N., Petryaeva M.V., Okun D.B., Kovalev R.I., Shalfeeva E.A. An Intelligent System for Medical Decision Support in Differential Diagnosis and Treatment of COVID-19 // Herald of the Russian Academy of Sciences. – 2022. – Vol. 92, No. 4. – P. 511–519. – DOI: 10.1134/S1019331622040128.
Gribova V. V., Perevolotsky V. S. // Knowledge graph formation using llm for disease treatment in decision support systems. Programmnaya Ingeneria. – 2024. – Vol. 15, No. 6. – P. 308–321. – DOI: 10.17587/prin.15.308-321. (In Russian).
Smart Engines. Document analysis and computer vision projects [Electronic resource]. – 2025. – URL: https://smartengines.com (дата обращения: 14.12.2025).
Liu X., et al. CONSORT-AI extension: reporting guidelines for clinical trials of artificial intelligence interventions // Nature Medicine. – 2020. – Vol. 26, No. 9. – P. 1364–1374. – DOI: 10.1038/s41591-020-1034-x.
Cruz Rivera S., et al. SPIRIT-AI extension: guidance for clinical trial protocols for artificial intelligence interventions // Nature Medicine. – 2020. – Vol. 26, No. 9. – P. 1351–1363. – DOI: 10.1038/s41591-020-1037-7.
Moshkin A.S.et al. Program for assessing hemodynamics at the level of the neck arteries with functional tests (POGASH FP) // Certificate of state registration of the computer program. No. 2024668573 dated 08.08.2024. – Bulletin No. 8. (In Russian).
Fedorov M.V., Repin D.A., Ignatev S.A. The future of artificial intelligence in public administration: finding the paradigm of the reasonable (self)limitation // Izvestiya SPbGE`U. – 2024. – No. 5 (149). – P. 46–53. (In Russian).
Voshev D.V., Shepel R.N., Vosheva N.A., Drapkina O.M. Artificial intelligence in healthcare: historical trajectory, challenges and prospects (1960-2025) // (Primary Health Care). – 2025. – Vol. 2, No. 3. – P. 35–47. – DOI 35–47829/3034–4123–2025–72. (In Russian).
Klevtsova O.Yu., Repin D.A. Proposals for improving the methodology of selecting options for financial support of innovative defense projects if there are alternatives // Vestnik Voennoj akademii material`no-texnicheskogo obespecheniya. – 2025. – No. 2 (42). – P. 96–108. (In Russian).

Archive

PRACTICAL ASPECTS OF IMPLEMENTATION OF DIGITAL TECHNOLOGIES

Multimodal models in medical diagnostics as a universal tool