Современные технологии в сегментации и детекции изображений позвоночника: результаты собственного исследования и литературный обзор

V. V. Rerikh, К. О. Васильев, Е. А. Угольникова, В. Л. Лукинов, I. A. Kirilova

1 — ФГБУ «Новосибирский научно-исследовательский институт травматологии и ортопедии им Я.Л. Цивьяна» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, ул. Фрунзе, 17.; ФГБОУ ВО НГМУ «Новосибирский государственный медицинский университет» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, Красный проспект, 52.

rvv_nsk@mail.ru

ORCID: https://orcid.org/0000-0001-8545-0024

2 — ФГБУ «Новосибирский научно-исследовательский институт травматологии и ортопедии им Я.Л. Цивьяна» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, ул. Фрунзе, 17.; ФГБОУ ВО НГМУ «Новосибирский государственный медицинский университет» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, Красный проспект, 52.

vasiliev_ko@mail.ru

ORCID: https://orcid.org/0009-0006-2726-1392

3 — ФГБУ «Новосибирский научно-исследовательский институт травматологии и ортопедии им Я.Л. Цивьяна» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, ул. Фрунзе, 17.; ФГАОУ ВО «Санкт-Петербургский государственный электротехнический университет “ЛЭТИ” имени В. И. Ульянова (Ленина)», 197022, Российская Федерация, г. Санкт-Петербург, ул. Профессора Попова, д. 5, литера Ф.

giekoolis@gmail.com

ORCID: https://orcid.org/0000-0003-3438-819X

4 — ФГБУ «Новосибирский научно-исследовательский институт травматологии и ортопедии им Я.Л. Цивьяна» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, ул. Фрунзе, 17.; ФГБОУ ВО «Сибирский государственный университет телекоммуникаций и информатики», 630102, Российская Федерация, г. Новосибирск, ул. Кирова, д. 86.

vitaliy.lukinov@sci-boost.com

ORCID: https://orcid.org/0000-0002-3411-508X

5 — ФГБУ «Новосибирский научно-исследовательский институт травматологии и ортопедии им Я.Л. Цивьяна» Минздрава России, 630091, Российская Федерация, Новосибирская область, г. Новосибирск, ул. Фрунзе, 17.

IKirilova@niito.ru

ORCID: https://orcid.org/0000-0003-1911-9741

Published: 27.04.2026

Abstract
Text
References

Заболевания позвоночника, такие как сколиоз, гиперкифоз, спондилолистез, повреждения и их последствия представляют значительную проблему для общественного здравоохранения, о чем свидетельствуют высокие показатели заболеваемости деформирующими изменениями. Рентгенография позвоночника остается наиболее доступным и широко используемым первичным методом визуализации для диагностики и мониторинга широкого спектра патологий, включая смещения, деформации, переломы и оценку кривизны. Однако за кажущейся простотой черно-белого снимка стоит сложнейшая аналитическая работа. Чтобы понять, как лечить пациента, врачу необходимо провести комплексный анализ позвоночника: измерить позвонки и углы, оценить смещения, рассчитать сагиттальный баланс и другие важные характеристики. В условиях колоссальной нагрузки на медицинский персонал эта рутинная работа становится «узким горлышком». Именно здесь на помощь приходят технологии искусственного интеллекта (ИИ), которые могут существенно облегчить обработку визуальных данных.

Keywords: искусственный интеллект, нейросети, вертебрология, позвоночник, сегментация, обнаружение, детекция

Background.

Важно понимать, что искусственный интеллект (ИИ) в медицине – это не «волшебная кнопка», а набор инструментов, каждый из которых специализирован под свою задачу. В рамках данной работы мы говорим об анализе рентгеновских снимков позвоночника, где основными задачами нейросетей являются сегментация и обнаружение. Первый шаг, называемый обнаружением или детекцией, – это поиск объектов. Нейросеть должна «увидеть» и «выделить» области расположения позвонков на снимке и правильно их пронумеровать. Это критически важный этап для расчета различных параметров. Современные алгоритмы учатся не просто находить костные структуры, а понимать анатомические особенности, например, где заканчиваются ребра, как расположен таз и как позвонки выстроены в цепочку.

Если детекция указывает на область расположения объекта, то сегментация определяет его точные границы. Нейросеть буквально обводит каждый позвонок по контуру, отделяя его от окружающих мягких тканей, сосудов и шумов на снимке. Это позволяет получить точную геометрическую форму каждого сегмента, что также необходимо для последующих автоматических расчетов. Следует отметить, что вертебрология не ограничивается только этими задачами, однако именно детекция и сегментация являются фундаментом для автоматизации диагностики на рентгеновских снимках.

Научное сообщество во всем мире активно ищет наиболее эффективные алгоритмы (архитектуры нейросетей) для работы с позвоночником. Систематический обзор современных исследований [1] показывает, что единого, универсального решения не существует – исследователи используют различные архитектуры в зависимости от целей.

Обзор современных технологий ИИ по сегментации и обнаружению

По международной базе медицинских публикаций Pubmed произведен поиск работ за последние 5 лет, содержащих упоминание о нейросетевых технологиях и их применении в анализе медицинских изображений в вертебрологии [1]. Всего было обнаружено 311 источников литературы. После исключения дубликатов, недостаточно надежных и неинформативных статей осталось 30 работ, из которых в 17 были представлены результаты исследований по сегментации, а в 13 – по детекции.

В 16 из 17 работ при сегментации использовалась одна нейросеть, в одном случае – комбинация двух сетей – U-Net + FCN. По типу архитектуры в большинстве случаев (10 из 17) использовалась U-Net и ее модификации; во всех остальных случаях (7 из 10) использовались различные типы сетей, среди которых: 3D CNN собственной разработки, Spine-GAN, 3D FCN – MsFCN, RIMNet, MIPNet, BiLuNet, Mask Region-based CNN. Наиболее распространенной нейросетью для сегментации является U-Net, предложенная Ronneberger [2] в 2015 году. U-Net относится к классу сверточных нейронных сетей (CNN) и имеет стандартную архитектуру. Сеть содержит сверточную часть для захвата контекста (слева), в которой происходит сжатие изображения и симметричную разверточную часть для точной локализации (справа), поэтому данная архитектура визуально похожа на английскую букву «U».

Наиболее часто используемые метрики качества в области техники сегментации и классификации медицинских изображений с помощью нейронных сетей представляют собой показатели коэффициентов Дайса и Жаккара [1]. Значения коэффициентов варьируются от 0% до 100%, чем ближе к 100%, тем выше точность. При анализе статей в 12 из 17 случаев применялся коэффициент Дайса, в 6 из 17 случаев – коэффициент Жаккара или его усреднение, поэтому сравнение результатов обучения нейросетей проводилось по этим метрикам. Kolari’k M. et al. [3] на основе комбинаций классической 2D U-Net и 3D U-Net и добавления взаимосвязи между слоями, обрабатывающими элементы одного и того же размера, создал собственную разработку – 3D Dense-U-Net, способную обрабатывать данные медицинского изображения в оригинальном разрешении и достигать более высокой точности, чем стандартная U-Net или 3D U-Net. Взаимосвязи помогли сети быстрее обучаться и получать более высокий уровень детализации. Таким образом, был получен также один из самых высоких показателей среди как 2D, так и 3D сетей с коэффициентом Дайса – 97,08 %. Одной из важнейших проблем при разработке и обучении нейросети является тот факт, что с увеличением количества слоев сети точность сначала постепенно увеличивается, а затем быстро ухудшается. Новая идея для решения данной проблемы получила название «глубокое остаточное обучение». Решением данной проблемы является создание соединений быстрого доступа, когда на выход подаются успешные данные двух сверточных слоев с обходом входных данных следующего слоя. Именно эта особенность легла в основу ResNet. Для повышения точности сегментации была разработана комбинированная нейросеть – ResNet-UNet [4]. Данную архитектуру применил Masood R.F. et al. [5] и получил один из самых высоких показателей с коэффициентом Дайса для сетей, работающих с двумерными изображениями – 97,0 %.

Кроме того, стоит отметить модифицированную 3D U-Net – SPINECT со значением коэффициента Дайса, равным 94,5 % (Fan G. et al. [6]) и классическую 3D U-Net с коэффициентом Дайса, равным 93,8 % (Rak M. et al. [7]). По усредненному коэффициенту Жаккара примерно со схожими результатами отличаются сети U-Net (Huang J. et al. [8]) – 94,7 % и 92,6 % и Multi-Input PointNet (MIPNet) – 93,4–96,0 % (Huo X. et al. [9]). Сравнение по прочим метрикам на данный момент невозможно, в связи с тем, что они крайне редко используются в анализируемой литературе.

Нейросети для обнаружения объектов можно разделить на две базовые архитектуры: двухэтапный Region-based Convolution Neural Network и одноэтапный Single Shot MultiBox Detector [1]. Все они являются подтипами CNN. Стоит отметить, что существует большая разновидность нейросетей, использованных именно для данной задачи, но все они, так или иначе, являются подвидом данных архитектур. Первый вид архитектуры использует следующие этапы: разбивка всего изображения на регионы, в которых могут располагаться интересующие объекты, при этом происходит генерация порядка 2000 регионов. Затем каждый регион подается как входящая информация для свертывающей нейронной сети, которая извлекает необходимый набор векторов и передает его на алгоритм опорных векторов SVM (support vector machine), где уже и происходит обнаружение.

Второй одноэтапный метод Single Shot MultiBox Detector использует метод регрессии. С помощью данного метода находится и определяется охватывающая рамка (coordinate box) и вероятность принадлежности к определенному классу объектов каждого пикселя на всем изображении. Указанный второй тип архитектуры является более предпочтительным, т.к. он более быстрый и точный.

Из представленных работ в пяти из 13 случаев применялись комбинации нейросетей, в восьми из 13 – только одна нейросеть. В двух из 13 случаев использовалась Faster R-CNN, во всех остальных случаях – нейросети различных архитектур, в том числе, CNN собственной разработки.

Наиболее распространенными метриками качества обнаружения являются [1]: точность, коэффициент обнаружения и ошибка локализации. Коэффициент обнаружения встречается в пяти из 13 работ, в шести из 13 работ – ошибка локализации, в трех из 13 работ – точность. По коэффициенту обнаружения лидирует Sequential Conditional Reinforcement Learning network (Zhang D. et al. [10]) с показателем в 96,3 % и 3D FCN (Chen Y. et al. [11] с показателем в 94,67%.

Zhang D. et al. [10] впервые предложил сеть обучения с последовательным условным подкреплением (Sequential Conditional Reinforcement Learning network (SCRL) для одновременного обнаружения и сегментации позвонков на МР-изображениях позвоночника. Chen Y. et al. [11] предложили нейросеть, ключевым модулем которой является трехмерная FCN, обученная сквозным образом на уровне позвоночника для захвата контекстной информации из трехмерных КТ-изображений.

Что касается такого параметра, как ошибка локализации, то лидирует комбинация нейросетей Mask R-CNN+ResNet101 (Roggen T. et al. [13]) со значением в 1,5 мм и CNN собственной разработки (Forsberg D. et al. [14]) со значением в 2,6 мм.

Заключение по результатам обзора

На основании полученных данных можно сделать вывод, что нейросети достаточно хорошо справляются с задачами сегментации и обнаружения в вертебрологии. Для осуществления сегментации присутствует однозначный лидер – U-Net и ее различные модификации. По детекции представлено гораздо меньше статей, но общий уровень обнаружения находится на достаточно высоком уровне с наличием ведущих типов архитектур: SCRL, 3D FCN, CNN собственной разработки и комбинация сетей Mask R-CNN+ResNet101.

В настоящее время технологии ИИ в здравоохранении Российской Федерации (РФ) наиболее активно используются для диагностики в части анализа различных изображений (КТ, МРТ, рентгеновские снимки и прочие изображения). В соответствии с Федеральным законом № 323-ФЗ [14] к обращению (производство, реализация, эксплуатация, техническое обслуживание и т. д.) в РФ допускаются только медицинские изделия (МИ), прошедшие государственную регистрацию в установленном Правительством РФ порядке. Все сведения о зарегистрированных МИ размещаются Росздравнадзором в «Государственном реестре медицинских изделий и организаций (индивидуальных предпринимателей), осуществляющих производство и изготовление медицинских изделий» по адресу http:// www.roszdravnadzor.ru/services/misearch. Министерство здравоохранения РФ обновляет сведения о зарегистрированных МИ с применением технологий ИИ на специальной страничке по адресу https://portal.egisz.rosminzdrav.ru/materials/4873. По данным последнего обновления (от 09.04.2026) мы нашли сведения о 56 зарегистрированных медицинских изделиях, использующих технологии ИИ и имеющих действующее регистрационное удостоверение (РУ) Росздравнадзора. Только одно из рассмотренных 56 МИ предназначено для распознаваний изображения позвоночника – «Программное обеспечение для помощи врачу в диагностике сколиоза «Просвет. РГ позвоночника. Сколиоз»» РУ Г004-00110-00/04387173 от 19.02.2026, построенное на архитектуре YOLO 8 с достигнутой диагностической точностью распознавания 85% [15].

Собственные результаты исследования

Новосибирский научно-исследовательский институт травматологии и ортопедии им. Я.Л. Цивьяна – один из ведущих российских центров по хирургии позвоночника. Здесь выполняются сотни операций в год, и вопрос эффективного анализа рентгенограмм стоит очень остро. Команда специалистов разработала комплексный автоматизированный инструмент, который работает с обычными рентгеновскими снимками – самым доступным и распространенным типом исследований.

Задача заключалась в том, чтобы создать алгоритм, способный обрабатывать два рентгеновских снимка позвоночника – один спереди (фронтальная проекция) и один сбоку (боковая проекция) – и автоматически строить из них трехмерную модель позвоночника для последующего автоматического расчета числовых показателей для его оценки. Ключевым техническим вызовом была работа с рентгенограммами. В отличие от КТ, рентгеновский снимок – это «тень» от объемного объекта на плоскости. На боковом снимке грудные позвонки частично перекрыты ребрами и плечевым поясом, а на фронтальном верхние шейные позвонки перекрываются нижней челюстью.

Для обучения нейросетей использовались парные рентгеновские снимки в двух проекциях 50 пациентов. Специально отбирались случаи с минимальными деформациями и без металлических конструкций в позвоночнике, что позволило получить чистые, хорошо интерпретируемые снимки для первоначального обучения. На каждой рентгенограмме специалисты вручную разметили все позвонки – от второго шейного (C2) до первого крестцового (S1) – указав их местоположение и очертив контуры. Тестирование проводилось на отдельных 10 обследованиях пациентов, которые алгоритм обрабатывал впервые. Созданная база клинических данных была запатентована (свидетельство Роспатента № RU 2023621304).

Алгоритм реализован как дополнительный модуль для программы визуализации рентгеновских снимков 3D Slicer и состоит из трех последовательных этапов. На первом шаге (детекции) алгоритм определяет области, в которых находится каждый позвонок с помощью нейросети на основе архитектуры YOLO 26 [1]. Модель обрабатывает снимок и находит каждый позвонок, обводя его прямоугольной рамкой. YOLO – один из самых быстрых детекторов объектов, обрабатывающий изображение целиком за один проход, не разбивая его на части. На втором шаге (сегментации) алгоритм на каждой выделенной YOLO области определяет структуру позвонка и рисует его точный контур. Модель работает на уровне пикселей, определяя для каждого из них: «это позвонок» или «это не позвонок». На этом этапе используется нейросеть на основе архитектуры U-Net [3]. На последнем шаге контуры позвонков с фронтального и бокового снимков совмещаются в единую пространственную модель. Каждый позвонок описывается шестью ключевыми точками, образующими упрощенную многогранную форму. Из этих многогранников складывается трехмерная модель всего позвоночного столба. Полная схема работы описанного алгоритма приведена на рисунке.

Результаты тестирования алгоритма оказались весьма впечатляющими. Детекция позвонков достигла точности mAP@0.5 = 90% для фронтальной проекции и 88% для боковой. Говоря простым языком, алгоритм правильно находит и обводит около 90% позвонков на каждом снимке. Наибольшие трудности, как и ожидалось, возникали с грудными позвонками в боковой проекции в связи с перекрытием их ребрами и с верхними шейными и нижними поясничными позвонками во фронтальной проекции. Точность сегментации по коэффициенту Дайса составила 92% ± 4% для боковой проекции и 90% ± 3% для фронтальной. Коэффициент Дайса можно интерпретировать так: если нарисовать контур позвонка вручную и наложить на него контур, нарисованный нейросетью, то около 92% площади будут совпадать. Для поясничных позвонков (самых крупных и хорошо видимых) результат достигал 96%.

Выводы

Исследовательские группы по всему миру работают над тем, чтобы сделать анализ медицинских изображений быстрее, точнее и доступнее. Нейросети в вертебрологии являются не заменой врача, а его инструментом, позволяющим повысить эффективность работы и кратно уменьшить время рутинной обработки данных. Наша разработка является частью глобального тренда. При этом найденное решение находится на стадии активного развития, и перед внедрением в реальную клиническую практику его точность необходимо повысить, особенно для сложных случаев с выраженными деформациями или металлическими имплантами после операций. Использование системы возможно только в качестве помощника, то есть как дополнительный инструмент при принятии решения врачом.

В перспективе планируется обучить алгоритм работать со снимками с имплантами, добавить оценку межпозвонковых дисков и возможности биомеханического моделирования для того, чтобы предсказывать, как изменится нагрузка на позвоночник при тех или иных хирургических вмешательствах.

Васильев К.О., Рерих В.В., Угольникова Е.А. Возможности искусственного интеллекта в сегментации и детекции изображений позвоночника на современном этапе развития: систематический обзор. Лучевая диагностика и терапия. 2025; 16(1): 7–18. https://doi.org/10.22328/2079-5343-2025-16-1-7-18.
Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation //Medical Image Computing and Computer-Assisted Intervention. 2015. P. 234–241. Doi: 10.1007/978-3-319-24574-4_28.
Kolari’k M., Burget R., Uher V., Ri’ha K., Dutta M.K. Optimized high resolution 3D dense-U-Net network for brain and spine segmentation // Applied Sciences. 2019. Vol. 9. № 3. P. 404. Doi: 10.3390/app9030404.
Charng J., Xiao D., Mehdizadeh M., Attia M.S., Arunachalam S. et al.Deep learning segmentation of hyperautofluorescent fleck lesions in Stargardt disease //Scientific Reports. 2020. Vol. 10. №. 1. P. 16491. Doi: 10.1038/s41598-020-73339-y.
Masood R. F., Taj I.A., Khan M.A., Qureshi M.A., Hassan T. Deep learning based vertebral body segmentation with extraction of spinal measurements and disorder disease classification // Biomedical Signal Processing and Control. 2022. Vol. 71. P. 103230. Doi: 10.1016/j.bspc.2021.103230.
Fan G., Liu H., Wu Z., Li Y., Feng C., Wang D. et al. Deep learning–based automatic segmentation of lumbosacral nerves on CT for spinal Intervention: a translational Study // American Journal of Neuroradiology.2019. Vol. 40. №. 6. P. 1074–1081. Doi: 10.3174/ajnr.A6070.
Rak M., Steffen J., Meyer A., Hansen C., Tonnies K.D. Combining convolutional neural networks and star convex cuts for fast whole spine vertebra segmentation in MRI //Computer Methods and Programs in Biomedicine. 2019. Vol. 177. P. 47–56. Doi: 10.1016/j.cmpb.2019.05.003.
Huang J., Shen H., Wu J., Hu X., Zhu Z. et al. Spine Explorer: a deep learning based fully automated program for efficient and reliable quantifications of the vertebrae and discs on sagittal lumbar spine MR images // The Spine Journal. 2020. Vol. 20. № 4. P. 590–599. Doi: 10.1016/j.spinee.2019.11.010.
Li X., Dou Q., Chen H., Fu CW., Qi X. et al. 3D multi-scale FCN with random modality voxel dropout learning for intervertebral disc localization and segmentation from multi-modality MR images // Medical image analysis. 2018. Vol. 45. P. 41–54. Doi: 10.1016/j.media.2018.01.004.
Zhang D., Chen B., Li S. Sequential conditional reinforcement learning for simultaneous vertebral body detection and segmentation with modeling the spine anatomy // Medical Image Analysis. 2021. Vol. 67. P. 101861. Doi: 10.1016/j.media.2020.101861.
Chen Y., Gao Y., Li K., Zhao L., Zhao J. Vertebrae identification and localization utilizing fully convolutional networks and a hidden Markov model // IEEE Transactions on Medical Imaging. 2019. Vol. 39. №. 2. P. 387–399. Doi: 10.1109/TMI.2019.2927289.
Roggen T., Bobic M., Givenchi N., Scheib S.G. Deep Learning model for markerless tracking in spinal SBRT // Physica Medica. 2020. Vol. 74. P. 66–73. Doi: 10.1016/j.ejmp.2020.04.029.
Huang Y., Uneri A., Jones C.K., Zhang X., Ketcha M.D. et al. 3D vertebrae labeling in spine CT an accurate, memoryefficient (Ortho2D) framework Physics in Medicine & Biology. 2021. Vol. 66. № 12. P. 125020. Doi: 10.1088/1361-6560/ac07c7.
Федеральный закон РФ от 21.11.2011 № 323-ФЗ (ред. от 11.06.2022) «Об основах охраны здоровья граждан в Российской Федерации». URL: https://base.garant.ru/12191967/ (дата обращения: 15.04.26).
Применение компьютерного зрения для определения реперных точек при оценке нарушения осанки / И.Д. Шитоев, В.Н. Никитин, М.Д. Иванова, Г.З. Клоян, С.В. Муравьев // Прикладная математика и вопросы управления. – 2023. – № 4. – С. 94–106. DOI 10.15593/2499-9873/2023.4.06.

Archive

MEDICAL DEVICES

Современные технологии в сегментации и детекции изображений позвоночника: результаты собственного исследования и литературный обзор