Рак молочной железы остается одной из самых распространённых и смертоносных форм онкологии у женщин. Несмотря на стремительное развитие методов диагностики и лечения, раннее выявление и точное прогнозирование остаются серьезным вызовом. Иранская группа учёных провела комплексное исследование, в котором объединила возможности нанотехнологий, иммуногистохимии и алгоритмов машинного обучения (МО), чтобы значительно повысить точность диагностики и оценку риска рецидива рака груди.
Исследование было проведено на базе клинических данных Института рака Мотамеда в Тегеране. Были проанализированы записи 300 пациенток с использованием набора показателей, среди которых — статус HER2, рецепторы эстрогена (ER) и прогестерона (PR), индекс пролиферации Ki-67, история неоадъювантной терапии и возраст. Особое внимание уделялось интеграции данных с инновационного нанобиосенсора CDP, способного в режиме реального времени определять биохимические маркеры, связанные с раковой активностью, включая уровень RAS.
CDP-сенсор работает на принципах электрохимии с высокой чувствительностью, что позволяет фиксировать экспрессию раковых биомолекул в тканях. В совокупности с результатами иммуногистохимии, такой подход даёт более объемную картину опухолевого профиля. На основании этих данных была проведена классификация с использованием алгоритмов SVM, случайного леса (RF), логистической регрессии, дерева решений, KNN и искусственных нейронных сетей.
Применение методов отбора признаков, расстояния Махаланобиса и анализа главных компонент (PCA) позволило сократить размерность данных и устранить выбросы. Для устранения дисбаланса классов использовался алгоритм SMOTE, синтетически увеличивающий представленность редких (положительных) примеров. После балансировки обучающей выборки алгоритмы прошли оценку по таким метрикам, как точность, полнота и чувствительность.
Наилучшие результаты показала модель Random Forest, достигнув AUC 0,87 и стабильных значений точности на уровне 86%, чувствительности — 84% и специфичности — 88%. SVM обеспечила максимальную точность предсказаний — до 94%, что делает её ценным инструментом в ситуациях, требующих минимизации ложноположительных результатов. Логистическая регрессия и KNN также продемонстрировали высокую предсказательную способность, в то время как дерево решений и ANN уступали по точности и стабильности.
Анализ важности признаков методом Джини показал, что наиболее значимыми переменными стали возраст, экспрессия HER2, Ki-67, рецепторы ER и PR, а также факт проведения неоадъювантной терапии. Эти данные подтверждаются и тепловой корреляционной матрицей, где была выявлена сильная положительная связь между ER и PR (0,98), а также между Ki-67 и обоими рецепторами, что указывает на биологическую связанность этих маркеров.
Применение метода k-кратной перекрестной проверки продемонстрировало высокую устойчивость модели Random Forest к изменению обучающей выборки, в отличие от SVM и логистической регрессии, чья точность варьировалась. Таким образом, ансамблевая модель RF была признана наиболее надёжной и универсальной для классификации и прогнозирования риска рака груди в рамках этого исследования.
Отдельно стоит отметить значимость HER2 и Ki-67 — два маркера, тесно связанные с агрессивностью опухоли. Высокий уровень Ki-67 говорит о быстрой пролиферации клеток, что ухудшает прогноз, но также делает опухоль более чувствительной к определённым видам химиотерапии. HER2-положительные опухоли ранее считались крайне неблагоприятными, однако таргетные препараты (такие как трастузумаб и пертузумаб) кардинально улучшили выживаемость пациенток.
Исследование подчеркнуло ценность интеграции нанобиосенсоров с традиционными клиническими маркерами и алгоритмами МО для персонализированной онкологической диагностики. Особенно важным является тот факт, что методика продемонстрировала эффективность даже при относительно малом объёме выборки (300 записей), что делает её перспективной для применения в условиях ограниченного доступа к большим наборам данных.
В перспективе команда планирует расширить исследование за счёт многоцентрового сбора данных и внедрения CDP-сенсора в рутинную клиническую практику. Среди потенциальных направлений: раннее выявление микрометастазов, прогноз эффективности терапии и помощь в принятии решений о хирургическом объёме вмешательства.
Таким образом, комбинированный подход с использованием наносенсоров, ИГХ-анализа и машинного обучения демонстрирует мощный потенциал для трансформации диагностики рака груди, делая её более точной, ранней и персонализированной.