GeneLens: Python-пакет, реализующий методы Монте-Карло машинного обучения и сетевого анализа для поиска биомаркеров и функциональной аннотации генов

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

Представлен Python-пакет GeneLens для комплексного анализа дифференциально экспрессирующихся генов и поиска биомаркеров. Основу пакета составляют два модуля: FSelector для идентификации биомаркеров через симуляции Монте-Карло L1-регуляризованных моделей и NetAnalyzer для предсказания функций отобранного набора генов на основе топологии сетей белок-белковых взаимодействий их продуктов. Методология FSelector включает: (1) автоматизированный отбор генов в итеративной процедуре бутстреп-семплирования; (2) расчет весов значимости генов с учетом ROC-AUC-моделей и их количества в симуляциях; (3) адаптивный порог отсечки для редуцирования признакового пространства. NetAnalyzer реализует анализ обогащения биологических путей с интеграцией весов значимости из FSelector. GeneLens, реализованный как PIP-модуль, предоставляет стандартизированные алгоритмы применения методов машинного обучения и сетевого анализа в исследованиях дифференциальной экспрессии генов, а также возможность автоматического подбора гиперпараметров моделей и инструменты визуализации результатов.

Об авторах

Г. Ж. Осьмак

Национальный медицинский исследовательский центр кардиологии им. академика Е.И. Чазова; Российский национальный исследовательский медицинский университет им. Н.И. Пирогова

Email: german.osmak@gmail.com
Москва, 121552 Россия; Москва, 117997 Россия

М. В. Писклова

Национальный медицинский исследовательский центр кардиологии им. академика Е.И. Чазова; Российский национальный исследовательский медицинский университет им. Н.И. Пирогова

Москва, 121552 Россия; Москва, 117997 Россия

Список литературы

  1. Altman N., Krzywinski M. (2018) The curse of dimensionality. Nat. Methods. 15, 399–400.
  2. Altman N., Krzywinski M. (2017) Ensemble methods: bagging and random forests. Nat. Methods. 14, 933–935.
  3. Осьмак Г., Писклова М. (2025) Транскриптомика и “проклятие размерности”: Монте-Карло симуляции классификационных моделей как инструмент анализа многомерных данных в задачах поиска маркеров биологических процессов. Молекуляр. биология. 59, 143–149.
  4. Pisklova M., Osmak G. (2024) Unveiling miRNA-124 as a biomarker in hypertrophic cardiomyopathy: an innovative approach using machine learning and intelligent data analysis. Int. J. Cardiol. 410, 132220.
  5. Osmak G., Kiselev I., Baulina N., Favorova O. (2020) From miRNA target gene network to miRNA function: miR-375 might regulate apoptosis and actin dynamics in the heart muscle via Rho-GTPases-dependent pathways. Int. J. Mol. Sci. 21, 9670.
  6. Tibshirani R. (1996) Regression shrinkage and selection via the lasso. J. R. Stat. Soc.: Ser. B (Methodological). 58, 267–288.
  7. Hastie T., Tibshirani R., Friedman J.H., Friedman J.H. (2009) The elements of statistical learning: data mining, inference, and prediction. N.Y.: Springer.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2025