Попцова Мария Сергеевна
Факультет компьютерных наук
Профессиональные интересы
Должности
- Директор центра — Факультет компьютерных наук, Институт искусственного интеллекта и цифровых наук, Центр биомедицинских исследований и технологий
- Доцент — Факультет компьютерных наук, Департамент больших данных и информационного поиска
- Академический руководитель образовательной программы — Анализ данных в биологии и медицине
Био
- · Начала работать в НИУ ВШЭ в 2016 году.
- · Научно-педагогический стаж: 17 лет.
Образование
- 2004 · Кандидат физико-математических наук: МГУ имени М.В. Ломоносова, специальность 01.00.00 «Физико-математические науки» и 03.01.02 «Биофизика», тема диссертации: Трансформация автоволн в локально неоднородных активных средах
- 1995 · Специалитет: Московский государственный университет им. М.В. Ломоносова, специальность «Физика», квалификация «Физик»
Опыт работы
- · 09/16-09/17 ,
- · доцент
- · факультет бизнеса и менеджмента, Высшая Школа Экономики
- · 10/12-н вр,
- · Старший научный сотрудник
- · кафедра биофизики физического факультета МГУ
- · 01/10-05/11
- · Научный сотрудник
- · Факультет Патологии и Лабораторной Медицины, Институт Вычислительной Биомедицины, Медицинский колледж Уэйлла-Корнелла, Корнелльский университет (Department of Pathology and Laboratory Medicine, Institute for Computational Biomedicine, Weill Cornell Medical College)
- · Краткая информация: работала в лаборатории, занимающейся исследованиями рака простаты. Разработала алгоритм и написала программу по вычислению степени влияния CNVs на биологические пути (в процессе публикации). Занималась анализом данных технологий секвенирования второго поколения с целью найти эндогенные причины разрыва генома при агрессивных формах опухоли.
- · 4/09-12/09, 2/05-1/08
- · Научный сотрудник
- · Факультет молекулярной и клеточной биологии, Коннектикутский университет (Molecular and Cell Biology Department, University of Connecticut)
- · Краткая информация: работала по гранту НАСА в рамках программы Applied Information Systems Research (AISR) program (http://aisrp.nasa.gov/ ). Участвовала в разработке алгоритмов по обработке больших массивов данных (в применении к биологическим системам) и реализации данных алгоритмов методом параллельных вычислений на кластерных системах (параллельных суперкомпьютерах) на основе Unix.
- · основатель и совладелец
- · Janussys, Ltd. (www.janussys.ru)
- · Компьютерно-лингвистическая компания по разработке программного обеспечения
- · Краткая информация: компания, работающая в области математической лингвистики, в частности, занимающаяся разработкой алгоритмов машинного перевода и созданием многоязычных словарей. Издатель мультимедийного англо-русского иллюстрированного словаря «Янус» (2002). В настоящее время ведет поиск инвесторов в проект создания системы машинного перевода нового поколения.
Награды и поощрения
- · Благодарность проректора НИУ ВШЭ (ноябрь 2025)
- · Почетная грамота НИУ ВШЭ (май 2025)
- · Благодарность проректора НИУ ВШЭ (октябрь 2024)
- · Благодарность проректора НИУ ВШЭ (декабрь 2023)
- · Благодарность первого проректора НИУ ВШЭ (декабрь 2023)
- · Благодарственное письмо первого проректора НИУ ВШЭ (февраль 2023)
- · Благодарность НИУ ВШЭ (май 2022)
- · Благодарность Факультета компьютерных наук НИУ ВШЭ (сентябрь 2019)
- · Благодарность проректора НИУ ВШЭ (май 2019)
- · Надбавка за публикацию в журнале из Списка А (и приравненном к нему научном издании) (2025–2026, 2024–2025, 2023–2024)
- · Надбавка за публикацию в международном рецензируемом научном издании (2022–2023, 2021–2022, 2020–2022, 2017–2019)
- · Лучший преподаватель — 2021
- · Лучший академический руководитель в номинации «Цифровые навыки студентов» — 2024–2025
- · Лучший академический руководитель в номинации «Удовлетворенность студентов качеством образовательной программы» — 2025
- · Лучший академический руководитель в номинации «Межфакультетское взаимодействие» — 2023–2024
- · Лучший академический руководитель в номинации «Работа студентов с внешними заказчиками» — 2023
- · Лучший академический руководитель в номинации «Привлечение студентов» — 2023
Гранты и проекты
- — · на соискание учёной степени кандидата наук
Идентификаторы исследователя
- ORCID:
0000-0002-7198-8234 - ResearcherID:
G-6985-2014 - SPIN РИНЦ:
1361-1087 - Google Scholar: https://scholar.google.com/citations?hl=en&user=9MoA58MAAAAJ
- Scopus AuthorID:
16177766600
Публикации (57)
SEQUENCE-BASED AND STRUCTURE-BASED MACHINE-LEARNING MODELS FOR RECOGNITION OF 3’-END L1 AND ALU STEM-LOOPS IN HUMAN GENOME
2019 · CHAPTER · en
We built and evaluated two types of models: sequence-based and structure-based for recognition of 3’-end stem- loops of human L1s and Alus and found most important parameters contributing to recognition: Shift, Tilt and Rise, and aslo hydrophilicity.
SEARCHING FOR NON-B-DNA STRUCTURES AS NUCLEOSOME BARRIERS WITH MACHINE LEARNING METHODS
2019 · CHAPTER · en
We trained Random Forest model to recognize patterns of nucleosome and non-B DNA structures, considered as potential nucleosome barriers in the mouse genome. We showed that among four types of structures – Z-DNA, H-DNA, G-Quadruplexes and SIDD regions – recognition of G-Quadruplexes and H-DNA showed the best performance.
Machine Learning Applications for Genomic Pattern Recognition Problem
2019 · CHAPTER · en
DNAsecondary structures are important functional elements thatmay influence cellular processes. One of theirpossible functions is regulation of nucleosome positioning. Here MNAse-seq and ssDNA-seq data were used to define patterns of positional relationship of DNA structures such as Z-DNA, H-DNA and G-quadruplexes with nucleosomes. Three types of patterns werefound: a structure is surrounded by nucleosomes from both sides, from one side, or nucleosome free region. Machine-learning models based on Random forest algorithm and XGBoost weretrained to recognize DNA region of 500 bp length containing a pattern of nucleosome positioning for three types of DNA struc-tures (Z-DNA, H-DNA and G-quadruplexes) based on DNAsequence composi-tional properties. The best performance (more than 86% for ROC-AUC, accu-racy, recall and presicion scores) wasreached for G-quadruplexes. 500 bp re-gions containing G-quadruplexes have distinct compositional properties and point to the preferential locations of the defined patterns, which regulatory functions require further investigation. For other DNA structures a region com-position is less powerful predictive factor and one should take into account oth-er physical and structural DNA properties to improve nucleosome-DNA-structure pattern recognition.
Роль CpG метилирования квадруплексов в эпигенетической регуляции.
2019 в печати · CHAPTER · ru
Гуаниновые квадруплексы (G4s) являются одной из неканонических форм нуклеиновых кислот и образованы последовательностями, богатыми гуанином. G4 широко распространены в геноме человека и связаны с транскрипцией, репликацией, а также могут быть связаны с рядом заболеваний. Известно, что изменение уровня метилирования CpG влияет на стабильность G4s. Кроме того, было показано, что DNMT1 проявляет более высокую аффинность связывания с G4s по сравнению с дуплексной, гемиметилированной или одноцепочечной ДНК. В настоящей работе мы исследовали метилирование G4, специфичное для пола и типа тканей. Был проведен анализ данных метилирования проекта Roadmap Epigenomics и данных по картированию квадруплексов G4-seq и CHiP-seq Было выявлено существенное различие в профилях метилирования, GC-содержании, последовательности петель данных G4-seq и ChIP-seq G4. На данных ChIP-seq обнаружено более 1000 G4, которые дифференциально метилированы в клетках человека; более 600 из них расположены в регуляторных регионах с более чем 500 генами. Анализ представленности дифференциально метилированных G4s выявил, что регуляция на основе G4s может участвовать в ряде биологических процессов, таких как дифференцировка клеток, организация цитоскелета и внеклеточного матрикса. Мы предполагаем, что механизм регуляции не зависит от длины петель, наличия выпетливаний и последовательности нуклеотидов в них содержащихся. По-видимому, ключевым моментом является наличие последовательности, способной образовывать квадруплекс и высокое содержание GC и CрG.
Поиск паттернов ассоциации между функциональными элементами генома
2018 · CHAPTER · ru
Технологии секвенирования следующего поколения сделали возможным картирование множества функциональных элементов генома. Так, стало возможным определение расположения эпигенетических факторов, включая метилирование, модификации гистонов, места открытого хроматина, регуляторной РНК, а также места связывания транскрипционных факторов и других важных белков. Данные, генерируемые в результате NGS-экспериментов, хранятся на сайтах проектов в открытом доступе, обычно в формате bed-файлов. Актуальной является задача поиска взаимосвязей между различными функциональными аннотациями генома, как экспериментальными, так и теоретическими. Существующие программы поиска паттернов имеют существенные ограничения. большинство реализовано для работы в системе юникс, графический интерфейс отсутствует, а сами программы сложны в использовании. В данной работе мы представляем программу, запускаемую в браузере в любой операционной системе, с пользовательским графическим интерфейсом, которая принимает на вход два файла геномной аннотации в формате .bed, визуализирует распределение функциональных элементов в виде плотностей на уровне хромосомы и осуществляет поиск паттернов ассоциации между двумя исследуемыми геномными элементами. Найденные паттерны визуализируются, и информация об их расположении выдается в виде списка. Данная программа предназначается для решения широкого класса биоиформатических задач поиска паттернов ассоциации между различными функциональными аннотациями генома.
Recognizing Patterns of Nucleosome and DNA Structures Positioning
2018 в печати · CHAPTER · en
Non-B DNA structures have a great potential to form and influence various genomic processes including transcription. One of the mechanisms of transcription regulation is nucleo- some positioning. Even though only B-DNA can be wrapped around a nucleosome, non-B DNA structures can compete with a nucleosome for a genomic location. Here we used perman- ganate/S1 nuclease footprinting data on non-B DNA structures, such as Z-DNA, H-DNA, G- quadruplexes and stress-induced duplex destabilization (SIDD) sites, together with MNase-seq data on nucleosome positioning in the mouse genome. We found three types of patterns of nucleosome positioning around non-B DNA structures: a structure is surrounded by nucleo- somes from both sides, from one side, or nucleosome free region. Machine learning models based on random forest and XGBoost algorithms were constructed to recognize DNA regions of 1kB length containing a particular pattern of nucleosome positioning for four types of DNA structures (Z-DNA, H-DNA, G-quadruplexes and SIDD sites) based on statistics of di- and tri- nucleotides. The best performance (94% of accuracy) was reached for G-quadruplexes while for other types of structures the accuracy was under 70%. We conclude that 1kB regions con- taining G-quadruplexes have distinct compositional properties, and this fact points to preferen- tial locations of such pattern in the genome and requires further investigation. For other DNA structures a region composition is not a sufficient predictive factor and one should take into account other physical and structural DNA properties to improve nucleosome-DNA-structure pattern recognition.
Recognition of 3’ UTR stem-loop in LINE transposons across the tree of life by machine learning methods
2018 в печати · CHAPTER · en
We found earlier that L1-Alu transposons in human genome contain a conservative stem-loop structure at their 3’UTR [1]. We built a machine- learning model that could distinguish L1 3’-UTR stem-loop structures from stem-loops from different genomic locations. Later we found that all LINE transposons contain stem-loops at their 3’-end. Since 3’-end stem-loop structure was experimentally shown to play an important role in recognition of transpos- on RNA by the LINE encoded reverse transcriptase in several species [2-4], we hypothesize that this structure could be preserved for that purpose in other spe- cies. Here we built machine learning model using random forest algorithm to study structural properties of 3’-end transposon stem-loops. The constructed model is based on physical, chemical and structural RNA characteristics such as entalphy, enthropy, Gibbs free energy, hydrophilicity, and helical structural pa- rameters of dinucleotides - Shift, Roll, Slide, Rise, Tilt, Bend [5]. Each stem- loop structure was split into 30 positions and each position was characterized by 23 characteristics so that the final property vector contained 602 position- specific characteristics for each stem-loop. 2200 sequences of all available LINE transposons from different species across the tree of life were extracted from RepBase database [6]. We constructed machine-learning model using ran- dom forest that was able to distinguish 3’-end LINE stem-loops from random stem-loops with 78% of accuracy. Analysis of predictor importance revealed that enthalpy and entropy in loop positions and hydrophilicity and stacking en- ergy in stem positions were the major influential factors for model prediction power. The obtained results support the idea that 3’-end transposon stem-loops share similar structural properties, which are probably required for transposi- tion.
Machine-learning models for cancer breakpoints prediction based on DNA structure distributions
2018 в печати · CHAPTER · en
With the advances in the sequencing technology the International Cancer Genome Consortium (ICGC) [1] and The Cancer Genome Atlas (TCGA) [2] collected data on more than 16 000 genome-wide pairs tumor-normal tissue providing a valuable resource to study cancer mutations. In this research we focus on pre- evaluation of the relationship between cancer breakpoint hotspots and DNA regions potentially forming secondary structures such as stem-loops (cruciforms) and quadru- plexes. We performed analysis of 2 234 samples covering 10 cancer types and built machine-learning models predicting cancer breakpoint distribution over chromosome based on the density distribution of stem-loops and quadruplexes. We developed pro- cedure for machine learning models building and evaluation as the considered data are extremely imbalanced and it is needed to get reliable estimate of prediction power. We conducted a set of experiments to select the best appropriate resampling scheme, class balancing technique and parameters of machine learning algorithms. The best final models were applied to cancer breakpoints data. From the performed analysis it could be concluded that the relationship between cancer breakpoints hotspots and studied DNA secondary structures exists, however, generally, this relationship is weak for stem-loops, but higher for quadruplexes. We also found differences in model predictive power depending on cancer types. Thus, stem-loop-based model performs better for pancreatic, prostate, ovary, uterus, brain and liver cancer, and quadruplex- based model works better for blood, bone, skin and breast cancer.
Recognizing Patterns of Nucleosome and DNA Structures Positioning
2018 · CHAPTER · en
Non-B DNA structures have a great potential to form and influence various genomic processes including transcription. One of the mechanisms of transcription regulation is nucleosome positioning. Even though only B-DNA can be wrapped around a nucleosome, non-B DNA structures can compete with a nucleosome for a genomic location. Here we used permanganate/S1 nuclease footprinting data on non-B DNA structures, such as Z-DNA, H-DNA, G-quadruplexes and stress-induced duplex destabilization (SIDD) sites, together with MNase-seq data on nucleosome positioning in the mouse genome. We found three types of patterns of nucleosome positioning around non-B DNA structures: a structure is surrounded by nucleosomes from both sides, from one side, or nucleosome free region. Machine learning models based on random forest and XGBoost algorithms were constructed to recognize DNA regions of 1kB length containing a particular pattern of nucleosome positioning for four types of DNA structures (Z-DNA, H-DNA, G-quadruplexes and SIDD sites) based on statistics of di- and tri-nucleotides. The best performance (94% of accuracy) was reached for Gquadruplexes while for other types of structures the accuracy was under 70%. We conclude that 1kB regions containing Gquadruplexes have distinct compositional properties, and this fact points to preferential locations of such pattern in the genome and requires further investigation. Gene ontology analysis revealed that the genes intersecting with the discovered patterns are enriched in channel and transmembrane activity, transcription factor and receptor binding. The direction for further research is to study the distribution of the discovered patterns in different tissues to identify well-positioned and dynamic nucleosomes and reveal genes, regulated via DNA structures and nucleosome positioning.
Построение модели машинного обучения, распознающей G-квадруплексы на основе физико-химических свойств ДНК
2018 · CHAPTER · ru
Построение модели машинного обучения, распознающей G-квадруплексы на основе физико-химических свойств ДНК
Курсы (9)
-
Биоинформатика ДНК, РНК и белков · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Майнор · рус
-
Медицинская биоинформатика · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Майнор · рус
-
Machine Learning in Bioinformatics · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · Анг
-
Методы машинного обучения в биоинформатике
2024/2025 · Маго-лего · рус
-
Сравнительная геномика
2024/2025 · Магистратура / Маго-лего · рус
-
Биоинформатика · 2 раза
2022/2023, 2021/2022 · Бакалавриат · рус
-
Research Seminar "Data Analysis in the Natural Sciences"
2022/2023 · Бакалавриат · Анг
-
Молекулярная эволюция
2021/2022 · Магистратура · рус
-
Modern Methods of Data Analysis
2021/2022 · Магистратура · Анг