Коновалов Дмитрий Львович
Факультет компьютерных наук
Профессиональные интересы
Должности
- Младший научный сотрудник — Факультет компьютерных наук, Институт искусственного интеллекта и цифровых наук, Центр биомедицинских исследований и технологий
- Преподаватель — Факультет компьютерных наук, Департамент больших данных и информационного поиска
Био
- · Начал работать в НИУ ВШЭ в 2019 году.
- · Научно-педагогический стаж: 6 лет.
Образование
- 2023 · Аспирантура: Московский государственный университет им. М.В. Ломоносова, специальность «Биологические науки»
- 2019 · Магистратура: Московский государственный университет им. М.В. Ломоносова, специальность «Физика», квалификация «Магистр»
- 2017 · Бакалавриат: Московский государственный университет им. М.В. Ломоносова, специальность «Физика», квалификация «Бакалавр»
Опыт работы
- · Проведение научных исследований.
Идентификаторы исследователя
- ORCID:
0000-0001-5653-7200 - ResearcherID:
AAL-7652-2020 - SPIN РИНЦ:
6059-2952 - Google Scholar: https://scholar.google.com/citations?hl=en&user=zncfWW8AAAAJ
Публикации (10)
Deep learning deciphers the related role of master regulators and G-quadruplexes in tissue specification
2025 · ARTICLE · en
G-quadruplexes (GQs) are non-canonical DNA structures encoded by G-flipons with potential roles in gene regulation and chromatin structure. Here, we explore the role of G-flipons in tissue specification. We present a deep learning-based framework for the genome-wide G-flipon predictions across 14 human tissue types. The model was trained using high-confidence experimental maps of GQ-forming sequences and ATAC-seq peaks, conjoined with the location of RNA polymerase, histone marks, and transcription factor binding sites. The training dataset for the DeepGQ model was derived from EndoQuad level 4–6 GQs. Model predictions were subsequently validated against the comprehensive EndoQuad dataset (levels 1–6) to optimize the whole-genome prediction threshold. To identify tissue-specific regulatory patterns, we classified GQ promoter predictions as either ‘core’ or ‘tissue-specific’. We identified a notable overlap between predicted unique tissue-specific GQ sites and master regulatory genes (MRGs), tissue-specific DNase-hypersensitivity sites, and proteins that modulate R-loop formation. Collectively, the findings highlight the transactions between MRG and G-flipons intermediated by RNA: DNA hybrids associated with tissue specification.
GQ-DNABERT reveals GQ proximal enhancer–promoter interactions associated with tissue-specific transcription
2025 в печати · ARTICLE · en
Alternative DNA conformation formed by sequences called flipons are thought to play an important role in regulating various genomic processes, either repressing or enhancing transcription, chromatin organization, DNA repair, telomere maintenance, RNA splicing, translation, and stress responses. The formation of G-quadruplexes (GQs) has been investigated experimentally using various methodologies with varying degrees of overlap between the results underscoring the need for a gold-standard GQ dataset. With this aim we trained a large language model, GQ-DNABERT using EndoQuad, the most comprehensive human GQ dataset. GQ-DNABERT recalled the training data and predicted de novo GQs in intergenic and intronic regions, enriched for cis-regulatory elements (cCREs) and ATAC-seq peaks. We evaluated the predicted GQ-DNABERT proximal enhancer–promoter (pEP) pairs, using annotations from ENdb, ENCODE, Zoonomia, Chromium multiomics scATAC-seq and scRNA-seq data from normal cells, and cCREs from normal-cancer pairs. We found GQ pEP pairs correlating with gene expression, with some pairings potentially acting as tissue-specific switches. Genes with GQ pEP pairs in cancer cells are enriched in different processes compared to the corresponding normal tissues. Overall, GQ-DNABERT is a valuable tool for extending and harmonizing data collected ex vivo. We demonstrate the usefulness of GQ-DNABERT for investigating transcriptional regulation in single-cell experiments.
Z-DNA formation in promoters conserved between human and mouse are associated with increased transcription reinitiation rates.
2024 · ARTICLE · en
A long-standing question concerns the role of Z-DNA in transcription. Here we use a deep learning approach DeepZ that predicts Z-flipons based on DNA sequence, structural properties of nucleotides and omics data. We examined Z-flipons that are conserved between human and mouse genomes after generating whole-genome Z-flipon maps and then validated them by orthogonal approaches based on high resolution chemical mapping of Z-DNA and the transformer algorithm Z-DNABERT. For human and mouse, we revealed similar pattern of transcription factors, chromatin remodelers, and histone marks associated with conserved Z-flipons. We found significant enrichment of Z-flipons in alternative and bidirectional promoters associated with neurogenesis genes. We show that conserved Z-flipons are associated with increased experimentally determined transcription reinitiation rates compared to promoters without Z-flipons, but without affecting elongation or pausing. Our findings support a model where Z-flipons engage Transcription Factor E and impact phenotype by enabling the reset of preinitiation complexes when active, and the suppression of gene expression when engaged by repressive chromatin complexes.
Conserved microRNAs and Flipons Shape Gene Expression during Development by Altering Promoter Conformations
2023 · ARTICLE · en
The classical view of gene regulation draws from prokaryotic models, where responses to environmental changes involve operons regulated by sequence-specific protein interactions with DNA, although it is now known that operons are also modulated by small RNAs. In eukaryotes, pathways based on microRNAs (miR) regulate the readout of genomic information from transcripts, while alternative nucleic acid structures encoded by flipons influence the readout of genetic programs from DNA. Here, we provide evidence that miR- and flipon-based mechanisms are deeply connected. We analyze the connection between flipon conformation and the 211 highly conserved human miR that are shared with other placental and other bilateral species. The direct interaction between conserved miR (c-miR) and flipons is supported by sequence alignments and the engagement of argonaute proteins by experimentally validated flipons as well as their enrichment in promoters of coding transcripts important in multicellular development, cell surface glycosylation and glutamatergic synapse specification with significant enrichments at false discovery rates as low as 10−116. We also identify a second subset of c-miR that targets flipons essential for retrotransposon replication, exploiting that vulnerability to limit their spread. We propose that miR can act in a combinatorial manner to regulate the readout of genetic information by specifying when and where flipons form non-B DNA (NoB) conformations, providing the interactions of the conserved hsa-miR-324-3p with RELA and the conserved hsa-miR-744 with ARHGAP5 genes as examples.
Z-flipon variants reveal the many roles of Z-DNA and Z-RNA in health and disease
2023 · ARTICLE · en
Identifying roles for Z-DNA remains challenging given their dynamic nature. Here, we perform genome-wide interrogation with the DNABERT transformer algorithm trained on experimentally identified Z-DNA forming sequences (Z-flipons). The algorithm yields large performance enhancements (F1 = 0.83) over existing approaches and implements computational mutagenesis to assess the effects of base substitution on Z-DNA formation. We show Z-flipons are enriched in promoters and telomeres, overlapping quantitative trait loci for RNA expression, RNA editing, splicing, and disease-associated variants. We cross-validate across a number of orthogonal databases and define BZ junction motifs. Surprisingly, many effects we delineate are likely mediated through Z-RNA formation. A shared Z-RNA motif is identified in SCARF2, SMAD1, and CACNA1 transcripts, whereas other motifs are present in noncoding RNAs. We provide evidence for a Z-RNA fold that promotes adaptive immunity through alternative splicing of KRAB domain zinc finger proteins. An analysis of OMIM and presumptive gnomAD loss-of-function datasets reveals an overlap of Z-flipons with disease-causing variants in 8.6% and 2.9% of Mendelian disease genes, respectively, greatly extending the range of phenotypes mapped to Z-flipons.
Z-flipon variants reveal the many roles of Z-DNA and Z-RNA in health and disease
2023 в печати · ARTICLE · en
Identifying roles for Z-DNA remains challenging given their dynamic nature. Here, we perform genome-wide interrogation with the DNABERT transformer algorithm trained on experimentally identified Z-DNA forming sequences (Z-flipons). The algorithm yields large performance enhancements (F1 = 0.83) over existing approaches and implements computational mutagenesis to assess the effects of base substitution on Z-DNA formation. We show Z-flipons are enriched in promoters and telomeres, overlapping quantitative trait loci for RNA expression, RNA editing, splicing, and disease-associated variants. We cross-validate across a number of orthogonal databases and define BZ junction motifs. Surprisingly, many effects we delineate are likely mediated through Z-RNA formation. A shared Z-RNA motif is identified in SCARF2, SMAD1, and CACNA1 transcripts, whereas other motifs are present in noncoding RNAs. We provide evidence for a Z-RNA fold that promotes adaptive immunity through alternative splicing of KRAB domain zinc finger proteins. An analysis of OMIM and presumptive gnomAD loss-of-function datasets reveals an overlap of Z-flipons with disease-causing variants in 8.6% and 2.9% of Mendelian disease genes, respectively, greatly extending the range of phenotypes mapped to Z-flipons.
Regulatory potential of flipons revealed by deep learning.
2023 · CHAPTER · en
Flipons – non-B DNA conformations – have been shown to play an important role in various genomic processes. Flipons identification and localization is difficult due to their dynamic nature. We developed deep learning approaches to identify non-B DNA secondary structures using available information from thousands of omics data sets. We created DeepZ models based on CNN and RNN, and Z-DNABERT model based on transformer algorithm to predict Z-flipons at the genome-wide scale. We showed Z-flipon enrichment in promoters and telomeres and overlap quantitative trait loci for RNA expression, RNA editing, splicing and disease associated variants. We applied the same approach to quadruplexes and triplexes and generated whole-genome predictions. We detected that miR- and flipon-based mechanisms are deeply connected. We found direct interaction of conserved miR and engagement of argonaute proteins with experimentally validated flipons. Evidences where flipon variants affect phenotype are provided by case studies.
Консервативные Z-флипоны и ассоциированные с ними омиксные факторы, в геномах мыши и человека.
2023 · CHAPTER · ru
Разработанный нами ранее подход DeepZ [1], основанный на глубинных нейронных сетях и использующий как данные о последовательности, так и омиксные данные, был использован для генерации полногеномных аннотаций генома мыши и человека участками Z-ДНК. В данной работе мы использовали подход DeepZ для изучения консервативных Z-флипонов и консервативных транскрипционных факторов и гистоновых меток, которые обогащены Z-флипонами в обоих геномах. Мы отобрали более 500 одинаковых признаков (более 400 транскрипционных факторов, более 50 гистоновых меток) и обучили модель DeepZ на данных ChIP-seq для геномов мыши и человека, используя одинаковый набор омиксных данных. Анализ на ассоциацию омиксных признаков с Z-флипонами показал значимое обогащение модификаций ацетилирования, ассоциированных с областями активной транскрипции, у человека и у мыши, таких как H3K14ac, H3K36ac, H4K12ac, H4K8ac, а также метки бимодального хроматина, ассоциированные с процессами развития H2A.Z и H3.3. Среди ортологичных транскрипционных факторов, обогащенных Z-флипонами в обоих геномах в первые 10 входят MYC, MAX, BRD4, ESR1, EP300, RUNX1, ERG, FOXA1, SMARCA4, KDM2B. Большинство факторов транскрипции, локализованные вместе с Z-флипонами, задействованы в организации и ремоделировании хроматина, перепрограммировании гистоновых меток, а также регуляции транскрипции. Исследование распределения флипонов по геномным областям показало обогащение в промоторных областях, в частности, в альтернативных и двунаправленных промоторах. Таким образом, характерные паттерны консервативных омиксных признаков, обогащенные Z-флипонами из консервативных областей генома человека и мыши, подтверждают регуляторный потенциал Z-ДНК.
Роль CpG метилирования квадруплексов в эпигенетической регуляции.
2019 в печати · CHAPTER · ru
Гуаниновые квадруплексы (G4s) являются одной из неканонических форм нуклеиновых кислот и образованы последовательностями, богатыми гуанином. G4 широко распространены в геноме человека и связаны с транскрипцией, репликацией, а также могут быть связаны с рядом заболеваний. Известно, что изменение уровня метилирования CpG влияет на стабильность G4s. Кроме того, было показано, что DNMT1 проявляет более высокую аффинность связывания с G4s по сравнению с дуплексной, гемиметилированной или одноцепочечной ДНК. В настоящей работе мы исследовали метилирование G4, специфичное для пола и типа тканей. Был проведен анализ данных метилирования проекта Roadmap Epigenomics и данных по картированию квадруплексов G4-seq и CHiP-seq Было выявлено существенное различие в профилях метилирования, GC-содержании, последовательности петель данных G4-seq и ChIP-seq G4. На данных ChIP-seq обнаружено более 1000 G4, которые дифференциально метилированы в клетках человека; более 600 из них расположены в регуляторных регионах с более чем 500 генами. Анализ представленности дифференциально метилированных G4s выявил, что регуляция на основе G4s может участвовать в ряде биологических процессов, таких как дифференцировка клеток, организация цитоскелета и внеклеточного матрикса. Мы предполагаем, что механизм регуляции не зависит от длины петель, наличия выпетливаний и последовательности нуклеотидов в них содержащихся. По-видимому, ключевым моментом является наличие последовательности, способной образовывать квадруплекс и высокое содержание GC и CрG.
Построение модели машинного обучения, распознающей G-квадруплексы на основе физико-химических свойств ДНК
2018 · CHAPTER · ru
Построение модели машинного обучения, распознающей G-квадруплексы на основе физико-химических свойств ДНК
Курсы (10)
-
Анализ данных секвенирования · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Майнор · рус
-
Биоинформатика ДНК, РНК и белков · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Майнор · рус
-
Введение в эпигеномику · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Майнор · рус
-
Медицинская биоинформатика · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Майнор · рус
-
Молекулярная эволюция
2025/2026 · Магистратура / Маго-лего · рус
-
Практическая биоинформатика · 3 раза
2023/2024, 2022/2023, 2021/2022 · Магистратура / Маго-лего · рус
-
Биоинформатика
2022/2023 · Бакалавриат · рус
-
Research Seminar "Data Analysis in the Natural Sciences"
2022/2023 · Бакалавриат · Анг
-
Комбинаторика и теория вероятностей
2021/2022 · Магистратура · рус
-
Математика
2021/2022 · Магистратура · рус