Большакова Елена Игоревна

Факультет компьютерных наук

Профиль на hse.ru ↗ тел.: +7(495) 772-9590 *2707

Публикаций

Языков

Наград

Конференций

Профиль Публикации (45) Курсы (5)

Профессиональные интересы

28.23.00 Искусственный интеллект50.05.09 Языки программирования

Должности

Доцент — Факультет компьютерных наук, Департамент анализа данных и искусственного интеллекта

Био

· Начала работать в НИУ ВШЭ в 2009 году.
· Научно-педагогический стаж: 42 года.

Образование

2000 · Ученое звание: Доцент
1986 · Кандидат физико-математических наук
1980 · Специалитет: Московский государственный университет им. М.В. Ломоносова, специальность «Прикладная математика», квалификация «Математик»

Опыт работы

· 1983-1993: гг. – ассистент кафедры алгоритмических языков факультета ВМК МГУ
· В 1983-90 гг. – преподаватель Вечерней Математической Школы для школьников на ВМК МГУ, организатор на ВМК двух первых олимпиад по программированию для школьников.
· 1993-96 гг. – старший преподаватель факультета ВМК МГУ им. М.В.Ломоносова.
· 1996 г.: с по наст. время – доцент кафедры алгоритмических языков факультета ВМК МГУ
· 2002-2012: 1997-99 гг гг. – старший научный сотрудник (по совместительству) филологического факультета МГУ им. М.В.Ломоносова
· 2000-2001: гг. – профессор-исследователь Центра компьютерных исследований Национального Политехнического института, г. Мехико
· 2009-нв.: с доцент департамента анализа данных и искусственного интеллекта факультета НИУ ВШЭ (по совместительству)

Награды и поощрения

· Персональная надбавка ректора (2013–2014)

Гранты и проекты

— · Грант РФФИ № 06-01-00571 «Методы и средства интеллектуальной автоматической обработки текстов русскоязычных научно-технических документов», руководитель

Идентификаторы исследователя

ORCID: 0000-0002-8659-5978
ResearcherID: M-1401-2016
SPIN РИНЦ: 1341-0349
Google Scholar: https://scholar.google.com/citations?user=AHHkgHcAAAAJ&hl=en
Scopus AuthorID: 13608846000

Публикации (45)

Методы и средства извлечения терминов из текстов для терминологических задач

2025 · ARTICLE · ru

Рассматривается современное состояние в области автоматического извлечения терминов из специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей, а также выявление ключевых слов и построение предметных указателей для узкоспециализированных документов. Обзорно излагаются применяемые подходы к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, которые охватывают традиционные статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов и обучение с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам. Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей, применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Разработка программных моделей велась на основе предобученной нейросетевой модели BERT, c ее дообучением двумя способами: как бинарного классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшее качество демонстрируют модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают также применимость обученных моделей для текстов близкой научной области

DOI ↗

Refining Criteria of Paronymy for Building Computer Dictionaries of Russian Paronyms

2022 · CHAPTER · en

Paronyms are words that have some similarity in sounding and spelling, but differ in meaning and usage (e.g., sensitive − sensible, излишек – излишество). In morphologically rich languages like Russian, paronymy is rather frequent phenomenon and one of the sources of speech difficulties. However, known dictionaries of Russian paronyms are not complete enough to help language learning or to support automatic correction of paronymy errors, and they do not provide precise definition of paronymy, which is necessary for constructing more extensive computer dictionaries. Aiming to clarify the concept of paronymy and to refine the previously proposed formal affix criterion of paronymy, we have performed a statistical study of paronyms taken from two printed dictionaries of Russian paronyms. Formal and semantic similarity of paronymy pairs were numerically estimated across various dimensions: proximity in affixes, in sounding, and in word meanings (the latter with the aid of neural models of distributive semantics and with an extensive base of Russian word combinations). Based on results of the study, refined criteria of paronymy and thresholds were proposed, which can be useful to automatically construct computer dictionaries of Russian paronyms, as well to replenish them by diagnostic contexts.

DOI ↗

Building a Combined Morphological Model for Russian Word Forms

2022 · CHAPTER · en

In recent years, high-precision machine learning models for traditional inflectional morphological analysis, as well as models for morpheme segmentation of words were built for Russian. Two these morphological tasks are evidently related, and some NLP applications may require to perform both of them, so development and evaluation of combined morphological model is of research interest. Such a model is supposedly useful for processing texts in languages with rich morphology (e.g, Russian), in particular, for deriving meaning of new words rarely encountered in texts. The paper presents a neural model implementing both inflectional analysis of Russian word forms (with morphological disambiguation) and their segmentation into constituent morphs with their classification. To train the model, a relevant dataset was built, by morphemic labeling of SynTagRus corpus, and transfer learning techniques were applied. Experimental evaluation of the model has shown its sufficiently high quality: 94.2% of precision for morphological tags disambiguation and 88-91% of word-level classification accuracy for segmentation.

DOI ↗

Building Dataset and Morpheme Segmentation Model for Russian Word Forms

2021 · CHAPTER · en

DOI ↗

Комбинирование методов для извлечения терминов из научно-технического текста

2021 · ARTICLE · ru

Представлен подход к автоматическому извлечению терминов из отдельного научного текста, сочетающий в себе известные методы: лингвистические шаблоны, статистические меры терминологичности, методы ранжирования графов. Описаны комбинированные методы и этапы извлечения, отбора и ранжирования терминов, реализованные при обработке документов на русском языке. Представлены результаты экспериментов по извлечению терминов из учебных текстов по математике и программированию. Оценки эффективности извлечения (74% средней точности) показывают, что описанный подход перспективен.

Automating Hierarchical Subject Index Construction for Scientific Documents

2020 · CHAPTER · en

Subject, or back-of-the-book index consists of significant terms with relevant page numbers of the text document, thus providing an easy access to its content. The paper describes methods developed for automating main stages of subject indexing for specialized texts: namely, term extraction, selection of the most important ones, detecting their reference pages, as well as recognizing semantic relations among selected index terms in order to structure them into hierarchy. The developed methods are intended for processing scientific documents in Russian and are based both on formal linguistics rules and unsupervised machine learning. Experimental evaluation of the methods have shown their sufficient quality to be built into computer subject indexing system.

DOI ↗

An Experimental Study of Neural Morpheme Segmentation Models for Russian Word Forms

2020 · CHAPTER · en

Morphemic structure of words is useful for various NLP problems, in particular, for deriving a meaning of unknown words in languages with rich morphology, such as Russian. For Russian, several neural network models for automatic morpheme segmentation of words were built, but only for parsing their lemmas. Meanwhile, significantly varying word forms are present in texts, among them unknown words are often encountered, and their lemmas are unknown. The paper reports on experiments for comparing two ways to automatically segment Russian word forms, both ways involve splitting into morphs and classification of resulted morphs. The former is based on a neural model trained on a data set automatically augmented with segmented word forms, the latter produces segmentation through predicted lemma and a pre-trained neural morpheme segmentation model for lemmas. It was shown that the models have comparable quality in morpheme segmentation and classification, and the model based on the augmented dataset slightly outperforms in word-level classification accuracy.

Инструментальные средства извлечения терминов из текстов: разработка компонентов для русского языка

2020 · CHAPTER · ru

An Experimental Study of Hybrid Machine Learning Models for Extracting Named Entities

2019 · CHAPTER · en

The paper describes two hybrid neural network models for named entity recognition (NER) in texts, namely Bi-LSTM-CRF and Gated-CNN-CRF, as well as results of experiments with them.

DOI ↗

Terminological Information Extraction from Russian Scientific Texts: Methods and Applications

2019 · CHAPTER · en

Scientific texts contain a lot of special terms, which together with their definitions present an important part of scientific knowledge to be extracted for various applications, such as text summarization, construction of glossaries and ontologies and so on. The paper reports rule-based methods developed for extracting terminological information involving recognition of term definitions, as well as detection of term occurrences within scientific or technical texts. In contrast to corpus-based terminology extraction, the developed methods are oriented to processing a single text and are based on lexico-syntactic patterns and rules representing specific linguistic information about terms in scientific texts. The formal language LSPL for specification of the patterns and rules is briefly characterized, which is supported with programming tools and used for information extraction. Two applications of the methods are discussed: formation of glossary for a given text document and subject index construction. For these applications, both collections of LSPL patterns and extraction strategies are described, and results of their experimental evaluation are given.

DOI ↗

Курсы (5)

Компьютерная лингвистика и анализ текста · 5 раза

2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Магистратура / Маго-лего · рус
Онтологии и семантические технологии · 2 раза

2024/2025, 2023/2024 · Магистратура / Маго-лего · рус
45.04.03. Фундаментальная и прикладная лингвистика

2023/2024 · Магистратура · рус
01.04.02. Прикладная математика и информатика

2022/2023 · Магистратура · рус
Onthologies and Semantic Technologies

2022/2023 · Магистратура / Маго-лего · Анг