Большакова Елена Игоревна
Факультет компьютерных наук
Профессиональные интересы
Должности
- Доцент — Факультет компьютерных наук, Департамент анализа данных и искусственного интеллекта
Био
- · Начала работать в НИУ ВШЭ в 2009 году.
- · Научно-педагогический стаж: 42 года.
Образование
- 2000 · Ученое звание: Доцент
- 1986 · Кандидат физико-математических наук
- 1980 · Специалитет: Московский государственный университет им. М.В. Ломоносова, специальность «Прикладная математика», квалификация «Математик»
Опыт работы
- · 1983-1993: гг. – ассистент кафедры алгоритмических языков факультета ВМК МГУ
- · В 1983-90 гг. – преподаватель Вечерней Математической Школы для школьников на ВМК МГУ, организатор на ВМК двух первых олимпиад по программированию для школьников.
- · 1993-96 гг. – старший преподаватель факультета ВМК МГУ им. М.В.Ломоносова.
- · 1996 г.: с по наст. время – доцент кафедры алгоритмических языков факультета ВМК МГУ
- · 2002-2012: 1997-99 гг гг. – старший научный сотрудник (по совместительству) филологического факультета МГУ им. М.В.Ломоносова
- · 2000-2001: гг. – профессор-исследователь Центра компьютерных исследований Национального Политехнического института, г. Мехико
- · 2009-нв.: с доцент департамента анализа данных и искусственного интеллекта факультета НИУ ВШЭ (по совместительству)
Награды и поощрения
- · Персональная надбавка ректора (2013–2014)
Гранты и проекты
- — · Грант РФФИ № 06-01-00571 «Методы и средства интеллектуальной автоматической обработки текстов русскоязычных научно-технических документов», руководитель
Идентификаторы исследователя
- ORCID:
0000-0002-8659-5978 - ResearcherID:
M-1401-2016 - SPIN РИНЦ:
1341-0349 - Google Scholar: https://scholar.google.com/citations?user=AHHkgHcAAAAJ&hl=en
- Scopus AuthorID:
13608846000
Публикации (45)
Comparing models of morpheme analysis for Russian words based on machine learning
2019 · CHAPTER · en
The paper reports on the experimental comparison of several machine learning models proposed in recent years for automatic morpheme segmentation of Russian words, including conditional random fields (CRF), sequence-to-sequence neural network (Seq2seq) , convolutional neural network (CNN) model, as well as a new model we have developed with the aid of gradient boosted decision trees (GBDT). For more complete research, in our experiments we have also evaluated the semi-supervised method of Morfessor. All the morpheme analysis models being compared are briefly described in the paper, some of them perform only segmentation of words into morphs, the other produce segmentation with classification of resulted morphs. Since for Russian language linguistics rules for splitting words into morphs (and also the classification of some morphs) may differ, the experiments were performed for two data sets differing in labeling, which are obtained respectively from CrossLexica's dictionary and Tikhonov's dictionary. The experimental evaluation has shown that two best models of morpheme segmentation with classification, namely GBDT and CNN models have comparable quality, giving about 86-94% of word-level accuracy.
Bi-LSTM Model for Morpheme Segmentation of Russian Words
2019 · CHAPTER · en
The paper addresses the task of automatic morpheme segmentation involving both splitting words into morphs and classification of resulted morphs. For segmentation of Russian words, a new model based on Bi-LSTM neural network is proposed and experimentally evaluated on several training data sets differing in labeling. The proposed model has comparable quality with the best supervised machine learning models for morpheme segmentation with classification, slightly outperforming them in word-level classification accuracy with score 89% .
A morphological processor for Russian with extended functionality
2018 · CHAPTER · en
The paper presents an open-source morphological processor of Russian texts recently developed and named CrossMorphy. The processor performs lemmatization, morphological tagging of both dictionary and non-dictionary words, contextual and non-contextual morphological disambiguation, generation of word forms, as well as morphemic parsing of words. Besides the extended functionality, emphasis is put on linguistic quality of word processing and easy integration into programming projects. CrossMorphy is fully implemented in C++ programming language on the base of OpenCorpora vocabulary data.
Term extraction for constructing subject index of educational scientific text
2018 · CHAPTER · en
Subject index, or back-of-the-book index, is a device intended to provide an easy access to relevant fragments of a text document. Subject indexes usually contain particular single-word and multi-word terms from the corresponding documents. Such indexes are especially useful for reading large documents with specialized terminology, as well as educational texts in difficult scientific and technical areas. The central problem of back-of-the-book indexing is recognition of terms to be included into the index. The paper describes a method developed for extracting and filtering terms from a given educational scientific text, with the purpose of reliable term selection in computer indexing systems. The method is primarily based on rules with lexico-syntactic patterns representing linguistic information about terms and typical contexts of their usage in Russian scientific and educational texts; simple occurrences statistics of terms is used as well. Experimental evaluation of the method has shown a considerable increase of precision and recall of term extraction compared with the widely-used standard techniques.
Выделение терминов и их связей для предметного указателя научного текста
2018 · CHAPTER · ru
Предметный указатель – список значимых терминов текстового документа с указанием страниц, на которых они употребляются. В работе описываются методы на основе лексико-синтаксических шаблонов и правил, разработанные для автоматического извлечения и отбора терминов в предметный указатель заданного научного текста, а также для выявления их подчинительных связей.
Инструментальная система на базе языка шаблонов LSPL: новые средства и приложения
2017 · CHAPTER · ru
Рассматриваются новые инструментальные средства, разработанные в рамках системы извлечения информации из русскоязычных текстов по лексико-синтаксическим шаблонам, а также созданные на их базе прикладные системы.
Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие
2017 · BOOK · ru
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
Особенности построения морфопроцессора русского языка CrossMorphy
2017 · CHAPTER · ru
Описываются морфологический словарь разработанного морфологического процессора CrossMorphy и реализованные в нем методы обработки незнакомых слов, разрешения морфоомонимии и распознавания морфемного состава русскоязычных словоформ. Приводится сравнение функций процессора с несколькими распространенными свободно доступными модулями морфологического анализа для русского языка.
Система для извлечения информации из текстов на базе лексико-синтаксических шаблонов
2016 · CHAPTER · ru
Описывается текущее состояние программной системы с открытым кодом, разработанной и применяемой для построения различных приложений по извлечению информации из текстов на русском языке. Извлекаемая информация специфицируется в виде лексико-синтаксических шаблонов и правил языка LSPL.
Инструментальные средства для разработки систем извлечения информации из русскоязычных текстов
2015 · CHAPTER · ru
В работе представлен краткий обзор и сравнительный анализ языковых и программных средств пяти инструментальных систем, применяемых для построения приложений для извлечения информации из текстов на русском языке: систем GATE и RCO Pattern Extractor, программного комплекса LSPL, процессора DSTL, Томита-парсера. По результатам проведенного анализа намечаются наиболее важные направления развития языка LSPL и поддерживающих его программных средств.
Курсы (5)
-
Компьютерная лингвистика и анализ текста · 5 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Магистратура / Маго-лего · рус
-
Онтологии и семантические технологии · 2 раза
2024/2025, 2023/2024 · Магистратура / Маго-лего · рус
-
45.04.03. Фундаментальная и прикладная лингвистика
2023/2024 · Магистратура · рус
-
01.04.02. Прикладная математика и информатика
2022/2023 · Магистратура · рус
-
Onthologies and Semantic Technologies
2022/2023 · Магистратура / Маго-лего · Анг