Ляшевская Ольга Николаевна
Факультет гуманитарных наук
Профессиональные интересы
Должности
- Профессор — Факультет гуманитарных наук, Школа лингвистики
Био
- · Начала работать в НИУ ВШЭ в 2011 году.
- · Научно-педагогический стаж: 28 лет.
Образование
- 1999 · Кандидат филологических наук: Всероссийский институт научной и технической информации РАН, специальность 05.13.17 «Теоретические основы информатики», тема диссертации: Нестандартное числовое поведение русских существительных
- 1998 · Аспирантура: Всероссийский институт научной и технической информации РАН, специальность «Теоретические основы информатики»
- 1995 · Специалитет: Российский государственный гуманитарный университет, факультет: Факультет теоретической и прикладной лингвистики, специальность «Лингвистика», квалификация «Лингвист-специалист в области теоретической и прикладной лингвистики»
Опыт работы
- · 2011: с : Старший научный сотрудник отдела корпусной лингвистики и лингвистической поэтики, Институт русского языка им. В.В.Виноградова РАН (ИРЯ РАН), Москва (совместитель)
- · 2011–2012: : менеджер группы онтологий отдела лингвистики ООО "Яндекс"
- · 2010–2011: : førsteamanuensis (Associate Professor)
- · 2008–2010: : post-doc, Институт лингвистики Университета Тромсё, Норвегия
- · 2008–2011: : докторант, Институт русского языка им. В.В.Виноградова РАН (ИРЯ РАН), Москва
- · 2002–2008: : cтарший научный сотрудник Отдела лингвистических исследований
- · 2000–2002: : старший научный сотрудник Отдела теоретических и прикладных проблем информатики, Всероссийский институт научной и технической информации (ВИНИТИ РАН), Москва
- · 1997–2001: : преподаватель русского языка как иностранного
- · 1996–1998: : учебный мастер, филологический факультет МГУ им. М.В.Ломоносова
- · 1995-1996: : ведущий специалист деканата, факультет теоретической и прикладной лингвистики РГГУ
Награды и поощрения
- · Благодарность проректора НИУ ВШЭ (июль 2025)
- · Почетная грамота факультета гуманитарных наук НИУ ВШЭ (ноябрь 2024)
- · Почетная грамота Министерства науки и высшего образования Российской Федерации (ноябрь 2022)
- · Благодарность проректора НИУ ВШЭ (ноябрь 2021)
- · Благодарность Высшей школы экономики (январь 2017)
- · Надбавка за академические достижения и вклад в репутацию НИУ ВШЭ (2017–2019)
- · Надбавка за академическую работу (2016–2017)
- · Надбавка за публикацию в журнале из Списка B (2025–2026, 2024–2025)
- · Надбавка за публикацию в журнале из Списка А (и приравненном к нему научном издании) (2023–2024)
- · Надбавка за публикацию в международном рецензируемом научном издании (2022–2023, 2021–2022, 2019–2020)
- · Надбавка за статью в зарубежном рецензируемом журнале (2014–2016, 2012–2014)
- · Лучший преподаватель — 2019, 2017, 2013
Гранты и проекты
- — · Научно-учебная группа «Материалы к частотному словарю русской поэзии»» (Научный фонд НИУ ВШЭ, 2018, руководитель)
- 2020 · DiAsPol250 «The Development of the Polish Aspect System in the Last 250 Years against the Background of Neighbouring Languages», Beethoven II – Polish-German Funding Initiative (DFG/NCN), 2018-2020, cooperation partner
- — · TWIRLL: Targeting Wordforms in Russian Language Learning, грант международного академического сотрудничества Норвежского научного фонда SIU c Университетом Тромсе (CPRU-2017/10027)
- 2020 · DigiPalSlav: Digital Paleoslavistics, Alexander von Humboldt-Stiftung, Programm zur Förderung von Institutspartnerschaften Abteilung Förderung und Netzwerk, 2018-2020, cooperation partner
- 2017 · Научно-учебная группа «REALEC для реально необходимых слов» (Научный фонд НИУ ВШЭ, 2016-2017, руководитель)
- 2018 · Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов (РГНФ, грант № 17-04-12064, 2017-2018, исполнитель)
- 2016 · Стандарты оценки методов автоматического извлечения информации из текстов (РФФИ, грант № 15-07-09306, 2014-2016, руководитель)
- 2016 · Развитие Исторических модулей НКРЯ (РГНФ, грант № 15-04-12050, 2015-2016, исполнитель)
- 2015 · Квантитативное корпусное исследование грамматической категории числа (Научный фонд НИУ ВШЭ, индивидуальный проект, 2014-2015)
- 2014 · Синтаксическая разметка корпуса со снятой лексико-грамматической омонимией (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2012-2014)
- 2014 · ФреймБанк: разметка семантических ролей и морфосинтаксического оформления участников фреймов (на базе НКРЯ) (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2012-2014)
- 2013 · Частотный словарь русской грамматики и лексической сочетаемости (Научный фонд НИУ ВШЭ, индивидуальный проект, 2012 - 2013) Словообразовательная разметка НКРЯ (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2011)
- — · Фреймбанк (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2011)
- 2012 · От корпуса к словарю: автоматические методы выявления и построения каталога русских конструкций (РФФИ, грант № 10-06-00586а, совместно с О.А.Митрофановой, 2010-2012)
- 2012 · Exploring Emptiness: Russian Verbal Morphology and Cognitive Linguistics" (Norsk forskningsråd/Норвежского совета научных исследований, грант проекта Лоры Янды и Туре Нессета, 2008 - 2012)
- 2009 · Топологические типы русских предметных имен (РГНФ, грант № 07-04-00240а, 2007 - 2009)
Конференции (30)
Показать все
- · 2025: 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025), 31.07.2025, Вена, Австрия (Вена). Доклад: Rubic2: Ensemble Model for Russian Lemmatization
- · 2025: Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2025) (Таллинн). Доклад: The application of corpus-based language distance measurement to the diatopic variation study (on the material of the Old Novgorodian birchbark letters)
- · 2024: Русский язык в многоязычном мире (Москва). Доклад: Русский конструктикон как научный и учебный ресурс
- · 2022: 6-й Колмогоровский семинар по компьютерной лингвистике и наукам о языке (Москва). Доклад: К задаче разработки версии корпусов НКРЯ с разрешенной неоднозначностью морфологической и синтаксической разметки
- · 2022: 46-я школа-конференция ИППИ РАН «Информационные технологии и системы» (ИТиС-2022) (Огниково Московской области). Доклад: Опыт применения моделей-трансформеров для лемматизации современных и исторических текстов русского языка
- · 2022: International Conference on Historical Lexicography and Lexicology (ICHLL 2022) (Lorient). Доклад: Automatic collection of parallel thesauri in dictionary/corpus joint system
- · 2022: 25th International Conference on Text, Speech, and Dialogue (TSD 2022) (Брно). Доклад: Review of Practices of Collecting and Annotating Texts in the Learner Corpus REALEC
- · 2022: 13th Conference on Language Resources and Evaluation (LREC 2022) (Марсель). Доклад: Constructing a Lexical Resource of Russian Derivational Morphology
- · 2022: Гаспаровские чтения - 2022 (Москва). Доклад: В стенах кипучих городов: О семантических границах эпитета в свете корпусных данных
- · 2021: 27-ая Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2021» (Москва). Доклад: Adjunct role labeling for Russian
- · 2021: XIX EURALEX Congress (Александруполис). Доклад: Revised entries in the multi-volume edition and TEI encoding: a case of the historical dictionary of Russian
- · 2021: 11th International Conference on Historical Lexicography and Lexicology (ICHLL 11) (Logroño, La Rioja). Доклад: Example, usage variant, and linking between dictionary and corpus data
- · 2021: 11th International Conference on Historical Lexicography and Lexicology (ICHLL 11) (Logroño, La Rioja). Доклад: Lemmatization in corpus-to-dictionary systems: The case study for Old Church Slavonic
- · 2021: 18th International Conference on Distributed Computing and Artificial Intelligence (DCAI) (Саламанка). Доклад: Automated Metaphor Identification in Russian and its Implications for Metaphor Studies
- · 2021: 11th International Conference SLOVKO 2021: NLP, Corpus Linguistics and Interdisciplinarity (Братислава). Доклад: An HMM-based PoS Tagger for Old Church Slavonic
- · 2021: SCLC-2020/2021: The Slavic Cognitive Linguistics Conference (June 3-6, 2021) (Тромсё). Доклад: On syntactic structures in the Russian Constructicon entries and beyond
- · 2021: El’Manuscript 2021. Textual heritage and information technologies (Фрайбург). Доклад: Lemmatization of the Middle Russian Corpus within the RNC: Choice of Solutions
- · 2021: Slavic aspect and (diachronic) corpora. International workshop (Майнц). Доклад: Profiling the behavior of verbs in the Middle Russian Corpus
- · 2021: The 10th International Conference on Analysis of Images, Social Networks and Texts (Тбилиси). Доклад: Sculpting enhanced dependencies for Belarusian
- · 2020: 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям (Москва). Доклад: Русский конструктикон: новый лингвистический ресурс, его устройство и специфика
- · 2020: 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям (Москва). Доклад: GRAMEVAL 2020 Shared Task: Russian Full Morphology and Universal Dependencies Parsing
- · 2019: Digital Transformations & Global Society 2019 (DTGS’2019) (Санкт-Петербург). Доклад: A cross-genre morphological tagging and lemmatization of the Russian poetry: distinctive test sets and evaluation
- · 2019: Диалог (25-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям) (Москва). Доклад: A Simple Fingerprint Approach to Extracting the Global Prosodic Properties from Field Data
- · 2019: Historical Corpora and Variation (Кальяри). Доклад: Spelling variation and word clusters in the Middle Russian Corpus
- · 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
- · 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
- · 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
- · 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
- · 2019: Межкампусная конференция по Digital Humanities «DH Meet-Up HSE» (Москва). Доклад: Данные поэтического корпуса НКРЯ как объект цифровой культуры
- · 2019: Towards a multilingual constructicon: issues, approaches, perspectives (Дюссельдорф). Доклад: Russian Constructicon: clusters, families, and usage scenarios
Идентификаторы исследователя
- ORCID:
0000-0001-8374-423X - ResearcherID:
E-8855-2014 - SPIN РИНЦ:
6340-5599 - Google Scholar: https://scholar.google.ru/citations?user=5XzprO8AAAAJ&hl=ru
- Scopus AuthorID:
37090988800
Публикации (116)
Metaphor Shifts in Constructions: the Russian Metaphor Corpus
2017 · CHAPTER · en
In the ongoing corpus project we annotate Russian constructions that have a metaphoric potential. Indirect linguistic metaphors are defined according to a customized version of the metaphor identification procedure MIPVU as the contrast between the basic and the contextual meaning of the lemmas participating in a construction. Direct Metaphors are defined as linguistic metaphors whose contextual meaning has two referents simultaneously, or, in terms of conceptual metaphor, there is a cross-domain mapping. Personification is a subtype of Indirect Metaphor where slots that require only animate participants are filled with non-animate arguments. The annotation of metaphor-related constructions is added as a new layer to SynTagRus, the Russian syntactical dependencies treebank. The paper focuses on the procedure of metaphor identification and the types of linguistic metaphors annotated.
К определению сложности русских текстов
2017 · CHAPTER · ru
Данная работа представляет краткий обзор методов измерения сложности в свете разработки онлайн-ресурсов, позволяющих пользователю оценить любой выбранный им русскоязычный текст.
Multi-level student essay feedback in a learner corpus
2017 · CHAPTER · en
The paper presents the results of using some computer tools and applications for the purposes of the automated and semi-automated syntactical, lexica, and error analysis of student essays in a learner corpus. The texts in the corpus were written in English by Russian learners of English. The experiment in the research consisted in comparing the parameters of different types and at different levels in the essays graded by professional examiners as the best and those graded the lowest in the pool of about 2000 essays. At the first stage in the experiment the authors applied a syntactical tool for parsing the sentences, then analyzed the results of lexical observations in those texts, and finally collected the statistics related to the errors pointed out in manual expert annotation. The parameters that had very different values for the “good” and for the “bad” essays are regarded by the authors as worthy parts of the feedback a student has to get for the text uploaded into the learner corpus.
Применение квантитативных корпусных методик для выявления церковнославянизмов в современном русском языке
2017 · ARTICLE · ru
В основе исследования лежит гипотеза о дискурсивной близости церковнославянского языка и религиозного христианского дискурса современного русского языка. При помощи корпусного статистического анализа показано, что, с точки зрения лексического состава, эта часть языка заметно сближается с церковнославянским языком, если сравнивать ее с неспециализированным современным русским языком. Это может служить доказательством специфичности исследуемой части языка, дополнительным доводом при решении вопроса о его отдельном статусе. Исследование проводится на материале Национального корпуса русского языка, а именно через сравнение данных Церковнославянского корпуса, Основного корпуса и входящего в него подкорпуса церковно-богословских текстов. С помощью критерия логического правдоподобия и метода главных компонент (PCA) выявляется пласт лексики современных текстов, которые предлагается считать церковнославянизмами; показано, что лексика разных знаменательных частей речи по-разному представляет “расстояние” между корпусами.
Наречие в функции распространителя адъективированных причастий в современном русском языке
2017 · CHAPTER · ru
Статья посвящена сочетаемости разных типов наречий с причастиями разной степени адъективированности в современном русском языке. Приводятся примеры совместного употребления наречий и причастных форм. Делаются выводы о роли наречий в процессе адъективации.
Predicting Russian Aspect by Frequency across Genres
2017 · ARTICLE · en
We ask whether the aspect of individual verbs can be predicted based on the statistical distribution of their inflectional forms and how this is influenced by genre. To address these questions, we present an analysis of the “grammatical profiles” (relative frequency distributions of inflectional forms) of three samples of verbs extracted from the Russian National Corpus, representing three genres: Journalistic prose, Fiction, and Scientific-Technical prose. We find that the aspect of a given verb can be correctly predicted from the distribution of its forms alone with an average accuracy of 92.7%. Remarkably, this accuracy is statistically indistinguishable from the accuracy of prediction of aspect based on morphological marking. We maintain that it would be possible for first language learners to use distributional tendencies, in addition to morphological and other cues (for example semantic and syntactic cues), in acquiring the verbal category of aspect in Russian.
Approaches to automated English essay evaluation in Russian students’ learner corpus
2017 · CHAPTER · en
REALEC (Vinogradova, 2016) is the first in the open access collection of English texts (mainly essays) written by students with Russian as their native language who are learning English at the university. The project team working with the corpus over the last two years have been developing computational tools to make the use of REALEC efficient for both students and their English instructors in preparation for the university EFL examination. This paper considers four tools designed to enhance corpus-mediated work in the classroom: • easy access to the statistics of student errors in one text, in all texts written by the same author, or in all texts in a current folder, which provides for on-the-spot feedback on the quality of the text uploaded to the corpus; • automated evaluation of lexical proficiency, which includes commonly used features such as length of words; length of sentences; distribution of words across the Common European Framework scale levels (A1-C2); use of academic vocabulary compared with one of the two lists - the Coxhead Academic Word List and in the Corpus of Contemporary American English; number of repetitions; use of linking words; use of collocations (as attested by the comparison with the Pearson academic collocation list); • automated test-maker, which extracts sentences from the corpus and turns them into questions for placement and progress testing purposes; • automated evaluation of syntactic complexity of the text which takes into account features such as mean sentence depth and the average number of relative and adverbial clauses. The opportunity to get automated evaluation of the variety of syntactic means used in a student text is an important feature for both instructors and learners.
Automatic dependency parsing of a learner English corpus REALEC
2017 · PREPRINT · en
The paper presents a Universal Dependencies (UD) annotation scheme for a learner English corpus. The REALEC dataset consists of essays written in English by Russian-speaking university students in the course of general English. The essays are a part of students' preparation for the independent final examination similar to the international English exam. While adjusting existing dependency parsing tools to a learner data, one has to take into account to what extent students' mistakes provoke errors in the parser output. The ungrammatical and stylistically inappropriate utterances may challenge parsers' algorithms trained on grammatically appropriate written texts. In our experiments, we compared the output of the dependency parser UDpipe (trained on UD-English 2.0) with the results of manual parsing, placing a particular focus on parses of ungrammatical English clauses. We show how mistakes made by students influence the work of the parser. Overall, UDpipe performed reasonably well (UAS 92.9, LAS 91.7). The following cases cause the errors in automatic annotation a) incorrect detection of a head, b) incorrect detection of the relation type, as well as c) both. We propose some solutions which could improve the automatic output and thus make the assessment of syntactic complexity more reliable.
Text collections for evaluation of Russian morphological taggers
2017 · ARTICLE · en
The paper describes the preparation and development of the text collections within the framework of MorphoRuEval-2017 shared task, an evaluation campaign designed to stimulate development of the automatic morphological processing technologies for Russian. The main challenge for the organizers was to standardize all available Russian corpora with the manually verified high-quality tagging to a single format (Universal Dependencies CONLL-U). The sources of the data were the disambiguated subcorpus of the Russian National Corpus, SynTagRus, OpenCorpora.org data and GICR corpus with the resolved homonymy, all exhibiting different tagsets, rules for lemmatization, pipeline architecture, technical solutions and error systematicity. The collections includes both normative texts (the news and modern literature) and more informal discourse (social media and spoken data), the texts are available under CC BY-NC-SA 3.0 license.
MorphoRuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian
2017 · CHAPTER · en
MorphoRuEval-2017 — соревнование по морфологической разметке, призванное стимулировать развитие технологий морфологической обработки текстов на русском языке, в особенности текстов из сети Интернет, как нормативных( новости, литературные тексты), так и менее формального характера (блоги и другие социальные медиа). Данная статья посвящена сравнению методов, использованных командами-участниками соревнования, а также проблемам унификации различных существующих обучающих коллекций для русского языка.
Курсы (12)
-
Computer Tools for Linguistic Research · 5 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Нижний Новгород · Анг
-
Научно-исследовательский семинар "Анализ и визуализация текстовых данных" · 3 раза
2025/2026, 2024/2025, 2023/2024 · Магистратура · рус
-
Научно-исследовательский семинар «Интерпретация лингвистических явлений в больших языковых моделях»
2025/2026 · Бакалавриат · рус
-
Fundamentals of Corpus Research
2025/2026 · Магистратура / Маго-лего · Анг
-
Программирование и лингвистические данные · 5 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
-
Теоретическая и прикладная лексикография · 4 раза
2025/2026, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
-
Корпусная лингвистика · 3 раза
2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · рус
-
Мастер-классы
2024/2025 · Магистратура · рус
-
Научно-исследовательский семинар "Нейросетевое моделирование длинных языковых единиц"
2024/2025 · Бакалавриат · рус
-
Дополнительные главы корпусной лингвистики
2023/2024 · Магистратура / Маго-лего · рус
-
Анализ и визуализация текстовых данных
2022/2023 · Магистратура · рус
-
Научно-исследовательский семинар "Корпусная лингвистика и изучение иностранных языков"
2022/2023 · Нижний Новгород · рус