Ляшевская Ольга Николаевна

Факультет гуманитарных наук

Профиль на hse.ru ↗ тел.: 22724 | +7 (906) 798-60-21

Публикаций

116

Языков

Наград

Конференций

Профиль Публикации (116) Курсы (12)

Профессиональные интересы

русский языклексикографиякомпьютерная лингвистикасемантикакогнитивная лингвистикакорпусная лингвистикасемантика грамматики16.00.00 Языкознание

Должности

Профессор — Факультет гуманитарных наук, Школа лингвистики

Био

· Начала работать в НИУ ВШЭ в 2011 году.
· Научно-педагогический стаж: 28 лет.

Образование

1999 · Кандидат филологических наук: Всероссийский институт научной и технической информации РАН, специальность 05.13.17 «Теоретические основы информатики», тема диссертации: Нестандартное числовое поведение русских существительных
1998 · Аспирантура: Всероссийский институт научной и технической информации РАН, специальность «Теоретические основы информатики»
1995 · Специалитет: Российский государственный гуманитарный университет, факультет: Факультет теоретической и прикладной лингвистики, специальность «Лингвистика», квалификация «Лингвист-специалист в области теоретической и прикладной лингвистики»

Опыт работы

· 2011: с : Старший научный сотрудник отдела корпусной лингвистики и лингвистической поэтики, Институт русского языка им. В.В.Виноградова РАН (ИРЯ РАН), Москва (совместитель)
· 2011–2012: : менеджер группы онтологий отдела лингвистики ООО "Яндекс"
· 2010–2011: : førsteamanuensis (Associate Professor)
· 2008–2010: : post-doc, Институт лингвистики Университета Тромсё, Норвегия
· 2008–2011: : докторант, Институт русского языка им. В.В.Виноградова РАН (ИРЯ РАН), Москва
· 2002–2008: : cтарший научный сотрудник Отдела лингвистических исследований
· 2000–2002: : старший научный сотрудник Отдела теоретических и прикладных проблем информатики, Всероссийский институт научной и технической информации (ВИНИТИ РАН), Москва
· 1997–2001: : преподаватель русского языка как иностранного
· 1996–1998: : учебный мастер, филологический факультет МГУ им. М.В.Ломоносова
· 1995-1996: : ведущий специалист деканата, факультет теоретической и прикладной лингвистики РГГУ

Награды и поощрения

· Благодарность проректора НИУ ВШЭ (июль 2025)
· Почетная грамота факультета гуманитарных наук НИУ ВШЭ (ноябрь 2024)
· Почетная грамота Министерства науки и высшего образования Российской Федерации (ноябрь 2022)
· Благодарность проректора НИУ ВШЭ (ноябрь 2021)
· Благодарность Высшей школы экономики (январь 2017)
· Надбавка за академические достижения и вклад в репутацию НИУ ВШЭ (2017–2019)
· Надбавка за академическую работу (2016–2017)
· Надбавка за публикацию в журнале из Списка B (2025–2026, 2024–2025)
· Надбавка за публикацию в журнале из Списка А (и приравненном к нему научном издании) (2023–2024)
· Надбавка за публикацию в международном рецензируемом научном издании (2022–2023, 2021–2022, 2019–2020)
· Надбавка за статью в зарубежном рецензируемом журнале (2014–2016, 2012–2014)
· Лучший преподаватель — 2019, 2017, 2013

Гранты и проекты

— · Научно-учебная группа «Материалы к частотному словарю русской поэзии»» (Научный фонд НИУ ВШЭ, 2018, руководитель)
2020 · DiAsPol250 «The Development of the Polish Aspect System in the Last 250 Years against the Background of Neighbouring Languages», Beethoven II – Polish-German Funding Initiative (DFG/NCN), 2018-2020, cooperation partner
— · TWIRLL: Targeting Wordforms in Russian Language Learning, грант международного академического сотрудничества Норвежского научного фонда SIU c Университетом Тромсе (CPRU-2017/10027)
2020 · DigiPalSlav: Digital Paleoslavistics, Alexander von Humboldt-Stiftung, Programm zur Förderung von Institutspartnerschaften Abteilung Förderung und Netzwerk, 2018-2020, cooperation partner
2017 · Научно-учебная группа «REALEC для реально необходимых слов» (Научный фонд НИУ ВШЭ, 2016-2017, руководитель)
2018 · Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов (РГНФ, грант № 17-04-12064, 2017-2018, исполнитель)
2016 · Стандарты оценки методов автоматического извлечения информации из текстов (РФФИ, грант № 15-07-09306, 2014-2016, руководитель)
2016 · Развитие Исторических модулей НКРЯ (РГНФ, грант № 15-04-12050, 2015-2016, исполнитель)
2015 · Квантитативное корпусное исследование грамматической категории числа (Научный фонд НИУ ВШЭ, индивидуальный проект, 2014-2015)
2014 · Синтаксическая разметка корпуса со снятой лексико-грамматической омонимией (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2012-2014)
2014 · ФреймБанк: разметка семантических ролей и морфосинтаксического оформления участников фреймов (на базе НКРЯ) (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2012-2014)
2013 · Частотный словарь русской грамматики и лексической сочетаемости (Научный фонд НИУ ВШЭ, индивидуальный проект, 2012 - 2013) Словообразовательная разметка НКРЯ (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2011)
— · Фреймбанк (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2011)
2012 · От корпуса к словарю: автоматические методы выявления и построения каталога русских конструкций (РФФИ, грант № 10-06-00586а, совместно с О.А.Митрофановой, 2010-2012)
2012 · Exploring Emptiness: Russian Verbal Morphology and Cognitive Linguistics" (Norsk forskningsråd/Норвежского совета научных исследований, грант проекта Лоры Янды и Туре Нессета, 2008 - 2012)
2009 · Топологические типы русских предметных имен (РГНФ, грант № 07-04-00240а, 2007 - 2009)

Конференции (30)

Показать все

· 2025: 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025), 31.07.2025, Вена, Австрия (Вена). Доклад: Rubic2: Ensemble Model for Russian Lemmatization
· 2025: Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2025) (Таллинн). Доклад: The application of corpus-based language distance measurement to the diatopic variation study (on the material of the Old Novgorodian birchbark letters)
· 2024: Русский язык в многоязычном мире (Москва). Доклад: Русский конструктикон как научный и учебный ресурс
· 2022: 6-й Колмогоровский семинар по компьютерной лингвистике и наукам о языке (Москва). Доклад: К задаче разработки версии корпусов НКРЯ с разрешенной неоднозначностью морфологической и синтаксической разметки
· 2022: 46-я школа-конференция ИППИ РАН «Информационные технологии и системы» (ИТиС-2022) (Огниково Московской области). Доклад: Опыт применения моделей-трансформеров для лемматизации современных и исторических текстов русского языка
· 2022: International Conference on Historical Lexicography and Lexicology (ICHLL 2022) (Lorient). Доклад: Automatic collection of parallel thesauri in dictionary/corpus joint system
· 2022: 25th International Conference on Text, Speech, and Dialogue (TSD 2022) (Брно). Доклад: Review of Practices of Collecting and Annotating Texts in the Learner Corpus REALEC
· 2022: 13th Conference on Language Resources and Evaluation (LREC 2022) (Марсель). Доклад: Constructing a Lexical Resource of Russian Derivational Morphology
· 2022: Гаспаровские чтения - 2022 (Москва). Доклад: В стенах кипучих городов: О семантических границах эпитета в свете корпусных данных
· 2021: 27-ая Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2021» (Москва). Доклад: Adjunct role labeling for Russian
· 2021: XIX EURALEX Congress (Александруполис). Доклад: Revised entries in the multi-volume edition and TEI encoding: a case of the historical dictionary of Russian
· 2021: 11th International Conference on Historical Lexicography and Lexicology (ICHLL 11) (Logroño, La Rioja). Доклад: Example, usage variant, and linking between dictionary and corpus data
· 2021: 11th International Conference on Historical Lexicography and Lexicology (ICHLL 11) (Logroño, La Rioja). Доклад: Lemmatization in corpus-to-dictionary systems: The case study for Old Church Slavonic
· 2021: 18th International Conference on Distributed Computing and Artificial Intelligence (DCAI) (Саламанка). Доклад: Automated Metaphor Identification in Russian and its Implications for Metaphor Studies
· 2021: 11th International Conference SLOVKO 2021: NLP, Corpus Linguistics and Interdisciplinarity (Братислава). Доклад: An HMM-based PoS Tagger for Old Church Slavonic
· 2021: SCLC-2020/2021: The Slavic Cognitive Linguistics Conference (June 3-6, 2021) (Тромсё). Доклад: On syntactic structures in the Russian Constructicon entries and beyond
· 2021: El’Manuscript 2021. Textual heritage and information technologies (Фрайбург). Доклад: Lemmatization of the Middle Russian Corpus within the RNC: Choice of Solutions
· 2021: Slavic aspect and (diachronic) corpora. International workshop (Майнц). Доклад: Profiling the behavior of verbs in the Middle Russian Corpus
· 2021: The 10th International Conference on Analysis of Images, Social Networks and Texts (Тбилиси). Доклад: Sculpting enhanced dependencies for Belarusian
· 2020: 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям (Москва). Доклад: Русский конструктикон: новый лингвистический ресурс, его устройство и специфика
· 2020: 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям (Москва). Доклад: GRAMEVAL 2020 Shared Task: Russian Full Morphology and Universal Dependencies Parsing
· 2019: Digital Transformations & Global Society 2019 (DTGS’2019) (Санкт-Петербург). Доклад: A cross-genre morphological tagging and lemmatization of the Russian poetry: distinctive test sets and evaluation
· 2019: Диалог (25-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям) (Москва). Доклад: A Simple Fingerprint Approach to Extracting the Global Prosodic Properties from Field Data
· 2019: Historical Corpora and Variation (Кальяри). Доклад: Spelling variation and word clusters in the Middle Russian Corpus
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: Межкампусная конференция по Digital Humanities «DH Meet-Up HSE» (Москва). Доклад: Данные поэтического корпуса НКРЯ как объект цифровой культуры
· 2019: Towards a multilingual constructicon: issues, approaches, perspectives (Дюссельдорф). Доклад: Russian Constructicon: clusters, families, and usage scenarios

Идентификаторы исследователя

ORCID: 0000-0001-8374-423X
ResearcherID: E-8855-2014
SPIN РИНЦ: 6340-5599
Google Scholar: https://scholar.google.ru/citations?user=5XzprO8AAAAJ&hl=ru
Scopus AuthorID: 37090988800

Публикации (116)

The smaller the better? Heterogeneity of corpus, training size, and morphological tagging

2020 · CHAPTER · en

Гетерогенность орфографии и грамматического строя текстов старорусской письменности создают существенные трудности для автоматической частеречной и морфологической разметки. Существующие подходы демонстрируют хорошие результаты, не прибегая к помощи нормализации, однако все они, тем не менее, чувствительны к любым изменениям пропорций элементов тренировочного датасета и жанровой неоднородности. В данной работе мы проанализировали влияние этих факторов на качество автоматической морфологической разметки. Наше исследование показало, что качество морфологической разметки моделей UDpipe повышается по мере снижения объёма тренировочных данных. Именно поэтому нами была предпринята попытка проанализировать дистрибуцию частей речи и слов, состоящих из малого количества символов (2-3), в тренировочных выборках.

DOI ↗ PDF ↗

GRAMEVAL 2020 Shared Task: Russian Full Morphology and Universal Dependencies Parsing

2020 · CHAPTER · en

GramEval 2020 — дорожка по оценке методов и технических решений для полного морфологического и синтаксического анализа текстов на русском языке. В 2020 году доминантой была выбрана жанровая репрезентативность текстового материала. Для оценки подходов к автоматическому анализу текста был подготовлен тестовый набор данных, охватывающий пять жанров современного языка: новости, сообщения из социальных сетей и электронную коммуникацую, энциклопедические статьи, художественную литературу, поэзию, а также исторические тексты 17 века. Текстовый материал для обучения и тестирования предоставлялся в формате Универсальных Зависимостей (Universal Dependencies) версии 2.5. Входной формат содержал информацию о границах предложений и токенов. Задачей систем-участников было определить часть речи, грамматические признаки и лемму каждого токена, а также построить дерево зависимостей каждого предложения с типизацией синтаксических отношений. В ходе мероприятия участники имели возможность получать оценки качества своих решений благодаря платформе CodaLab. Автоматически предоставлялась детализация оценок по уровням разметки и текстовым регистрам, информация о частотных ошибках. Окончательный рейтинг систем составлялся на основе четырёх показателей: качества определения части речи, грамматических признаков, леммы и построения дерева зависимостей (LAS). В данной статье организаторы GramEval 2020 рассматривают основные вопросы, связанные с организацией дорожки, а также полученные участниками результаты. Затрагиваются темы методологии оценки, подготовки обучающих и тестовых данных. Приводится краткое описание подходов участников и анализ допущенных ошибок.

DOI ↗ PDF ↗

A Simple Fingerprint Approach to Extracting the Global Prosodic Properties from Field Data

2019 · CHAPTER · en

В статье обсуждается применение метода создания просодического отпечатка говорящего на основе общих характеристик движения основного тона. Просодический отпечаток—это распределение f0 в нижнем, среднем и верхнем диапазонах и распределение движений высоты тона из одного диапазона в другой [Šimko et al. 2017]. Этот полностью автоматизированный метод может использоваться для классификации записей в корпусе и получения представления о фоне, с которым будут сравниваться данные при дальнейшем, более сложном анализе стратегий интонирования. Мы применили метод к спонтанным русскоязычным данным, записанным в разных регионах. Разработаны модели анализа зависимости между данными просодического отпечатка и социолингвистическими характеристиками, такими как возраст, пол и регион. Результаты проведенного нами анализа данных позволяют сформулировать ряд социолингвистических гипотез, которые впоследствии могут быть проверены с использованием более глубоких методов анализа.

PDF ↗

A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

2019 · CHAPTER · en

Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей (Universal Dependencies). Предлагается ряд спецификаций тагсета для облегчения совмещения разметок разных корпусов, связывания и конвертирования данных.

PDF ↗

A cross-genre morphological tagging and lemmatization of the Russian poetry: distinctive test sets and evaluation

2019 · CHAPTER · en

The poetic texts pose a challenge to full morphological tagging and lemmatization since the authors seek to extend the vocabulary, employ morphologically and semantically deficient forms, go beyond standard syntactic templates, use non-projective constructions and non-standard word order, among other techniques of the creative language game. In this paper we evaluate a number of probabilistic taggers based on decision trees, CRF and neural network algorithms as well as a state-of-the-art dictionary-based tagger. The taggers were trained on prosaic texts and tested on three poetic samples of different complexity. Firstly, we suggest a method to compile the gold standard datasets for the Russian poetry. Secondly, we focus on the taggers’ performance in the identification of the part of speech tags and lemmas. We reveal what kind of POS classes, paradigm classes and syntactic patterns mostly affect the quality of processing.

DOI ↗ PDF ↗

Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives

2019 · CHAPTER · en

This paper describes the distribution of colour adjectives in Russian poetry of the Silver Age and defines individual preferences with regard to poetic tradition, syllable structure, and metrical restrictions. The research method combines a lexico-semantic approach, formal literary analysis, and quantitative metrics obtained via the frequency database of the Russian Poetry Corpus (over 10 M words, incl. 1 M adjectives). The database allows the user to compare subcorpora and create graphs of timeline distribution, which demonstrate that the lexical diversity and relative frequencies of colour adjectives start to grow rapidly in the 1890s, as modernists employ colour adjectives to upgrade the poetic inventory. The adjectives referring to non-banal hues (e.g. fioletovyj ‘violet’, lazorevyj ‘azur’) belong to the middle part of the ranked wordlist. Correspondence analysis of the data reveals individual colour preferences and stylistic similarities among the most prominent poets of the Silver Age; for example, Anna Akhmatova and Alexander Blok are similar regarding their use of the white hues. The distribution of the selected colour hue adjectives across metrical types highlights the strong association of multi-syllabic adjectives with certain meters, although some words have a more complex distribution.

PDF ↗

Proceedings of Third Workshop "Computational linguistics and language science"

2019 · BOOK · en

The EPiC Series in Language and Linguistics publishes high quality collections of papers in language, linguistics and related areas.

DOI ↗

Inspector: The Tool For Automated Assessment Of Learner Text Complexity

2019 · PREPRINT · en

EFL methodology has always recognized the importance of giving student learners of foreign languages regular and quick feedback on student speech production, both written and oral, but over the past two decades there appeared various tools ensuring the provision of automated instant feedback. The presented paper offers such a tool that focuses on measuring text complexity, which will hopefully translate into reasonable feedback about the level of language proficiency when taking into account those text features that are significant for Russian learners of English. The application provides students with advice on how to improve the weaker aspects of the evaluated essay and underlines the relevant linguistic features of the text - for example, the number of adjectival clauses. We point out what text features are more relevant for the assessment of the essays written in English by Russian students. We analyzed 3440 texts from Russian ErrorAnnotated English Learner Corpus, and for each of them we calculated the text criteria values. Then we used the methods of machine learning and statistical analysis to predict the grade that could be received for the essay.

PDF ↗

Computer and metaphor: when lexicon, morphology, punctuation, and other beasts fail to predict sentence metaphoricity

2019 · CHAPTER · en

The paper provides linguistic explanations to the results of the supervised machine learning experiments for identification of verbal metaphor in Russian texts. We look at the classification accuracy of models based on different features (distributional semantics and lexical and morphosyntactic co-occurrence, etc.) and explore the behavior of verb constructions and wider context in order to investigate the reasons behind the most and the least successful performances.

PDF ↗

В генеральских руках Ерофея: О синтаксическом представлении именованных сущностей в поэтическом и исторических корпусах

2019 · CHAPTER · ru

В статье анализируется смешанная адъективно-генитивная посессивная конструкция в контексте ее представления в синтаксическом формализме Universal Dependencies. Исследование выполнено на материалах частотных синтаксических баз данных поэтического и старорусского корпусов НКРЯ.

PDF ↗

Курсы (12)

Computer Tools for Linguistic Research · 5 раза

2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Нижний Новгород · Анг
Научно-исследовательский семинар "Анализ и визуализация текстовых данных" · 3 раза

2025/2026, 2024/2025, 2023/2024 · Магистратура · рус
Научно-исследовательский семинар «Интерпретация лингвистических явлений в больших языковых моделях»

2025/2026 · Бакалавриат · рус
Fundamentals of Corpus Research

2025/2026 · Магистратура / Маго-лего · Анг
Программирование и лингвистические данные · 5 раза

2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
Теоретическая и прикладная лексикография · 4 раза

2025/2026, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
Корпусная лингвистика · 3 раза

2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · рус
Мастер-классы

2024/2025 · Магистратура · рус
Научно-исследовательский семинар "Нейросетевое моделирование длинных языковых единиц"

2024/2025 · Бакалавриат · рус
Дополнительные главы корпусной лингвистики

2023/2024 · Магистратура / Маго-лего · рус
Анализ и визуализация текстовых данных

2022/2023 · Магистратура · рус
Научно-исследовательский семинар "Корпусная лингвистика и изучение иностранных языков"

2022/2023 · Нижний Новгород · рус