Ляшевская Ольга Николаевна

Факультет гуманитарных наук

Профиль на hse.ru ↗ тел.: 22724 | +7 (906) 798-60-21

Публикаций

116

Языков

Наград

Конференций

Профиль Публикации (116) Курсы (12)

Профессиональные интересы

русский языклексикографиякомпьютерная лингвистикасемантикакогнитивная лингвистикакорпусная лингвистикасемантика грамматики16.00.00 Языкознание

Должности

Профессор — Факультет гуманитарных наук, Школа лингвистики

Био

· Начала работать в НИУ ВШЭ в 2011 году.
· Научно-педагогический стаж: 28 лет.

Образование

1999 · Кандидат филологических наук: Всероссийский институт научной и технической информации РАН, специальность 05.13.17 «Теоретические основы информатики», тема диссертации: Нестандартное числовое поведение русских существительных
1998 · Аспирантура: Всероссийский институт научной и технической информации РАН, специальность «Теоретические основы информатики»
1995 · Специалитет: Российский государственный гуманитарный университет, факультет: Факультет теоретической и прикладной лингвистики, специальность «Лингвистика», квалификация «Лингвист-специалист в области теоретической и прикладной лингвистики»

Опыт работы

· 2011: с : Старший научный сотрудник отдела корпусной лингвистики и лингвистической поэтики, Институт русского языка им. В.В.Виноградова РАН (ИРЯ РАН), Москва (совместитель)
· 2011–2012: : менеджер группы онтологий отдела лингвистики ООО "Яндекс"
· 2010–2011: : førsteamanuensis (Associate Professor)
· 2008–2010: : post-doc, Институт лингвистики Университета Тромсё, Норвегия
· 2008–2011: : докторант, Институт русского языка им. В.В.Виноградова РАН (ИРЯ РАН), Москва
· 2002–2008: : cтарший научный сотрудник Отдела лингвистических исследований
· 2000–2002: : старший научный сотрудник Отдела теоретических и прикладных проблем информатики, Всероссийский институт научной и технической информации (ВИНИТИ РАН), Москва
· 1997–2001: : преподаватель русского языка как иностранного
· 1996–1998: : учебный мастер, филологический факультет МГУ им. М.В.Ломоносова
· 1995-1996: : ведущий специалист деканата, факультет теоретической и прикладной лингвистики РГГУ

Награды и поощрения

· Благодарность проректора НИУ ВШЭ (июль 2025)
· Почетная грамота факультета гуманитарных наук НИУ ВШЭ (ноябрь 2024)
· Почетная грамота Министерства науки и высшего образования Российской Федерации (ноябрь 2022)
· Благодарность проректора НИУ ВШЭ (ноябрь 2021)
· Благодарность Высшей школы экономики (январь 2017)
· Надбавка за академические достижения и вклад в репутацию НИУ ВШЭ (2017–2019)
· Надбавка за академическую работу (2016–2017)
· Надбавка за публикацию в журнале из Списка B (2025–2026, 2024–2025)
· Надбавка за публикацию в журнале из Списка А (и приравненном к нему научном издании) (2023–2024)
· Надбавка за публикацию в международном рецензируемом научном издании (2022–2023, 2021–2022, 2019–2020)
· Надбавка за статью в зарубежном рецензируемом журнале (2014–2016, 2012–2014)
· Лучший преподаватель — 2019, 2017, 2013

Гранты и проекты

— · Научно-учебная группа «Материалы к частотному словарю русской поэзии»» (Научный фонд НИУ ВШЭ, 2018, руководитель)
2020 · DiAsPol250 «The Development of the Polish Aspect System in the Last 250 Years against the Background of Neighbouring Languages», Beethoven II – Polish-German Funding Initiative (DFG/NCN), 2018-2020, cooperation partner
— · TWIRLL: Targeting Wordforms in Russian Language Learning, грант международного академического сотрудничества Норвежского научного фонда SIU c Университетом Тромсе (CPRU-2017/10027)
2020 · DigiPalSlav: Digital Paleoslavistics, Alexander von Humboldt-Stiftung, Programm zur Förderung von Institutspartnerschaften Abteilung Förderung und Netzwerk, 2018-2020, cooperation partner
2017 · Научно-учебная группа «REALEC для реально необходимых слов» (Научный фонд НИУ ВШЭ, 2016-2017, руководитель)
2018 · Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов (РГНФ, грант № 17-04-12064, 2017-2018, исполнитель)
2016 · Стандарты оценки методов автоматического извлечения информации из текстов (РФФИ, грант № 15-07-09306, 2014-2016, руководитель)
2016 · Развитие Исторических модулей НКРЯ (РГНФ, грант № 15-04-12050, 2015-2016, исполнитель)
2015 · Квантитативное корпусное исследование грамматической категории числа (Научный фонд НИУ ВШЭ, индивидуальный проект, 2014-2015)
2014 · Синтаксическая разметка корпуса со снятой лексико-грамматической омонимией (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2012-2014)
2014 · ФреймБанк: разметка семантических ролей и морфосинтаксического оформления участников фреймов (на базе НКРЯ) (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2012-2014)
2013 · Частотный словарь русской грамматики и лексической сочетаемости (Научный фонд НИУ ВШЭ, индивидуальный проект, 2012 - 2013) Словообразовательная разметка НКРЯ (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2011)
— · Фреймбанк (Программа фундаментальных исследований Президиума РАН "Корпусная лингвистика", 2011)
2012 · От корпуса к словарю: автоматические методы выявления и построения каталога русских конструкций (РФФИ, грант № 10-06-00586а, совместно с О.А.Митрофановой, 2010-2012)
2012 · Exploring Emptiness: Russian Verbal Morphology and Cognitive Linguistics" (Norsk forskningsråd/Норвежского совета научных исследований, грант проекта Лоры Янды и Туре Нессета, 2008 - 2012)
2009 · Топологические типы русских предметных имен (РГНФ, грант № 07-04-00240а, 2007 - 2009)

Конференции (30)

Показать все

· 2025: 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025), 31.07.2025, Вена, Австрия (Вена). Доклад: Rubic2: Ensemble Model for Russian Lemmatization
· 2025: Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2025) (Таллинн). Доклад: The application of corpus-based language distance measurement to the diatopic variation study (on the material of the Old Novgorodian birchbark letters)
· 2024: Русский язык в многоязычном мире (Москва). Доклад: Русский конструктикон как научный и учебный ресурс
· 2022: 6-й Колмогоровский семинар по компьютерной лингвистике и наукам о языке (Москва). Доклад: К задаче разработки версии корпусов НКРЯ с разрешенной неоднозначностью морфологической и синтаксической разметки
· 2022: 46-я школа-конференция ИППИ РАН «Информационные технологии и системы» (ИТиС-2022) (Огниково Московской области). Доклад: Опыт применения моделей-трансформеров для лемматизации современных и исторических текстов русского языка
· 2022: International Conference on Historical Lexicography and Lexicology (ICHLL 2022) (Lorient). Доклад: Automatic collection of parallel thesauri in dictionary/corpus joint system
· 2022: 25th International Conference on Text, Speech, and Dialogue (TSD 2022) (Брно). Доклад: Review of Practices of Collecting and Annotating Texts in the Learner Corpus REALEC
· 2022: 13th Conference on Language Resources and Evaluation (LREC 2022) (Марсель). Доклад: Constructing a Lexical Resource of Russian Derivational Morphology
· 2022: Гаспаровские чтения - 2022 (Москва). Доклад: В стенах кипучих городов: О семантических границах эпитета в свете корпусных данных
· 2021: 27-ая Международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2021» (Москва). Доклад: Adjunct role labeling for Russian
· 2021: XIX EURALEX Congress (Александруполис). Доклад: Revised entries in the multi-volume edition and TEI encoding: a case of the historical dictionary of Russian
· 2021: 11th International Conference on Historical Lexicography and Lexicology (ICHLL 11) (Logroño, La Rioja). Доклад: Example, usage variant, and linking between dictionary and corpus data
· 2021: 11th International Conference on Historical Lexicography and Lexicology (ICHLL 11) (Logroño, La Rioja). Доклад: Lemmatization in corpus-to-dictionary systems: The case study for Old Church Slavonic
· 2021: 18th International Conference on Distributed Computing and Artificial Intelligence (DCAI) (Саламанка). Доклад: Automated Metaphor Identification in Russian and its Implications for Metaphor Studies
· 2021: 11th International Conference SLOVKO 2021: NLP, Corpus Linguistics and Interdisciplinarity (Братислава). Доклад: An HMM-based PoS Tagger for Old Church Slavonic
· 2021: SCLC-2020/2021: The Slavic Cognitive Linguistics Conference (June 3-6, 2021) (Тромсё). Доклад: On syntactic structures in the Russian Constructicon entries and beyond
· 2021: El’Manuscript 2021. Textual heritage and information technologies (Фрайбург). Доклад: Lemmatization of the Middle Russian Corpus within the RNC: Choice of Solutions
· 2021: Slavic aspect and (diachronic) corpora. International workshop (Майнц). Доклад: Profiling the behavior of verbs in the Middle Russian Corpus
· 2021: The 10th International Conference on Analysis of Images, Social Networks and Texts (Тбилиси). Доклад: Sculpting enhanced dependencies for Belarusian
· 2020: 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям (Москва). Доклад: Русский конструктикон: новый лингвистический ресурс, его устройство и специфика
· 2020: 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям (Москва). Доклад: GRAMEVAL 2020 Shared Task: Russian Full Morphology and Universal Dependencies Parsing
· 2019: Digital Transformations & Global Society 2019 (DTGS’2019) (Санкт-Петербург). Доклад: A cross-genre morphological tagging and lemmatization of the Russian poetry: distinctive test sets and evaluation
· 2019: Диалог (25-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям) (Москва). Доклад: A Simple Fingerprint Approach to Extracting the Global Prosodic Properties from Field Data
· 2019: Historical Corpora and Variation (Кальяри). Доклад: Spelling variation and word clusters in the Middle Russian Corpus
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: QUANTITATIVE APPROACHES TO VERSIFICATION (Прага). Доклад: Lexical Diversity and Colour Hues in Russian Poetry: A Corpus-Based Study of Adjectives
· 2019: Межкампусная конференция по Digital Humanities «DH Meet-Up HSE» (Москва). Доклад: Данные поэтического корпуса НКРЯ как объект цифровой культуры
· 2019: Towards a multilingual constructicon: issues, approaches, perspectives (Дюссельдорф). Доклад: Russian Constructicon: clusters, families, and usage scenarios

Идентификаторы исследователя

ORCID: 0000-0001-8374-423X
ResearcherID: E-8855-2014
SPIN РИНЦ: 6340-5599
Google Scholar: https://scholar.google.ru/citations?user=5XzprO8AAAAJ&hl=ru
Scopus AuthorID: 37090988800

Публикации (116)

REALEC learner treebank: annotation principles and evaluation of automatic parsing

2017 · CHAPTER · en

The paper presents a Universal Dependencies (UD) annotation scheme for a learner English corpus. The REALEC dataset consists of essays written in English by Russian-speaking university students in the course of general English. The original corpus is manually annotated for learners’ errors and gives information on the error span, error type, and the possible correction of the mistake provided by experts. The syntactic dependency annotation adds more value to learner corpora since it makes it possible to explore the interaction of syntax and different types of errors. Also, it helps to assess the syntactic complexity of learners’ texts. While adjusting existing dependency parsing tools, one has to take into account to what extent students’ mistakes provoke errors in the parser output. The ungrammatical and stylistically inappropriate utterances may challenge parsers’ algorithms trained on grammatically appropriate academic texts. In our experiments, we compared the output of the dependency parser Ud-pipe (trained on ud-english 2.0) with the results of manual parsing, placing a particular focus on parses of ungrammatical English clauses. We show how mistakes made by students influence the work of the parser. Overall, Ud-pipe performed reasonably well (UAS 92.9, LAS 91.7). We provide the analysis of several cases of erroneous parsing which are due to the incorrect detection of a head, on the one hand, and with the wrong choice of the relation type, on the other hand. We propose some solutions which could improve the automatic output and thus make the syntax-based learner corpus research and assessment of the syntactic complexity more reliable. The REALEC treebank is freely available under the CC BY-SA 3.0 licence.

PDF ↗

Evaluation Tracks on Plagiarism Detection Algorithms for the Russian Language

2017 · CHAPTER · en

The paper presents a methodology and preliminary results for evaluating plagiarism detection algorithms for the Russian language. We describe the goals and tasks of the PlagEvalRus workshop, dataset creation, evaluation setup, metrics, and results.

PDF ↗

Корпусные инструменты в грамматических исследованиях русского языка

2016 · BOOK · ru

Русская корпусная лингвистика представлена в монографии двумя направлениями. Первая часть включает описание подходов и методов аннотации Национального корпуса русского языка (http://ruscorpora.ru), включая разметку лексико-грамматической, лексико-семантической, семантико-синтаксической и словообразовательной информации. Кроме того, описываются процедуры оценки инструментов автоматической разметки текстов (морфологических и синтаксических парсеров) и идеология создания двух частотных корпусных словарей, общего и лексико-грамматического. Во вторую часть входят исследования грамматики и лексики русского языка с применением квантитативных корпусных методов: изучение грамматических, конструкционных и семантических профилей языковых единиц, в том числе глаголов и глагольных приставок, форм числа имен и пространственных конструкций.

PDF ↗

Universal Dependencies for Russian: A New Syntactic Dependencies Tagset

2016 · PREPRINT · en

This paper presents the Universal Dependencies tagset (UD v1) as a new annotation scheme for Russian treebanks. The universal list of dependency relations was adopted and extended to comply with certain language-specific syntactic constructions. The tagset was validated, converting two Russian treebanks into the UD format, UD-Russian-SynTagRus and UD-Russian-Google.

Welcome to the club: Designing the inventory of semantic roles for adjectives

2016 · ARTICLE · en

Предикатно-аргументные конструкции имен прилагательных, в от- личие от глагольных конструкций, чаще всего остаются вне зоны внимания как теоретиков, так и специалистов IT-отрасли. Ставя вопрос о включении семантических ролей прилагательных в общую сеть семантических ролей, прежде всего, важно определиться, образуют ли они отдельную систему или их можно рассматривать как расширение инвентаря ролей глаголов и номинализаций. Для проверки наших предположений о принципиальном устройстве системы адъективных ролей мы провели опрос экспертов, в котором просили оценить сходство между ролями прилагательных и глаголов. Результаты показали, что и семантическая интерпретация ролей, и их морфо-синтаксическое оформление оказывают влияние на оценку, а следовательно, должны быть приняты во внимание при разработке инвентаря. Кроме того, прототипически имена прилагательные имеют стативную семантику, и это находит отражение в том, насколько близкими восприни- маются роли участников при прилагательном и глаголе. Результаты опроса дают также новые данные для проверки и уточнения инвентаря семантических ролей самих глаголов.

PDF ↗

К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв.

2016 · ARTICLE · ru

В работе рассматриваются два подхода к разработке автоматической аннотации корпуса старорусских текстов XV–XVII вв., включенных в Национальный корпус русского языка (НКРЯ). Лексико-грамматическая аннотация состоит в определении части речи, грамматических характеристик и начальной формы слова (леммы) для каждой словоформы корпуса. Язык старорусской письменности совмещает в себе, с одной стороны, черты древнерусского словоизменения, включая формы аориста и имперфекта глагола, формы двойственного числа и другие архаичные формы, а с другой стороны — черты современной русской словоизменительной морфологии. Подобное смешение проявляется и в лексическом составе. Кроме того, в текстах присутствуют церковнославянские, а также диалектные варианты. Если добавить к этому отсутствие устойчивой орфографии, становится понятна вся сложность задачи, связанной с аннотацией старорусских текстов. Первый из рассматриваемых подходов основан на построении электронного словаря старорусского языка и создании модуля обработки орфографической вариативности. В отсутствие открытых электронных ресурсов, документирующих морфологию старорусского периода, за основу был взят электронный словарь церковнославянского языка, разработанный А. Е. Поляковым на базе церковнославянского корпуса НКРЯ. Мы описываем процедуры, связанные с адаптацией именной и глагольной морфологии к данным старорусского корпуса. Второй подход связан с привлечением программы автоматической аннотации текстов русского языка XIX–XX вв., дополненной модулем обработки орфографической вариативности, с одной стороны, и корпуса лексико-грамматических разборов древнерусских текстов, полученных из Исторического корпуса НКРЯ, — с другой. Оба подхода строятся на принципе «широкого покрытия»: автоматический разметчик должен порождать множество разборов таким образом, чтобы хотя бы один разбор был правильным. В статье приводятся результаты экспертизы качества разметки, основанной на указанных подходах, а также обсуждаются возможные пути развития инструментов лексико-грамматической разметки старорусских текстов.

PDF ↗

Создание лексико-грамматической базы для старорусского корпуса НКРЯ

2016 · CHAPTER · ru

Работа посвящена разработке морфологического анализатора для Корпуса старорусской письменности Национального корпуса русского языка (НКРЯ, http://ruscorpora.ru/search-mid_rus.html). Задачи включают составление грамматического словаря, списка словоизменительных парадигм, а также обработку вариативности, представленной в текстах старорусского корпуса.

PDF ↗

Inducing verb classes from frames in Russian: morpho-syntax and semantic roles

2015 · ARTICLE · en

В статье описываются эксперименты по классификации русских глаголов на основе статистических данных, представленных в системе FrameBank (framebank.ru). Хотя лексикологи в основном отказались от мысли, что группы глаголов должны объединяться на основе способности к синтаксическим трансформациям (Apresjan 1967, Levin 1993), оценка близости контекстов по схожей дистрибуции лексики и синтаксических связей по-прежнему остается ведущим критерием для определения лексических типов. Компьютерная лингвистика заимствовала последний подход для получения глагольных классов для английского, немецкого и многих других языков (Dorr and Jones 1996; Lapata 1999; Schulte im Walde; Lenci 2014 и др.), строя векторы лексических и синтаксических признаков на основе корпусов текстов. Наши эксперименты по семантической классификации русских глаголов базируются на статистике двух типов тегов, используемых в аннотации системы ФреймБанк, теге семантической роли и теге морфосинтаксического оформления участника. Поле глаголов речи было структурировано с помощью нескольких вариантов автоматической кластеризации на векторах; затем автоматические результаты мы сравнили с классификацией глаголов в словаре Л. Г. Бабенко (2007) и некоторыми другими построенными вручную классификациями. Классификация глаголов смены посессора была построена с помощью правил и затем была верифицирована относительно сети глагольных фреймов в англоязычной системе FrameNet. Проводится лингвистиче- ский анализ классификаций, получающихся только на морфосинтаксических признаках, только на признаках семантических ролей и клас- сификаций на объединении этих признаков.

PDF ↗

FrameBank: a database of Russian lexical constructions

2015 · CHAPTER · en

Russian FrameBank is a bank of annotated samples from the Russian National Corpus which documents the use of lexical constructions (e.g. argument constructions of verbs and nouns). FrameBank belongs to FrameNet-oriented resources, but unlike Berkeley FrameNet it focuses more on the morphosyntactic and semantic features of individual lexemes rather than the generalized frames, following the theoretical approaches of Construction Grammar (Ch. Fillmore, A. Goldberg, etc.) and of Moscow Semantic School (Ju. D. Apresjan, E. V. Paducheva, etc.).

DOI ↗ PDF ↗

Сorpus--based profiles of Russian nouns: from grammatical number to lexical semantics

2015 · PREPRINT · en

A grammatical profile which indicate the relative frequency distribution of the inflected forms of a word in a corpus is a tool for exploring lexical semantics. However the previous attempts to infer semantically relevant hierarchies of nouns from frequency biases within their grammatical forms seem to have failed. In this paper we explore the distinctive power of grammatical profiles of Russian nouns using the ratio of plural forms as observed in the Russian National Corpus (cf. roditelʼ ʽparentʼ having 95% plural forms and mama ʽmomʼ having just 2% plural forms). We claim that since frequent nouns for the most part are semantically ambiguous, their profiles cannot reveal any straightforward effects for large lexical classes. Instead of working on macro-lexical level we focus on micro-effects within specific taxonomic groups studying grammatical profiles of body part names, kinship terms, names of vehicles and emotions. The analysis involves the notion of functional frames which represent how objects/events are typically used and typically observed. Our case studies prove that grammatical profiles help to structure each group and correlate with certain properties of functional frames associated with nouns.

Курсы (12)

Computer Tools for Linguistic Research · 5 раза

2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Нижний Новгород · Анг
Научно-исследовательский семинар "Анализ и визуализация текстовых данных" · 3 раза

2025/2026, 2024/2025, 2023/2024 · Магистратура · рус
Научно-исследовательский семинар «Интерпретация лингвистических явлений в больших языковых моделях»

2025/2026 · Бакалавриат · рус
Fundamentals of Corpus Research

2025/2026 · Магистратура / Маго-лего · Анг
Программирование и лингвистические данные · 5 раза

2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
Теоретическая и прикладная лексикография · 4 раза

2025/2026, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
Корпусная лингвистика · 3 раза

2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · рус
Мастер-классы

2024/2025 · Магистратура · рус
Научно-исследовательский семинар "Нейросетевое моделирование длинных языковых единиц"

2024/2025 · Бакалавриат · рус
Дополнительные главы корпусной лингвистики

2023/2024 · Магистратура / Маго-лего · рус
Анализ и визуализация текстовых данных

2022/2023 · Магистратура · рус
Научно-исследовательский семинар "Корпусная лингвистика и изучение иностранных языков"

2022/2023 · Нижний Новгород · рус