Орехов Борис Валерьевич

Факультет гуманитарных наук

Профиль на hse.ru ↗ тел.: +7 (495) 772-9590 доб. 22724

Публикаций

109

Языков

Наград

Конференций

Профиль Публикации (109) Курсы (11)

Профессиональные интересы

16.21.65 Лексикография16.21.47 Лексикология. Терминоведение17.00.00 Литература. Литературоведение. Устное народное творчество16.31.61 Приложение языкознания к другим наукам16.31.21 Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи28.23.00 Искусственный интеллект

Должности

Доцент — Факультет гуманитарных наук, Школа лингвистики

Био

· Начал работать в НИУ ВШЭ в 2013 году.
· Научно-педагогический стаж: 20 лет.

Образование

2008 · Кандидат филологических наук: Воронежский государственный университет, специальность 10.01.01 «Русская литература», тема диссертации: Принципы организации мотивной структуры в лирике Ф. И. Тютчева
2005 · Специалитет: Башкирский государственный университет, факультет: филологический, специальность «Филология», квалификация «Магистр филологии»
2003 · Бакалавриат: Башкирский государственный университет, факультет: филологический, специальность «Русский язык и литература»

Опыт работы

· 2013: Начал работать как библиотекарь, затем (2004-2011) преподавал дисциплины литературоведческого цикла в ВЭГУ (Восточная академия экономики, гуманитарных наук, управления и права), Башкирском государственном педагогическом университете (г. Уфа). С года в Вышке занят преподаванием программирования и Digital Humanities
· Как научный работник привлекался в Башкирском университете, университете Осло, Университете Ниццы, РАНХиГС, СПбГУ, МГУ.

Награды и поощрения

· Почетная грамота факультета гуманитарных наук НИУ ВШЭ (ноябрь 2024)
· Благодарность проректора НИУ ВШЭ (ноябрь 2023)
· Благодарность Факультета гуманитарных наук НИУ ВШЭ (декабрь 2020)
· Благодарность первого проректора НИУ ВШЭ (декабрь 2017)
· Надбавка за академические достижения и вклад в репутацию НИУ ВШЭ (2020–2022)
· Надбавка за академическую работу (2017–2018, 2016–2017, 2014–2015)
· Надбавка за публикации, вносящие особый вклад в международную научную репутацию НИУ ВШЭ (2024–2027)
· Надбавка за публикацию в международном рецензируемом научном издании (2022–2023, 2021–2022)
· Лучший преподаватель — 2022, 2018
· Победитель Конкурса лучших русскоязычных научных и научно-популярных работ работников НИУ ВШЭ – 2024, 2023, 2021
· Лучший академический руководитель в номинации «Межфакультетское взаимодействие» — 2023

Гранты и проекты

— · на соискание учёной степени кандидата наук

Идентификаторы исследователя

ORCID: 0000-0002-9099-0436
ResearcherID: LSL-3714-2024
SPIN РИНЦ: 1668-7217
Google Scholar: https://scholar.google.ru/citations?user=EMcL0ioAAAAJ&hl=en
Scopus AuthorID: 24577640400

Публикации (109)

Количественная атрибуция и «бахтинский круг»: проблема авторства в интеллектуальных сообществах

2026 · ARTICLE · ru

Одним из центральных вопросов бахтинистики стал «бахтинский вопрос», в рамках которого тексты, подписанные именами В.Н. Волошинова, П.Н. Медведева и И.И. Канаева, предположительно атрибутируются М.М. Бахтину. Речь идёт не о единичных случаях, а о значимом массиве произведений: от небольших рецензий и очерков до крупных «программных» текстов. В настоящей работе мы решаем задачу установления авторства спорных текстов с использованием методики Delta: мы сравниваем межтекстовые расстояния, вычисленные на основе распределения наиболее частотных слов. При таком подходе оказывается, что произведения, принадлежащие одному автору, имеют наименьшее значение расстояния между собой. Исследователи ранее высказывали предположение, что сходство спорных и оригинальных текстов Бахтина может быть обусловлено их принадлежностью к одному интеллектуальному кругу. Мы проверяем эту идею эмпирически и приходим к выводу, что влияние научной школы не стирает авторский «почерк» — даже в тесных интеллектуальных сообществах сохраняются устойчивые индивидуальные черты стиля. Мы проверяем наличие «эффекта школы» на материале четырёх интеллектуальных сообществ: Женевская школа, Московская фонологическая школа, йенский романтизм и ОПОЯЗ. В состав исследовательских корпусов включены надёжно атрибутированные тексты. Применение методики к спорным текстам Бахтинского круга показывает, что полученная карта расстояний и топология ближайших соседей дают дополнительные основания включать ключевые спорные работы в корпус наследия М.М. Бахтина.

DOI ↗ PDF ↗

Digital Humanities and Literary Realism

2025 · CHAPTER · en

This chapter investigates literary prose of the realist era in Russia using digital humanities methods. It focuses on how computational analysis can enhance an understanding of descriptions of literary characters, geographical locations, and lexical composition in literary texts. Using a corpus of more than five hundred texts (forty-six million word occurrences), it eschews the focus on individual writers and puts Russian realism within the broader context of nineteenth-century Russian literature. The authors employed word embeddings and vector semantics to analyze character descriptions in realist literature. The results indicated that the “typical” aspects of literary characters often overshadowed their individuality, reflecting the realist focus on common human experiences. The study utilized geocoding techniques to map mentions of geographical locations within the texts. This analysis showed that realist literature turned from portraying historical (and largely mythical) settings of Muscovite Rus’, Poland, Ukraine, and the Baltics to the then-new capital Saint Petersburg, to western Europe, and to the “new” eastern and southern peripheries of the Russian Empire as it continued to expand. With the help of a contrastive corpus analysis approach the authors examined the general lexical composition of the texts. This analysis showed that realist prose diverges from its romantic predecessor in its higher degree of dialogism, focusing more attention on depictions of everyday life, and in more explicit portrayal of thought, conscience, and human experience. However, it also showed that the poetry of the realist era did not undergo the same transition and maintained much of the romantic aesthetics, remaining a refuge for more conservative genres.

DOI ↗ PDF ↗

Параллельный корпус переводов «Слова о полку Игореве» как проект

2025 · ARTICLE · ru

В статье описывается предпосылки и история филологического цифрового проекта, поддерживаемого уже более 15 лет. В его основе лежала идея сравнения переводов «Слова о полку Игореве», самого переводимого на русский язык произведения мировой литературы. Однако по мере складывания практик использования ресурса, стало очевидно, что он востребован у пользователей только как библиотека текстов. Корпус действительно содержит множество оцифрованных (иногда даже редких) произведений переводческого искусства. В процессе разработки проекта пришлось отказаться от ряда технических решений, таких, как автоматическое и полуавтоматическое выравнивание. Несмотря на цифровой статус, ручного труда на создание корпуса употреблено больше, чем применения технологий.

DOI ↗ PDF ↗

20 лет цифровых гуманитарных проектов: мотивация и риски

2025 · CHAPTER · ru

В главе подводится итог 20-летней работе над созданием цифровых гуманитарных проектов

PDF ↗

Открытые компьютерные инструменты для решения задач оцифровки и анализа русскоязычного текста в области Digital Humanities

2025 · ARTICLE · ru

В статье дается обзор не очень известных модулей, которые можно использовать для решения задач Digital Humanities, связанных с текстовым анализом и оцифровкой. К таким модулям отнесены те, которые облегчают оцифровку текстов, напечатанных в дореформенной орфографии (OCR-модель и конвертер в новую орфографию), акцентуатор, расставляющий ударения, детектор прямой речи, код, позволяющий оценить формульность фольклорного текста, конвертер для формата TEI. В этом же ряду представлен модуль, облегчающий обработку текста для публикации в настоящем журнале.

DOI ↗ PDF ↗

Национальный корпус русского языка 2.0: новые возможности и перспективы развития

2024 · ARTICLE · ru

В статье подводятся итоги проекта фундаментальной реконструкции и модернизации платформы Национального корпуса русского языка, осуществленного в 2020-2023 годах. В фокусе статьи новые возможности, которые открываются для лингвистов и более широкой аудитории, в частности, улучшение репрезентативности имеющихся корпусов, создание новых корпусов, новая разметка, полученная с помощью применения нейросетевых моделей, новые интерфейсные решения. Более детально рассматриваются три ярких новых компонента: ресурсный – новый Корпус социальных сетей, поисковый – Панхронический корпус, объединяющий поиск по корпусам разных периодов, и аналитический – функциональный комплекс статистики и визуализации данных.

DOI ↗ PDF ↗

Язык Л. Н. Толстого: корпусный подход и интроспекция

2024 · ARTICLE · ru

В середине XX в. внимательный читатель и ценитель русской литературы Александр Биск, находившийся в тот момент в эмиграции, публикует статью в журнале, специализирующемся на проблемах преподавания русского языка для иностранцев. В этой статье он делится результатами медленного чтения произведений Л. Н. Толстого, прежде всего, романа «Война и мир». Опираясь на собственные представления о языковой норме и личные стандарты художественного вкуса, Биск обобщает наблюдения над особенностями стиля Толстого, отличающими его от других авторов первого ряда. Он отмечает стремление Толстого дистанцироваться от языковых штампов, полагает индивидуализированными некоторые обороты вроде «строить инструменты», «вступиться в разговор», обращает внимание на нетипичные для языка возвратные формы некоторых глаголов. Достоинством этой статьи является ее проверяемость. А. Биск представляет наблюдения над языком Толстого как череду примеров, не характерных для других авторов. Особое внимание Биск уделяет противопоставлению писателей первого ряда и писателей второго ряда. При том что Толстой принадлежит к первым, его язык кажется Биску больше похожим на язык вторых. Проверка по корпусу не подтверждает большинства высказанных Биском положений. Практически все найденные им словоупотребления встречаются и в языке современников Толстого, и в текстах писателей первого ряда

DOI ↗ PDF ↗

Does Delta really confirm that Rowling and Galbraith are the same author?

2024 · PREPRINT · en

PDF ↗

How does Burrows' Delta work on medieval Chinese poetic texts?

2024 · PREPRINT · en

Burrows' Delta was introduced in 2002 and has proven to be an effective tool for author attribution. Despite the fact that it was applied to different languages, they mostly belong to the same grammatical type and use the same graphic principle to convey speech in writing: a phonemic alphabet with word separation using spaces. The question I want to address in this article is how well this attribution method works with texts in a language with a different grammatical structure and a script based on different principles. There are fewer studies analyzing the effectiveness of the Delta method on Chinese texts than on texts in European languages. I believe that such a low level of attention to Delta from sinologists is due to the structure of the scientific field dedicated to medieval Chinese poetry. Clustering based on intertextual distances worked flawlessly. Delta produced results where clustering showed that the samples of one author were most similar to each other, and Delta never confused different poets. Despite the fact that I used an unconventional approach and applied the Delta method to a language poorly suited for it, the method demonstrated its effectiveness. Tang dynasty poets are correctly identified using Delta, and the empirical pattern observed for authors writing in European standard languages has been confirmed once again.

PDF ↗

You shall know a piece by the company it keeps. Chess plays as a data for word2vec models

2024 · PREPRINT · en

In this paper, I apply linguistic methods of analysis to non-linguistic data, chess plays, metaphorically equating one with the other and seeking analogies. Chess game notations are also a kind of text, and one can consider the records of moves or positions of pieces as words and statements in a certain language. In this article I show how word embeddings (word2vec) can work on chess game texts instead of natural language texts. I don't see how this representation of chess data can be used productively. It's unlikely that these vector models will help engines or people choose the best move. But in a purely academic sense, it's clear that such methods of information representation capture something important about the very nature of the game, which doesn't necessarily lead to a win.

PDF ↗

Курсы (11)

Дигитализация гуманитарного знания · 5 раза

2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Аспирантура / Аспирантура направление: 00.00.00. Аспирантура / Аспирантура направление: 45.06.01. Языкознание и литературоведение · рус
Семинар наставника "Digital Humanities" · 3 раза

2025/2026, 2024/2025, 2023/2024 · Магистратура · рус
Программирование · 4 раза

2024/2025, 2023/2024, 2022/2023, 2021/2022 · Аспирантура / Аспирантура направление: 00.00.00. Аспирантура / Аспирантура направление: 45.06.01. Языкознание и литературоведение · рус
Количественные исследования в гуманитарных науках: критическое введение

2023/2024 · Дисциплина общефакультетского пула · рус
Мастер-классы

2023/2024 · Магистратура · рус
Проектно-исследовательский семинар "Цифровые проекты" · 3 раза

2023/2024, 2022/2023, 2021/2022 · Магистратура · рус
Семинар наставника · 2 раза

2023/2024, 2022/2023 · Магистратура · рус
Научно-исследовательский семинар "Digital Humanities"

2022/2023 · Магистратура / Пермь · рус
Программирование (язык Python)

2021/2022 · язык Python · рус
Проектно-исследовательский семинар "Проектирование цифровых гуманитарных ресурсов и систем"

2021/2022 · Магистратура · рус
Цифровые гуманитарные науки

2021/2022 · Магистратура · рус