Клышинский Эдуард Станиславович
Московский институт электроники и математики им. А.Н. Тихонова
Профессиональные интересы
Должности
- Доцент — Московский институт электроники и математики им. А.Н. Тихонова, Департамент компьютерной инженерии
- Заведующий лабораторией — Факультет гуманитарных наук, Научно-учебная лаборатория учебных корпусов
- Профессор — Факультет гуманитарных наук, Школа лингвистики
- Академический руководитель образовательной программы — Компьютерная лингвистика
Био
- · Начал работать в НИУ ВШЭ в 2012 году.
- · Научно-педагогический стаж: 28 лет.
Образование
- 2025 · Доктор филологических наук: Национальный исследовательский университет "Высшая школа экономики"
- 2003 · Ученое звание: Доцент
- 2000 · Кандидат наук: Московский государственный институт электроники и математики, специальность 05.13.12 «Системы автоматизации проектирования», тема диссертации: Проектирование элементов принятия решений в имитационных моделях бизнес-систем
- 1997 · Специалитет: Московский государственный институт электроники и математики, факультет: ФИТ, специальность «Системы автоматизированного проектирования», квалификация «Инженер-системотехник»
Опыт работы
- · 1997-2000: обучение в аспирантуре
- · 2000-2001: старший преподаватель кафедры ИТАС МГИЭМ
- · 2001-2018: доцент МГИЭМ / МИЭМ НИУ ВШЭ
- · 2018-н/в - доцент школы лингвистики ФГН НИУ ВШЭ
Награды и поощрения
- · Почетная грамота факультета гуманитарных наук НИУ ВШЭ (ноябрь 2024)
- · Благодарность проректора НИУ ВШЭ (ноябрь 2023)
- · Благодарность факультета гуманитарных наук НИУ ВШЭ (май 2022)
- · Благодарственное письмо проректора НИУ ВШЭ (ноябрь 2021)
- · Персональная надбавка ректора (2017–2018)
- · Надбавка за академическую работу (2016–2017, 2015–2016, 2014–2015, 2013–2014, 2012–2013)
- · Лучший преподаватель — 2024–2025, 2021–2022, 2016–2019, 2014
- · Лучший академический руководитель в номинации «Межфакультетское взаимодействие» — 2023
Гранты и проекты
- — · на соискание учёной степени кандидата наук
Конференции (1)
Показать все
- · 2021: Корпусная лингвистика 2021 (Санкт-Петербург). Доклад: Автоматическое выделение конструкций для поверхностного синтаксического анализа
Идентификаторы исследователя
- ORCID:
0000-0002-4020-488X - ResearcherID:
K-6534-2015 - SPIN РИНЦ:
2185-5292 - Google Scholar: https://scholar.google.ru/citations?user=LCFX17gAAAAJ&hl=ru&oi=ao
- Scopus AuthorID:
56397131900
Публикации (57)
Цифровой архив литературного журнала с дореформенной орфографией «Отечественные Записки» (1839-1884)
2021 · ARTICLE · ru
В данной статье представлена начальная версия цифрового архива литературного журнала с дореформенной орфографией «Отечественные Записки». Корпус содержит десять томов, размеченных в формате XML, и насчитывает более 2 млн слов. Для доступа к архиву разработан веб-интерфейс, с помощью которого пользователи смогут проводить поиск по корпусу, скачивать тома «Отечественных Записок» в машиночитаемом формате и редактировать выпуски журнала в режиме онлайн. В будущем планируется расширить цифровой архив и добавить возможность переключать режимы орфографии, с дореформенной на современную.
Количественная оценка грамматической неоднозначности некоторых европейских языков
2020 · ARTICLE · ru
Неоднозначность слов по их грамматическим характеристикам является хорошо исследованной областью, однако существующие методы ее оценки в текстах на различных естественных языках являются скорее количественными, чем качественными. В данной статье предлагается разделение всех слов на несколько классов неоднозначности. Подобное разделение позволяет ввести количественный метод оценки, основанный на расчете статистики употребления слов. В статье проводится исследование неоднозначности для таких языков как английский, немецкий, шведский, испанский, каталанский, французский, итальянский, португальский, русский, польский, словенский, турецкий. Было численно показано, что распределение слов по классам неоднозначности зависит от выбранного корпуса или системы морфологического анализа, однако остается уникальным для заданного языка. Так, славянские языки, а также французский и итальянский, обладают самой низкой частотой слов, неоднозначных по части речи. Наибольшей неоднозначностью по грамматическим параметрам обладают также славянские языки, немецкий и шведский. Была обнаружена зависимость неоднозначности от частотности слова. В статье показывается, что наибольшей степенью омонимии обладают слова из первой тысячи самых частотных слов. Для большинства исследованных языков при снижении частоты слов также падает и процент слов, неоднозначных по части речи. Учет разных классов омонимии позволяет более корректно проводить оценку систем снятия неоднозначности, применяемых для разных языков. Обычно сравнение проводится на всем тексте, тогда как мы предлагаем сравнивать результаты только на неоднозначных словах, так как их процент существенно отличается от языка к языку. Наши эксперименты, не вошедшие в данную статью, показали, что учет класса неоднозначности позволяет несколько улучшить работу системы автоматического снятия омонимии.
Evaluation of Vector Transformations for Russian Word2Vec and FastText Embeddings
2020 · CHAPTER · en
Authors of Word2Vec claimed that their technology could solve the word analogy problem using the vector transformation in the introduced vector space. However, the practice demonstrates that it is not always true. In this paper, we investigate several Word2Vec and FastText model trained for the Russian language and find out reasons of such inconsistency. We found out that different types of words are demonstrating different behavior in the semantic space. FastText vectors are tending to find phonological analogies, while Word2Vec vectors are better in finding relations in geographical proper names. However, we found out that just four out of fifteen selected domains are demonstrating accuracy more that 0.8. We also draw a conclusion that in a common case, the task of word analogies could not be solved using a random word pair taken from two investigated categories. Our experiments have demonstrated that in some cases the length of the vectors could differ more than twice. Calculation of an average vector leads to a better solution here since it closer to more vectors.
Алгоритм автоматического выделения жалоб пациентов из историй болезни
2019 · CHAPTER · ru
В настоящее время медицинские организации накапливают большой объем неструктурированной информации о пациентах, для обработки которой требуются алгоритмы формализации текста. Примером такой задачи является автоматическое извлечение жалоб пациентов и их характеристик из текстов историй болезни. В данной работе предлагается алгоритм, использующий синтаксический анализ текста истории болезни, с дальнейшим уточнением семантики при помощи онтологии, содержащей описание жалоб в формализованном виде. Алгоритм апробирован на данных 3 тыс. историй болезни отделения нейрохирургии.
QUANTITATIVE EVALUATION OF SYNTAX SIMILARITY
2019 · ARTICLE · en
Machine learning systems are facing problem of incomparability of their results in case of different languages; one of the subarea here is quantitative analysis of syntax. In this paper, we introduce a new quantitative method based on statistics of words co-occurrence in syntactically tagged corpora. The method allows quantitatively evaluate difference and similarity among languages, select most influential phenomena. Experimental setup consists materials for more than 50 languages. Our experiments demonstrate that the introduced method correctly cluster languages among language families.
Проблемы обработки естественного языка в диалоговых системах
2019 · ARTICLE · ru
Диалоговые системы (ДС) – на сегодняшний день одна из самых стремительно развивающихся и перспективных областей искусственного интеллекта. Исследования в этой области вызывают интерес как научного сообщества, так и индустрии, где все чаще говорят о внедрении интеллектуальных агентов с разговорным интерфейсом. Одним из наиболее обсуждаемых направлений развития ДС последнего времени является реализация возможности интеллектуального агента поддерживать непринужденный диалог с пользователем на общие темы и при этом точно определять его намерения, выполняя поставленные задачи. Ключевой проблемой при разработке такого диалогового агента является понимание системой разговорного языка при сохранении контекста диалога. В данной статье представлен обзор типов диалоговых систем, особенности их современной архитектуры и перспективы развития. Обозначены проблемы понимания естественного языка в преломлении на специфику ДС, описаны основные методы и библиотеки обработки. Уделено внимание понятию диалога, проанализированы особенности человеко-машинного дискурса и кратко рассмотрены подходы к оценке качества ДС.
Метод выделения коллокаций с использованием степенного показателя в распределении Ципфа
2018 · CHAPTER · ru
Для выделения из коллокаций текста мы предлагаем использовать степенной показатель распределения Ципфа. Для этого предлагается рассчитывать распределение Ципфа для фиксированного слова и его соседей. В статье проводится исследование получаемых результатов для таких пар как прилагательное+существительное, существительное+глагол и др. Предложенный метод сравнивается с результатами расчета меры MI.
The Corpus of Syntactic Co-occurences: the First Glance
2017 · CHAPTER · en
Modern corpora provide suitable access to the stored data. However, they are convenient rather for researchers than for students learning a foreign language and not familiar with the corpus linguistics. Therefore, we set the task of creating a corpus, which contains information on words co-occurrence, their syntactical relations and their government for the Russian language.
Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие
2017 · BOOK · ru
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
A robot commenting texts in an emotional way
2017 · ARTICLE · en
This paper is dedicated to modeling emotional reactions on a computer agent and a robot. The affective agent software is processing a natural language text (currently in Russian) with a syntactic parser and it operates with semantic structures. The latter represent sentences or events meanings and consist of valencies with semantic markers in each. Basing on input semantic structures, the agent changes its emotional state over time, generating expressive remarks along with gestures. The reactions subsystem operates with emotional criteria and matches the input semantic representation to scenarios from its database, consequently, it selects relevant reactions from a set of multimodal templates. A model of the emotional process is discussed, and observations based on a multimodal corpus of human emotional expressive cues are applied to synthesize combined reactions expressed in gestures, mimics (eyes and eyebrows) and text. The reactions synthesized are passed to a robot control subsystem and then rendered on a robot. © Springer International Publishing AG 2017.
Курсы (16)
-
SQL и noSQL базы данных · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего / Пермь · рус
-
Интеллектуальная обработка данных · 5 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023, 2021/2022 · Бакалавриат · рус
-
Математика для лингвистов · 3 раза
2025/2026, 2024/2025, 2023/2024 · Бакалавриат / Дисциплина общефакультетского пула · рус
-
Объектно-ориентированное программирование · 3 раза
2025/2026, 2024/2025, 2023/2024 · Бакалавриат · рус
-
Объектно-ориентированное программирование на языке Python · 4 раза
2025/2026, 2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · рус
-
Семинар наставника · 3 раза
2025/2026, 2024/2025, 2023/2024 · Магистратура · рус
-
Информационный поиск · 3 раза
2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · рус
-
Теория формальных языков для текста и коммуникации · 3 раза
2024/2025, 2023/2024, 2022/2023 · Магистратура / Маго-лего · рус
-
Цифровая гуманитаристика
2024/2025 · Бакалавриат · рус
-
45.04.03. Фундаментальная и прикладная лингвистика · 2 раза
2023/2024, 2022/2023 · Магистратура · рус
-
Информационный поиск и базы данных · 2 раза
2022/2023, 2021/2022 · Бакалавриат · рус
-
Научно-исследовательский семинар "Digital Humanities"
2022/2023 · Магистратура / Пермь · рус
-
Нереляционные базы данных · 2 раза
2022/2023, 2021/2022 · Бакалавриат · рус
-
Introduction to Scientific Computing
2021/2022 · Магистратура · Анг
-
Основы баз данных
2021/2022 · Магистратура · рус
-
Программирование (язык Python)
2021/2022 · язык Python · рус