DSA Faculty
API
← к списку преподавателей

Миркин Борис Григорьевич

Факультет экономических наук

Профиль на hse.ru ↗ тел.: +7(499) 152-0151 | 27776 | +7(963) 723-4021
Публикаций
147
Языков
2
Наград
14
Конференций
3
Профиль Публикации (147) Курсы (6)

Профессиональные интересы

математические методы анализа

Должности

  • Ведущий научный сотрудникФакультет экономических наук, Международный центр анализа и выбора решений
  • ПрофессорФакультет компьютерных наук, Департамент анализа данных и искусственного интеллекта

Био

  • · Начал работать в НИУ ВШЭ в 2008 году.
  • · Научно-педагогический стаж: 51 год.

Образование

  • 1990 · Доктор наук: Институт системных исследований АН СССР и ГКНТ, специальность 05.13.01 «Системный анализ, управление и обработка информации», тема диссертации: Матрично-аппроксимационный подход к анализу разнотипной информации
  • 1975 · Старший научный сотрудник
  • 1975 · Ученое звание: Доцент
  • 1966 · Кандидат наук: специальность 01.01.06 «Математическая логика, алгебра и теория чисел», тема диссертации: Некоторые построения в алгебре событий
  • 1964 · Специалитет: Саратовский государственный университет им. Н.Г. Чернышевского, специальность «Математика», квалификация «Математик»

Опыт работы

  • · 1967-1982: Мнс, снс (1968), зав. сектором (1975) Институт Экономики и организации промышленного производства СО АН СССР, г. Новосибирск
  • · 1982-2000: Снс, внс (1989) Центральный экономико-математический институт РАН РФ, г. Москва
  • · 2000-2008: Профессор Биркбек колледж Лондонского университета, Лондон, Великобритания
  • · 2008-н.вр. Профессор Национальный исследовательский университет Высшая школа экономики, г. Москва, РФ
  • · Совместительство
  • · 1970-1982: Доцент Кафедра мат. методов в экономике, Новосибирский госуниверситет МВССО РФ, г. Новосибирск
  • · 1984-1991: Доцент Кафедра высшей математики и статистики, Высшая школа профдвижения ВЦСПС СССР, г. Москва
  • · 2008-2010: Профессор Биркбек колледж Лондонского университета, г. Лондон, Великобритания
  • · 2009-2024 г.: Внс Международная лаборатория анализа и выбора решений, НИУ ВШЭ, г. Москва, РФ

Награды и поощрения

  • · Благодарность НИУ ВШЭ (апрель 2025)
  • · Почетная грамота Министерства науки и высшего образования Российской Федерации (июль 2023)
  • · Медаль "Признание - 15 лет успешной работы" НИУ ВШЭ (декабрь 2022)
  • · Почетный знак II степени Высшей школы экономики (март 2018)
  • · Почётная грамота Факультета компьютерных наук НИУ ВШЭ (декабрь 2017)
  • · Почетная грамота Высшей школы экономики (декабрь 2016)
  • · Премия Высшей школы экономики "Золотая Вышка" (декабрь 2012)
  • · Благодарность Высшей школы экономики (ноябрь 2012)
  • · Надбавка за публикацию в международном рецензируемом научном издании (2020–2021, 2018–2020)
  • · Надбавка за регулярные публикации в международных рецензируемых научных изданиях (2021–2026)
  • · Надбавка за статью в зарубежном рецензируемом журнале (2015–2017, 2013–2015, 2011–2013)
  • · Надбавка за статью в зарубежном рецензируемом научном издании (2016–2018)
  • · Лучший преподаватель — 2013, 2011
  • · Лауреат премии "Золотая Вышка" 2012 в номинации Достижения в науке

Гранты и проекты

  • · на соискание учёной степени кандидата наук

Конференции (3)

Показать все
  • · 2021: 2021 IEEE International Conference on Artificial Intelligence and Big Data Analytics (Bandung). Доклад: Method for Taxonomic Content-Analysis of Text Collections
  • · 2020: Научно-практическая конференция "Наука о данных" (Санкт-Петербург). Доклад: Наука о данных и статистика: история, содержание, перспективы
  • · 2015: Systems Analysis 2015 (Vienna). Доклад: Data Summarization at Clustering and Ranking

Идентификаторы исследователя

Публикации (147)

Bisecting K-Means and 1D Projection divisive clustering: a unified framework and experimental comparison

2015 · ARTICLE · en

The paper presents a least squares framework for divisive clustering. Two popular divisive clustering methods, Bisecting K-Means and Principal Direction Division, appear to be versions of the same least squares approach. The PDD recently has been enhanced with a stopping criterion taking into account the minima of the corresponding one-dimensional density function (dePDDP method). We extend this approach to Bisecting K-Means by projecting the data onto random directions and compare thus modified methods. It appears the dePDDP method is superior at datasets with relatively small numbers of clusters, whatever cluster intermix, whereas our version of Bisecting K-Means is superior at greater cluster numbers with noise entities added to the cluster structure.

Triadic Formal Concept Analysis and triclustering: searching for optimal patterns

2015 · ARTICLE · en

This paper presents several definitions of “optimal patterns” in triadic data and results of experimental comparison of five triclustering algorithms on real-world and synthetic datasets. The evaluation is carried over such criteria as resource efficiency, noise tolerance and quality scores involving cardinality, density, coverage, and diversity of the patterns. An ideal triadic pattern is a totally dense maximal cuboid (formal triconcept). Relaxations of this notion under consideration are: OAC-triclusters; triclusters optimal with respect to the least-square criterion; and graph partitions obtained by using spectral clustering. We show that searching for an optimal tricluster cover is an NP-complete problem, whereas determining the number of such covers is #P-complete. Our extensive computational experiments lead us to a clear strategy for choosing a solution at a given dataset guided by the principle of Pareto-optimality according to the proposed criteria.

Refining a Taxonomy by Using Annotated Suffix Trees and Wikipedia Resources

2015 · ARTICLE · en

A step-by-step approach to taxonomy construction is presented. On the first step, the upper layer frame of taxonomy is built manually according to educational materials. On the next steps, the frame is refined at a chosen topic using the Wikipedia category tree and articles, both cleaned of noise. Our main tool in this is a naturally defined string-to-text relevance score, based on annotated suffix trees. The relevance scoring is used at several tasks: (1) cleaning the Wikipedia tree or page set of noise; (2) allocating Wikipedia categories to taxonomy topics; (3) deciding whether an allocated category should be included as a child to the taxonomy topic, etc. The resulting fragment of taxonomy consists of three parts: the manually set upper layer topic, the adopted part of the Wikipedia category tree and Wikipedia articles as leaves. Every leaf is assigned a set of so-called descriptors; these are phrases explaining aspects of the leaf topic. The method is illustrated by its application to two domains in the area of Mathematics: (a) “Probability theory and mathematical statistics”, (b) “Numerical mathematics” (both in Russian).

A seed expanding cluster algorithm for deriving upwelling areas on sea surface temperature images

2015 · ARTICLE · en

In this paper a novel clustering algorithm is proposed as a version of the Seeded Region Growing (SRG) approach for the automatic recognition of coastal upwelling from Sea Surface Temperature (SST) images. The new algorithm, One Seed Expanding Cluster (SEC), takes advantage of the concept of approximate clustering due to Mirkin (1996, 2013) to derive a homogeneity criterion in the format of a product rather than the conventional difference between a pixel value and the mean of values over the region of interest. It involves a boundary-oriented pixel labeling so that the cluster growing is performed by expanding its boundary iteratively. The starting point is a cluster consisting of just one seed, the pixel with the cold est temperature. The baseline version of the SEC algorithm uses the Otsu’s thresholding method to fine-tune the homogeneity threshold. Unfortunately, this method does not always lead to a satisfactory solution. Therefore, we introduce a self-tuning version of the algorithm in which the homogeneity threshold parameter is abolished and the similarity threshold derived from the approximation criterion also serves as a homogeneity parameter.

Three Aspects of the Research Impact by a Scientist: Measurement Methods and an Empirical Evaluation

2015 · CHAPTER · en

Three different approaches for evaluation of the research impact by a scientist are considered. Two of them are conventional ones, scoring the impact over (a) citation metrics and (b) merit metrics. The third one relates to the level of results. It involves a taxonomy of the research field, that is, a hierarchy representing its composition. The impact is evaluated according to the taxonomy ranks of the subjects that have emerged or have been crucially transformed due to the results by the scientist under consideration Mirkin (Control Large Syst Spec Issue 44:292–307, 2013). To aggregate criteria in approaches (a) and (b) we use an in-house automated criteria weighting method oriented towards as tight a representation of the strata as possible Orlov (Bus Inf, 2014). To compare the approaches empirically, we use publicly available data of about 30 scientists in the areas of data analysis and machine learning. As our taxonomy of the field, we invoke a corresponding part of the ACM Computing Classification System 2012 and slightly modify it to better reflect results by the scientists in our sample. The obtained ABC stratifications are rather far each other. This supports the view that all the three approaches (citations, merits, taxonomic rank) should be considered as different aspects, and, therefore, a good method for scoring research impact should involve all the three.

Введение в анализ данных: учебник и практикум для бакалавриата и магистратуры

2014 · BOOK · ru

Анализ данных — предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества конкретных данных о совокупностях объектов, таких как страны или регионы, веб-сайты, работодатели и работники, товары и продавцы. В отличие от классической математической статистики анализ данных не пытается вывести свойства окружающего мира исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, закономерностей, структуры в имеющихся данных. В данном учебнике, подготовленном на основе большого международного опыта исследований и преподавания, излагаются основные методы анализа данных, относящихся прежде всего к одному или двум изучаемым признакам. Подробно рассмотрены вопросы анализа и интерпретации связей между двумя количественными, двумя качественными, а также качественным и количественным признаками. Из многомерных методов рассмотрены наивный Бэйесовский классификатор и метод K-средних для кластерного анализа, включая «интеллектуальную» версию с автоматическим определением числа кластеров и их начального местоположения. Изложение ориентировано на людей, предпочитающих не формулы, а вычисления, и содержит большое количество иллюстративных примеров применения рассматриваемых понятий к анализу реальных данных. Для студентов бакалавриата и магистратуры инженерно-технических специальностей, также может использоваться для самостоятельного изучения.

Conceptual maps: construction over a text collection and analysis

2014 · CHAPTER · en

A method for conceptual maps construction is presented and applied to three different domains. A conceptual map is graph, where nodes stand for domain specific concepts and edges connect associated concepts. The conceptual map reveals and visualizes the logical asso- ciations between concepts, which exist in the collection of texts, used to construct the conceptual map. Preliminary work on conceptual map analysis is suggested.

Система автоматической обработки русскоязычных текстов

2014 · ARTICLE · ru

Повышенное внимание к проблеме АОТ на естественных языках и появление новых методик анализа данных -- одна из главных тенденций ИТ-индустрии. Однако на сегодняшний день нет единого подхода к решению задачи обобщения и визуализации больших объемов текстовых данных. В основе системы LM Monitor (Latent Meaning Monitor) лежит идея использования графа референций, что в некотором смысле близко к контент-анализу, однако если в последнем речь идет об изучении распределения категорий, то в LM Monitor — об их связанных парах.

RESEARCH IMPACT: LEVEL OF RESULTS, CITATION, MERIT

2014 · PREPRINT · en

This report elaborates on an approach to measuring of the level of research results recently proposed by one of the co-authors. The approach involves a taxonomy of the research domain, that is, a hierarchy representing the domain’s structure. The level of results is evaluated according to the taxonomy ranks of the subjects that have emerged or have been crucially transformed due to the results by the scientist under consideration. We also consider two more conventional approaches for scoring the research impact over (a) citation metrics and (b) merit metrics. To aggregate individual criteria in these approaches, we use an in-house automated criteria-weighting method oriented towards as tight a representation of the strata as possible. To compare – and combine – the three approaches empirically, we use a sample of publicly available data of scientists in the areas of data analysis and machine learning. As the domain’s taxonomy, we use a corresponding part of the ACM Computing Classification System 2012 and slightly modify it to better reflect results by the scientists in our sample. The obtained ABC stratifications concur with intuition. Besides, they are rather far from each other. This supports the view that all the three approaches (citations, merits, taxonomic rank) should be considered as different aspects, and, therefore, a good method for scoring research impact should involve all the three.

A Note on the Effectiveness of the Least Squares Consensus Clustering

2014 · CHAPTER · en

We develop a consensus clustering framework proposed three decades ago in Russia and experimentally demonstrate that our least squares consensus clustering algorithm consistently outperforms several recent consensus clustering methods.

Курсы (6)