Публикации
Comparative Analysis of the Predictive Power of Machine Learning Models for Forecasting the Credit Ratings of Machine-Building Companies
0.6742022 · ARTICLE · en
Целью данного исследования является сравнение предсказательной способности различных моделей машинного обучения для воспроизведения кредитных рейтингов Moody’s, присвоенных машиностроительным компаниям. Исследование закрывает целый ряд пробелов в знаниях, обнаруженных в литературе и связанных с выбором объясняющих переменных и формированием выборки данных для моделирования. Решаемая задача является актуальной. Наблюдается растущая потребность в высокоточных, но недорогих моделях воспроизведения кредитных рейтингов машиностроительных компаний (внутренних кредитных рейтингов). Это связано с постоянным ростом кредитных рисков компаний в отрасли, а также с ограниченным количеством присвоенных публичных рейтингов от международных рейтинговых агентств из-за высокой стоимости рейтингования. В статье сравнивается предсказательная сила трех моделей машинного обучения: упорядоченной логистической регрессии, случайного леса и градиентного бустинга. Выборка компаний включает 109 предприятий машиностроительной отрасли из 18 стран за период с 2005 по 2016 год. В качестве объясняющих переменных используются финансовые показатели компаний, соответствующие отраслевой методологии Moody’s, и макроэкономические показатели стран базирования компаний. Результаты показали, что наибольшей предсказательной способностью обладают модели искусственного интеллекта. Модель случайного леса продемонстрировала точность предсказания 50%, модель градиентного бустинга – 47%. Их предсказательная способность практически в два раза превосходит точность упорядоченной логистической регрессии (25%). Помимо этого, в статье протестированы два различных способа формирования выборки: случайно и с учетом фактора времени. Результат показал, что применение случайной выборки увеличивает предсказательную силу моделей. Включение в модель макроэкономических переменных не улучшает их предсказательную силу. Объяснение заключаться в том, что рейтинговые агентства для обеспечения стабильности рейтинговых оценок следуют подходу «через цикл». Результаты исследования могут быть полезны для исследователей, занятых оценкой точности эмпирических методов моделирования кредитных рейтингов, а также практиков в банковской отрасли, непосредственно использующих такие модели для оценки кредитоспособности машиностроительных компаний.
Метод автоматического построения выборок данных в рамках задач интеллектуального контроля ручных операций
0.6632022 в печати · ARTICLE · ru
Сергеев А. В., Минченков В. О., Лукашов С. А., Козырева Д. Д., Солдатов А. В.
В работе представлен новый, комплексный метод автоматического построения выборок данных для систем интеллектуального контроля ручных операций в производстве. Си-стемы интеллектуального контроля в последнее время начинают интенсивно использо-ваться для мониторинга технологических процессов сборки и изготовлении продукции в машиностроении, автомобильной и авиапромышленности, в логистике и др. отраслях. В большинстве представленных систем распознавание объектов и операций происходит с ис-пользованием методов машинного обучения, в первую очередь нейронных сетей. Автомати-ческие методы формирования и разметки наборов данных позволяют значительно сокра-тить время, необходимое для построения новых выборок. И, следовательно, — увеличить скорость внедрения и настройки систем интеллектуального контроля операций. Основная идея предлагаемого подхода заключается в том, что оператор демонстрирует сборочные детали по очереди перед камерой, а система автоматически создаёт из них раз-меченную выборку. В статье поэтапно описан ход исследований и разработок по созданию предложенного метода автоматического построения выборок. Приведены результаты экс-периментальных сравнений методов выделения объектов от фона. Описаны процедуры фильтрации «ошибочных» и «бракованных» изображений. Продемонстрированы примеры созданных автоматически, с использованием предложенного метода, выборок данных. Испытания метода проведены с использованием специально созданного программно-аппаратного стенда контроля ручных операций и показали его высокую эффективность.
ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ПРОЦЕССОВ ИНФОРМАЦИОННОГО ОБМЕНА ПУТЕМ ИСПОЛЬЗОВАНИЯ МУЛЬТИМОДАЛЬНЫХ МЕТОДОВ ПЕРЕДАЧИ ИНФОРМАЦИИ
0.6602023 в печати · CHAPTER · ru
В статье рассматривается возможность использования мультимодальных методов передачи информации для решения задачи поиска в корпусе изображений. В качестве решения приводится построение рекомендательной системы, которая решает проблему в два этапа: отбор кандидатов и ранжирование. Приводится несколько вариантов алгоритма отбора кандидатов, а также алгоритм построения модели машинного обучения для ранжирования. Качество результата измеряется метрикой точности (доля удачных пар рекомендаций).
Введение в эконометрический анализ панельных данных
0.6572010 · BOOK · ru · Издательский дом НИУ ВШЭ
Учебное пособие посвящено одному из наиболее востребованных современных инструментов количественного анализа статистической информации в экономике – анализу панельных данных, которые представляют собой прослеженные во времени пространственные выборки объектов (индивидуумов, домохозяйств, предприятий, регионов, стран и т.п.). Использование панельных данных дает ряд существенных преимуществ в оценивании параметров регрессионных зависимостей, поскольку они сочетают в себе возможности как анализа временных рядов, так и анализа пространственных наблюдений. С помощью панельных данных становится возможным изучение таких хронических проблем общества, как бедность, безработица, преступность и т.д. В пособии излагаются базовые концепции анализа панельных данных и принципы построения наиболее востребованных моделей. Рассматриваются примеры оценивания и интерпретации моделей, построенных по реальным российским панельным данным – данным Российского мониторинга экономического состояния и здоровья населения.
Применение моделей машинного обучения для многомерного среднесрочного прогнозирования стоимости акций
0.6552025 · ARTICLE · ru
Сизых Н. В., Наталия Сергеевна К.
Многочисленные исследования в области прогнозирования котировок ценных бумаг, в частности акций, направлены на поиск более точных и эффективных моделей. Однако внимание к многомерному прогнозированию, которое позволяет получить более точный прогноз, остается недооцененным, поскольку для его реализации требуется значительное увеличение вычислительных ресурсов. Поэтому актуальным является подбор более упрощенных, но эффективных моделей, с помощью которых можно получать хорошие результаты при меньших вычислительных затратах, доступном наборе однозначно оцениваемых данных и упрощенной настройке, сохраняя при этом достаточную точность для практического использования. Результаты исследования, приведенные в данной статье, направлены на решение данной проблемы. Авторами подобраны, сформированы и апробированы методики моделей много-мерного прогнозирования стоимости акций на основе методов машинного обучения и современных нейросетевых архитектур. Проведен сравнительный анализ результатов среднесрочного прогноза стоимости акций (30 дней) с помощью моделей многомерного прогнозирования. Апробация проведена на примере акций, входящих в индекс S&P 500. В процессе исследования подобраны дополнительные массивы данных, которые способствуют повышению точности прогноза и доступны в открытых источниках.
Методы машинного обучения в задачах моделирования целенаправленного поведения
0.6552006 · CHAPTER · ru
Способность к обучению является неотъемлемой частью системы с разумным, целенаправленным поведением. Обучение – сложный, комплексный процесс, включающий в себе такие аспекты как получение новых знаний, представление последних в удобной форме, эффективная обработка знаний и т.д. Задача обучения понятиям является фундаментальной в области Машинного Обучения и является неотъемлемой частью экспериментальной науки – Искусственный Интеллект. В настоящем сообщении задача обучения понятиям формулируется как задача классификации при определённых ограничениях с использованием методологии Искусственного Интеллекта, Подробно описывается VL -логика [3], которая является одной из базисных формальных моделей, необходимых для решения сформулированной проблемы в рамках Машинного Обучения. В модель вводятся такие дополнительные аспекты, как пространство событий и отображающие функции. Рассматривается проблема минимальности логических формул относительно задаваемого лексикографического функционала. На основе сформулированной задачи, описанной теоретической модели VL -логики и её расширения, предлагается интерпретация проблемы обучения понятиям, связывающая постановку последней с получившейся формальной моделью, описываются соответствующие правила перехода и ограничения
Machine learning approach for scientific and technical expertise
0.6502023 · ARTICLE · en
Белов А. В., Егорова Э. А.
When conducting scientific and technical expertise, it is necessary to analyze the texts of reports on scientific research work. The analysis is carried out in order to determine whether the research being conducted belongs to the class of scientific research and development work in the field of IT. This article discusses the tasks of binary classification of documents provided by companies using machine learning technologies. As a result of the study, a comparative analysis was carried out and the most effective machine learning algorithms were identified. The proposed algorithms will be used in a system that automates the process of checking documents submitted to taxpayers by the tax office.
Method of Automatic Images Datasets Sampling for the Manual Operations Control Systems
0.6432023 · CHAPTER · en
Сергеев А. В., Минченков В. О., Солдатов А. В., Лукашов С. А., Мазиков Я. А.
The paper presents a complex method for automatic construction of data samples for systems of intelligent control of manual operations in industrial production. In the described systems, objects and operations are recognized using ML-methods, primarily neural networks. Their effectiveness depends on the quality and size of training data sets. At the same time, the time spent on the gathering, processing, marking of such data sets is a significant part of the total time of the system implementation. To solve this problem, the authors proposed a method for automatic sampling. It allows to significantly reduce the time required to construct new data sets when configuring the system to control a new technological process. The main idea of the proposed method is that the operator demonstrates the assembly parts one by one in front of the camera, and the system automatically creates a marked-up set of images. The article describes the progress and the results of the research. The results of experimental comparisons of algorithms for selecting objects from the background are given. The procedures for filtering "defective" images are described. Examples of automatically created data sets are shown, as well as the results of their use for training neural networks within the framework of the problem being solved. The final tests were carried out using a specially designed software and hardware operation control demo-stand. The tests showed the high efficiency of the developed method.
The Tracking Machine Learning Challenge: Accuracy Phase
0.6412020 · CHAPTER · en
Гущин М. И., Устюжанин А. Е.
Проектирование архитектуры программного обеспечения для анализа цифрового следа в образовательных системах
0.6392025 · ARTICLE · ru
Степанов М. А., Сластников С. А., Никита Андреевич К.
Современные образовательные системы аккумулируют большие объемы данных о цифровой активности студентов в различных информационных системах, однако эффективное использование этих данных для персонализации образования остается нерешенной задачей. Формирование цифрового профиля обучающегося позволяет систематизировать разрозненные данные и использовать их для поддержки педагогических решений. В статье представлена модель формирования цифрового профиля на основе системного подхода к анализу данных цифрового следа студентов. Исследование опирается на количественные методы обработки образовательных данных из различных источников (LMS, корпоративные чаты, системы управления проектами) с применением статистического анализа, кластеризации и регрессионного моделирования. Эмпирической базой послужили данные МИЭМ НИУ ВШЭ за период 2019–2025 гг. Разработанная структура цифрового профиля включает академический, поведенческий, социальный и компетентностный компоненты. Предложены шесть математически обоснованных метрик цифрового следа (TD, ZTD, G, ZG, FD, SK), позволяющих объективно оценивать образовательную активность. Выявлена статистически значимая корреляция между показателями цифрового профиля и академической успеваемостью. Разработанная методика позволяет образовательным учреждениям эффективно интегрировать данные из различных цифровых систем для мониторинга образовательного процесса, раннего выявления рисков академической неуспеваемости и персонализации обучения. Технические решения для формирования цифрового профиля могут быть внедрены как элементы цифровой образовательной экосистемы в различных учебных заведениях. Новизна исследования заключается в системном подходе к интеграции разнородных источников цифрового следа и разработке унифицированных метрик его оценки.
The Neural Network Simulation of Instance-Aware Semantic Image Segmentation System
0.6372019 · CHAPTER · en
Белов А. В., Улаева Е. С.
This paper presents the system of the recognition and segmentation of objects which is based on an effective method for semi-controlled instance-aware segmentation of video and images. The system allows to achieve high quality forecasting of segmentation annotations for video frames while processing in real time. For this purpose a neural network model was proposed in the form of a Siamese deep network with a structure “encoder-decoder” which is designed to take advantage of both propagation-based and detection-based methods while avoiding the weaknesses of both approaches. The network was trained in a two-stage training process that uses both synthetic and real data and works reliably without online training or post-processing. The quality of the trained model was tested on training video.
Базы данных
0.6322013 · BOOK · ru · Питер
Учебное пособие основано на материалах лекций и практических занятий, которые проводятся автором на факультете Информационных технологий и вычислительной техники Московского института электроники и математики Научно-исследовательского университета «Высшая школа экономики». Рассматриваются основные модели данных, технологии организации баз данных, методы проектирования баз данных, основы языка запросов к реляционным базам данных SQL и методы оптимизации реляционных запросов. Для студентов дневных и вечерних факультетов технических вузов, изучающих автоматизированные информационные системы и системы управления базами данных.
An Approach to Finding a Robust Deep Learning Model
0.6312025 · ARTICLE · en
Болдырев А. С., Ратников Ф. Д., Шевелев А. А.
The rapid development of machine learning (ML) and artificial intelligence (AI) applications requires the training of a large numbers of models. This growing demand highlights the importance of training models without human supervision, while ensuring that their predictions are reliable. In response to this need, we propose a novel approach for determining model robustness. This approach, supplemented with a model selection algorithm designed as a meta-algorithm, is versatile and applicable to any machine learning model, provided that it is appropriate for the task at hand. This study demonstrates the application of our approach to evaluate the robustness of deep learning models. To this end, we study small models composed of a few convolutional and fully connected layers, using common optimizers because of their ease of interpretation and computational efficiency. We address the influence of training sample size, model weight initialization, and inductive bias on the robustness of deep learning models.
Comparative Analysis of Machine Learning Models for Money Demand Forecasting in the Indian Economy
0.6292024 · ARTICLE · en
Сикхвал Ш., Sreenjay S.
The study investigates the predictive efficacy of various machine learning methodologies, encompassing Random Forest (RF) regression, Gradient Boosting (GB), Xtreme Gradient Boosting (XGBoost), Support Vector Regression (SVR), Least Absolute Shrinkage and Selection Operator (LASSO) regression, and a deep learning technique, specifically Long Short-Term Memory (LSTM). The benchmark method employed is the autoregressive (AR) model of order 1. With a focus on forecasting money demand for the Indian economy, a crucial component for achieving the Central Bank of India's inflation targeting objective, a comprehensive monthly dataset from 1997 to 2021 is utilized. The obtained results underline the robust predictive capabilities of the employed models concerning both narrow and broad money demand forecasts. By employing a range of evaluation metrics, the study rigorously compares the predictive performance of these models. Using the expanding window cross validation with time series split, the models are cross-validated to ensure accurate forecasts of monetary aggregates. Moreover, the Diebold – Mariano test is utilized to evaluate and compare the quality of forecasts. In particular, the research finds the superiority of LSTM and LASSO in predictive capabilities for narrow and broad money demand, respectively. These findings collectively contribute to enhancing the understanding of money demand prediction, thus facilitating informed decision-making within the realm of monetary policy.
Разработка модели регрессионного тестирования программного обеспечения для его автоматизации
0.6282013 · CHAPTER · ru
Мартюков А. С., Тумковский С. Р.
Работа посвящена разработке модели процесса тестирования программного обеспечения и автоматизированной системы, на основе этой модели. Разрабатываемая система позволяет автоматизировать основные этапы процесса тестирования и тем самым способствует повышению качества разрабатываемых программных продуктов, а так же сокращению затрат на их разработку.
Базовые методы анализа данных : учебник и практикум для вузов
0.6272024 · BOOK · ru · Юрайт
Анализ данных предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества данных о всевозможных совокупностях объектов, таких как страны и регионы, веб-сайты и теннисные турниры, работодатели и работники, товары и их производители. В отличие от классической математической статистики, анализ данных не пытается непосредственно вывести свойства окружающего мира, исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, структур, закономерностей в тех данных, какие есть. Основная цель анализа данных — обогащение теоретических представлений в той области науки или практики, к которой относятся данные (извлечение и порождение знаний). Исходя из того, что теоретическое знание выражается, прежде всего, через понятия и утверждения об их связи, а понятия выражаются признаками, основное внимание уделяется двум базовым задачам анализа данных. Это суммаризация (агрегирование или порождение признаков) и коррелирование (исследование связей между признаками). Изложение содержит большое количество примеров применения рассматриваемых понятий к анализу реальных данных. Учебник предназначен, прежде всего, для использования в обучении студентов бакалавриата и магистратуры инженерно-технических специальностей, однако он может использоваться и как пособие для самостоятельного изучения.
Алгоритм анализа новостной информации для принятия экономических решений
0.6272026 · ARTICLE · ru
Раменская А. В., Ольга Сергеевна Ч., Лилия Анатольевна П.
Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и влиянию на ключевую ставку.
Методическая основа архитектуры анонимизации данных для задач машинного обучения
0.6262025 · ARTICLE · ru
Дюкина Э. М., Силаев Ю. В., Ольга Михайловна П.
Работа посвящена методическому каркасу архитектуры системы анонимизации табличных данных, встроенной в жизненный цикл проектов машинного обучения в корпоративном контуре подготовки данных. Предлагается процессно-этапный подход к проектированию конвейера анонимизации, который задает единый понятийный аппарат, требования и ограничения и формализует профили правил псевдонимизации, обобщения, маскирования и подавления для различных классов атрибутов: прямых идентификаторов, квазиидентификаторов и чувствительных признаков. На базе моделей k-анонимности, l-разнообразия и t-близости вводятся «контрольные точки приватности», в которых оценивается достижение целевых значений метрик, доля подавлений и уровень обобщения. В каждой точке формируется отчет о приватности с фактическими k, l, t, предупреждениями и комментариями, позволяющий принимать решение о допуске набора в ML-контур. Показано, как проводить предварительную проверку профилей и параметров на репрезентативных обезличенных сэмплах без обращения к фактическим производственным датасетам, что снижает риски раскрытия на ранних этапах согласования. Каркас включает распределение ролей и зон ответственности (владелец данных, инженер по данным, аналитик/дата-сайентист, ML-инженер, специалист по информационной безопасности, администратор системы) и трехслойную архитектуру ИС с веб-интерфейсом и API для интеграции в оркестраторы пайплайнов. Управление профилями правил как версионируемыми артефактами, совместно с версионированием наборов данных и параметров запусков, хранением метаданных, журналированием операций и регулярным аудитом, обеспечивает воспроизводимость подготовки обучающих выборок и прослеживаемость влияния анонимизации на качество моделей. Каркас может использоваться как референсная модель для пилотной реализации и последующего расширения на другие классы данных и практики управления приватностью в ML-проектах.
Применение экспертной оценки уязвимостей в данных на предприятии
0.6252022 · CHAPTER · ru
Зыков С. В., М.А. З.
В статье внимание обращено на актуальные цели исследования в области кибербезопасности. Приведена используемая система принятия решений и примеры классификации экспертных оценок. Определена оценка востребованности базы знаний для алгоритмов машинного обучения. Приведены примеры построения диагностических образов для выявления инцидентов уязвимостей. Выявлена необходимость установления структуры данных диагностической информации.
Fusion of text and graph information for machine learning problems on networks
0.6242021 · ARTICLE · en
Макаров И. А., Макаров М. С., Киселёв Д. А.
Today, increased attention is drawn towards network representation learning, a technique that maps nodes of a network into vectors of a low-dimensional embedding space. A network embedding constructed this way aims to preserve nodes similarity and other specific network properties. Embedding vectors can later be used for downstream machine learning problems, such as node classification, link prediction and network visualization. Naturally, some networks have text information associated with them. For instance, in a citation network, each node is a scientific paper associated with its abstract or title; in a social network, all users may be viewed as nodes of a network and posts of each user as textual attributes. In this work, we explore how combining existing methods of text and network embeddings can increase accuracy for downstream tasks and propose modifications to popular architectures to better capture textual information in network embedding and fusion frameworks.