DSA Faculty
API
← к списку преподавателей

Крохин Алексей Сергеевич

Московский институт электроники и математики им. А.Н. Тихонова

Профиль на hse.ru ↗ тел.: Адрес: Москва | Таллинская | 34
Публикаций
1
Языков
1
Наград
0
Конференций
1
Профиль Публикации (1) Курсы (1)

Профессиональные интересы

Безопасность искусственного интеллектабезопасность приложениймашинное обучение

Должности

  • Приглашенный преподавательМосковский институт электроники и математики им. А.Н. Тихонова, Кафедра информационной безопасности киберфизических систем

Био

  • · Начал работать в НИУ ВШЭ в 2025 году.

Образование

  • 2025 · Бакалавриат: Государственный университет – Высшая школа экономики, специальность «Информационная безопасность», квалификация «Бакалавр»

Опыт работы

  • · Специалист по информационной безопасности проектов, ВК

Конференции (1)

Показать все
  • · 2025: XXIX Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов им. Е. В. Арменского (Москва). Доклад: MLSecOps фреймворк как основа защищённости систем искусственного интеллекта

Публикации (1)

Анализ влияния обфускации входных данных на эффективность языковых моделей в обнаружении инъекции подсказок

2025 · ARTICLE · ru

В статье рассматривается проблема обфускации промптов как способа обхода защитных механизмов в больших языковых моделях (LLM), предназначенных для обнаружения промпт-инъекций. Промпт-инъекции представляют собой метод атаки, при котором злоумышленники манипулируют входными данными, чтобы изменить поведение модели и заставить её выполнять нежелательные или вредоносные действия. Обфускация включает в себя различные методы изменения структуры и содержания текста, такие как замена слов синонимами, перемешивание букв в словах, вставка случайных символов и другие. Цель обфускации — затруднить анализ и классификацию текста, чтобы обойти фильтры и защитные механизмы, встроенные в языковые модели. В рамках исследования проводится анализ эффективности различных методов обфускации в обходе моделей, обученных на задачу классификации текста. Особое внимание уделяется оценке потенциальных последствий обфускации для безопасности и защиты данных. В исследовании используются различные методы обфускации текстов, которые применяются к промптам из датасета AdvBench. Эффективность методов оценивается на примере трёх моделей-классификаторов, обученных на задачу обнаружения промпт-инъекций. Научная новизна исследования заключается в анализе влияния обфускации промптов на эффективность языковых моделей в обнаружении промпт-инъекций. В ходе работы выявлено, что применение сложных методов обфускации увеличивает долю запросов, классифицируемых как инъекции, что подчёркивает необходимость тщательного подхода к тестированию безопасности больших языковых моделей. Выводы исследования указывают на важность баланса между сложностью метода обфускации и его эффективностью в контексте атак на модели. Чрезмерно сложные методы обфускации могут повысить вероятность обнаружения инъекций, что требует дальнейшего изучения для оптимизации подходов к обеспечению безопасности языковых моделей. Результаты работы подчёркивают необходимость постоянного совершенствования защитных механизмов и разработки новых методов обнаружения и предотвращения атак на большие языковые модели.

Курсы (1)