Полное руководство по алгоритмам машинного обучения для поиска аномалий (пошаговый план 2026)

Подробное руководство по алгоритмам машинного обучения для обнаружения аномалий (плейбук 2026) — обложка

Главное

• Обнаружение аномалий — это задача классификации, для которой не подходят стандартные допущения. Аномалии редки, почти всегда не размечены и со временем меняются. Выбирайте алгоритм, который справится с этими тремя особенностями, а не тот, у которого самые впечатляющие цифры в статьях.

• Шесть алгоритмов покрывают 90% реальных проектов. Isolation Forest, ECOD/COPOD, Local Outlier Factor, One-Class SVM, автоэнкодеры и LSTM/Anomaly Transformer для временных рядов. Всё остальное — это их модификации.

• Гибридные стеки работают лучше одиночных моделей. Самые надёжные системы в продакшене запускают параллельно два детектора с разными подходами (например, Isolation Forest + автоэнкодер), а затем объединяют или пересекают их результаты с помощью калибровочного слоя. По последним промышленным исследованиям, автоэнкодеры показывают точность 87–89%, Isolation Forest — 84–86% на шумных высокоразмерных данных.

• Рынок реален и растёт. По прогнозам, мировой рынок ПО для обнаружения аномалий вырастет с 375–600 млрд ₽ в 2026 году до около 2,1 трлн ₽ к 2034 году со среднегодовым темпом роста 16–19% — в основном за счёт антифрода, ИТ-операций и предиктивного обслуживания. Крупнейший заказчик — банковский и финансовый сектор.

• Большинство провалов — не из-за алгоритма. Чаще проекты проваливаются из-за дисбаланса классов, плохих меток, дрейфа понятий, усталости от алертов и отсутствия обратной связи. MLOps стоит продумать заранее, ещё до сравнения PyOD и Datadog.

Почему Фора Софт написала этот плейбук

Обнаружение аномалий лежит в основе трёх направлений, которые мы развиваем каждый квартал: обработка данных в реальном времени, компьютерное зрение и прикладное машинное обучение. Наша команда по интеграции ИИ разрабатывает решения для мониторинга и анализа поведения на основе машинного обучения для продуктов в здравоохранении, финтехе, безопасности и SaaS — для клиентов из США, стран ЕС и Азиатско-Тихоокеанского региона.

Конкретный пример — V. A. L. T, наша платформа для HD-видеодоказательств. Она работает с более чем 2 500 камерами и 50 000+ ежедневными пользователями в 770+ организациях США, включая правоохранительные органы и медицинские образовательные учреждения. Этот опыт даёт нам обоснованное представление о том, что действительно работает, когда нужно выявить «нечто необычное» в миллионах часов потокового видео, не перегружая операторов потоком оповещений.

Это руководство — тот самый плейбук, которого нам не хватало в начале пути: какие алгоритмы машинного обучения для обнаружения аномалий действительно окупаются в продакшене, как между ними выбирать, как выглядит ландшафт инструментов в 2026 году и где на самом деле проходит граница между «разрабатывать самим» и «купить готовое». Руководство написано для тех, кто будет запускать эту функцию и дежурить по инцидентам, а не для участия в соревнованиях на Kaggle.

Что такое обнаружение аномалий на самом деле

Аномалия — это любая точка данных, последовательность или паттерн, который сильно отличается от ожидаемого поведения системы. В машинном обучении задача обнаружения аномалий заключается в том, чтобы по наблюдаемым данным (обычно без разметки или со слабой разметкой) научиться распознавать «нормальное» поведение и выявлять отклонения.

Принято выделять три типа аномалий. Точечные аномалии — это отдельные значения, сильно отличающиеся от нормального диапазона: например, транзакция на 3,7 млн ₽ по карте, которой обычно платят за кофе. Контекстные аномалии сами по себе выглядят нормально, но выглядят подозрительно в определённом контексте: например, +25 °C в Стокгольме в феврале. Коллективные аномалии — это последовательности, где отдельные значения в норме, но общий паттерн — нет: например, сервер отвечает на 100 запросов в минуту, хотя обычно в это время их бывает около 10 000.

Задача сложна по трём причинам. Аномалии редки (обычно <1% данных), у них нет разметки или она непоследовательна, а само понятие «нормы» со временем меняется. Выберите алгоритм и операционную модель, способные справиться с этими тремя проблемами, — и большая часть инженерных решений выстроится сама собой.

Оцениваете обнаружение аномалий для своего продукта?

30 минут с нашим ML-лидером — и вы уйдёте с подходящим алгоритмом, чек-листом готовности данных и реалистичными сроками, с учётом ускорения за счёт Agent Engineering.

Позвоните нам → Напишите нам →

Где ML-обнаружение аномалий реально окупается в 2026 году

1. Антифрод и финансовые преступления. Самый крупный заказчик систем обнаружения аномалий — финансовый сектор. Банки и финансовые организации доминируют на рынке, потому что каждый пропущенный случай мошенничества приводит к прямым убыткам, а ложное срабатывание — к недовольству клиентов. Применяются: антифрод по картам в реальном времени, мониторинг транзакций для выявления отмывания денег, обнаружение захвата аккаунтов. В продакшене используются: градиентные бустинги решающих деревьев с оценкой аномальности, автоэнкодеры на графах транзакций, ансамбли Isolation Forest с контролируемой «надстройкой» на XGBoost.

2. ИТ-операции, observability и SRE. Datadog Watchdog, Dynatrace Davis, Grafana ML, Splunk ITSI, Elastic ML — именно здесь большинство инженерных команд впервые сталкиваются с обнаружением аномалий. Выбросы во временных рядах метрик, аномалии в логах, аномалии в распределённых трассах. Что работает в продакшене: Prophet/STL для анализа сезонности, Anomaly Transformer для многомерных метрик, классическое медианное абсолютное отклонение для простых мониторов задержек.

3. Предиктивное обслуживание и промышленный IoT. Вибрация, температура, потребляемый ток, акустические сигнатуры турбин, насосов, станков с ЧПУ. По свежим промышленным исследованиям, автоэнкодеры показывают точность 87–89%, а Isolation Forest — 84–86% на шумных высокоразмерных потоках данных с датчиков; гибридные стеки последовательно превосходят каждую модель по отдельности.

4. Кибербезопасность и обнаружение вторжений. Аномалии в сетевых потоках, латеральное перемещение, обнаружение beacon-трафика, EDR. Датасеты вроде CIC-IDS-2017 и NSL- KDD по-прежнему служат основой для академических исследований; в продакшене используются гибридные решения — контролируемые классификаторы (для известных тактик, техник и процедур) и неконтролируемые модели (для выявления паттернов zero-day).

5. Видеонаблюдение и анализ поведения. Направление, в котором Фора Софт реализовала больше всего проектов. Система распознаёт необычные движения, длительное пребывание в зоне, падения, наличие оружия и нарушения периметра на видео с камер. Используются глубокие модели (3D CNN, видеотрансформеры) и пайплайны фонового моделирования. Результаты проходят через специальный слой подавления ложных срабатываний — чтобы операторы не получали слишком много оповещений. Подробности — в наших материалах об обнаружении аномалий в видеонаблюдении в реальном времени и о системах видеонаблюдения на базе ИИ.

6. Мониторинг в здравоохранении. Обнаружение аритмий по ЭКГ, раннее выявление сепсиса, контроль ухудшения жизненных показателей в реанимации. Жёстко регулируемая сфера: путь SaMD в FDA в США, MDR в ЕС. Модели обычно строятся на основе консервативных ансамблей с добавлением слоя объяснимости.

7. Визуальный контроль качества на производстве. PatchCore, PaDiM и аналогичные самоконтролируемые модели изображений на данных типа MVTec AD. На чистых публичных бенчмарках достигают >99% AUROC; на реальных фабриках стоит закладывать снижение на 5–15 пунктов.

Ландшафт алгоритмов, разбитый по тому, что вам действительно нужно

В литературе описано десятки именованных алгоритмов обнаружения аномалий. В продакшене мы используем около шести семейств. На рис. 1 они распределены по типу данных и режиму обучения.

Карта семейств алгоритмов машинного обучения для обнаружения аномалий по типу данных (табличные, временные ряды, изображения, графы) и режиму обучения (без учителя, с частичным учителем, с учителем)

Рис. 1. Семейства ML-алгоритмов обнаружения аномалий — что работает лучше на каком типе данных.

Isolation Forest (iForest)

Ансамбль случайных деревьев, который изолирует точки с помощью рекурсивных разбиений. Аномалии находят быстрее (путь по дереву короче), чем нормальные точки. Временная сложность линейная, работает с миллионами строк, почти не требует настройки параметров. Лучшее применение в продакшене: табличные данные, антифрод, структурированные логи, IoT-телеметрия.

ECOD и COPOD

Вероятностные детекторы, оценивающие эмпирическую функцию распределения по каждому признаку (ECOD) или копульную структуру (COPOD). Без параметров, детерминированные, объяснимые, быстрые. Среди лучших в бенчмарке ADBench (30 алгоритмов на 57 датасетах). Используйте как отправную точку перед переходом к глубокому обучению.

Local Outlier Factor (LOF) и DBSCAN/ HDBSCAN

Подход на основе плотности: выбросом считается точка, находящаяся в разреженной локальной окрестности. LOF — каноническая версия с оценкой; DBSCAN/ HDBSCAN кластеризуют по плотности и помечают всё остальное как шум. Хорошо работают на данных с чёткой локальной вариацией плотности, но требуют много ресурсов на высокоразмерных и больших наборах — в свежих бенчмарках на промышленных объёмах фиксировались сбои из-за нехватки памяти.

One-Class SVM и Deep SVDD

Учат границу, в которую укладывается нормальный класс. Полезны, когда у вас много чистых «нормальных» данных и почти нет аномалий. Deep SVDD — нейросетевое расширение, обучающее сеть отображать нормальные данные в гиперсферическую область. Применяются в регулируемых областях (медицина, контроль качества на производстве), где важнее ограничить количество ложных срабатываний, чем обеспечить высокую объяснимость.

Автоэнкодеры и вариационные автоэнкодеры

Нейросеть обучается восстанавливать нормальные данные; большая ошибка восстановления указывает на аномалию. Варианты: обычный AE, VAE, состязательный AE, MemAE. Хорошо работают с высокоразмерными данными (изображения, показания датчиков, сетевые пакеты), но требуют больше данных, чем методы на основе деревьев.

Модели для временных рядов: LSTM, TCN, Anomaly Transformer, Matrix Profile

Для последовательных данных с временной зависимостью. Прогнозисты на LSTM/TCN оценивают остатки прогноза. Matrix Profile — детерминированный детектор мотивов и аномалий, который почти не требует настройки. Anomaly Transformer (ICLR 2022) вводит association- и discrepancy-механизмы и сегодня удерживает SOTA для многомерных временных рядов — этот подход уже используют разные вендоры в области observability.

Модели для изображений: PatchCore, PaDiM, EfficientAD

Самоконтролируемые методы на основе банка признаков поверх предобученных ImageNet/CLIP-бэкбоунов. Доминируют на MVTec AD; реальное применение — промышленный визуальный контроль, триаж медицинских изображений, видеонаблюдение.

Алгоритмы — сводное сравнение

Алгоритм	Лучше всего для	Тип данных	Плюсы	Ограничения
Isolation Forest	Антифрод, структурированные логи, IoT	Табличные, средняя размерность	Линейное масштабирование, минимальные настройки, устойчив к шуму	Хуже работает на локально плотных аномалиях
ECOD / COPOD	Первый базис, объяснимость	Табличные, любая размерность	Без параметров, детерминированные, быстрые	Слабы на сложной нелинейной структуре
LOF / HDBSCAN	Локально-плотностные аномалии	Табличные, низкая и средняя размерность	Захватывают кластеры и структуру шума	Медленные при работе с большими и высокоразмерными данными
One-Class SVM / Deep SVDD	Много нормальных, мало аномальных	Табличные признаки изображений	Ограниченный FPR, объяснимая граница	Чувствительны к выбору ядра и масштабированию
Автоэнкодеры / VAE	Высокая размерность, изображения, сетевые пакеты	Изображения, датчики, эмбеддинги	Захватывают богатое нелинейное многообразие нормы	Требовательны к данным, чувствительны к дрейфу
Прогнозисты LSTM / TCN	Одномерные и многомерные метрики	Временные ряды	Нативное моделирование времени	Тяжёлое переобучение при дрейфе
Anomaly Transformer	Многомерный observability	Временные ряды	SOTA на бенчмарках SMD/SMAP/MSL	Прожорлив по вычислениям при инференсе
Matrix Profile (STUMPY)	Мотивы и диссонансы, одна метрика	Временные ряды	Детерминированный, без обучения модели	Лучше работает с сигналами низкой размерности
PatchCore / PaDiM / EfficientAD	Промышленный визуальный контроль	Изображения	>99% AUROC на MVTec AD	Нужны эталонные нормальные изображения

Начните с Isolation Forest. Если данные табличные и достаточно большие, запустите Isolation Forest в первую очередь — до других методов. Это самая надёжная стартовая модель для обнаружения аномалий с помощью машинного обучения.

Берите Anomaly Transformer, когда: у вас многомерные временные ряды с нетривиальными зависимостями между каналами и есть реальный бюджет на GPU для инференса.

Берите гибрид (автоэнкодер + Isolation Forest), когда: точность одиночного детектора не поднимается выше 80–85%, а у вас есть хотя бы несколько тысяч подтверждённых аномалий для оценки.

С учителем, с частичным учителем, без учителя — как выбрать

Без учителя — режим по умолчанию и самый реалистичный. У вас есть неразмеченные данные, в основном нормальные, и задача — найти то, что в них не вписывается. Isolation Forest, ECOD, LOF, DBSCAN, автоэнкодеры — все эти методы как раз для таких случаев.

С частичным учителем предполагает, что у вас есть чистый «нормальный» набор для обучения, но размеченных аномалий нет. Сюда подходят One-Class SVM, Deep SVDD, автоэнкодеры, обученные только на нормальных данных. Самый распространённый сценарий в регулируемых отраслях — например, медицина или производство, — где норма определяется экспертами, а аномальные события слишком редки, чтобы их можно было полноценно разметить.

С учителем — редкая роскошь, когда размечены оба класса. Используйте, когда классы фрода или сбоев действительно известны и размечены (опровергнутые транзакции по картам, подтверждённые поломки оборудования). Доминируют бустинги (XGBoost, LightGBM, CatBoost) и контролируемые «надстройки» в многозадачных нейросетях. Внимательно следите за дисбалансом классов: ROC-ROC вводит в заблуждение — сообщайте PR-ROC, F1@k и recall при фиксированной точности.

Эталонная продакшен-архитектура

На рис. 2 показана архитектура, которую мы используем по умолчанию для ML-обнаружения аномалий в продуктах. Она намеренно построена вокруг ансамблей моделей и обратной связи — именно этих двух компонентов не хватает большинству систем обнаружения аномалий, чтобы успешно работать в продакшене.

Рис. 2. Эталонная архитектура продакшена для обнаружения аномалий, которую мы используем в наших проектах.

Три компонента здесь неочевидны. Слой калибровки приводит сырые оценки аномалий от разных моделей к единому процентильному рангу. Слой подавления добавляет временной гистерезис, устраняет дубликаты и использует настраиваемые пороги — именно он помогает системе работать без перегрузки алертами. Канал обратной связи превращает решения оператора в размеченные примеры, запускает еженедельное переобучение и позволяет отслеживать реальные значения precision и recall со временем.

Ландшафт инструментов: open-source, облако и SaaS

Слой	Примеры	Когда выигрывает
Библиотека	PyOD, scikit-learn, PyCaret, TODS, Darts, STUMPY, ADTK	Кастомная разработка, полный контроль над моделью
Облачные ML-платформы	Vertex AI, SageMaker, Azure ML, Databricks	Вы уже живёте в этом облаке и нуждаетесь в MLOps
SaaS для observability	Datadog Watchdog, Dynatrace Davis, New Relic, Splunk ITSI, Elastic ML, Grafana ML	Метрики, логи, трассы и нет ML-команды
Антифрод / риск	Sift, Feedzai, NICE Actimize, SAS Fraud, Stripe Radar	Заказчики из банковского и финансового сектора, регулируемые риск-пайплайны
Промышленность / IoT	Seeq, AWS IoT SiteWise, Azure IoT Anomaly, Uptake	Производство, энергетика, нефть и газ
Изображения / видео	Anomalib, AnomalyMatch, пользовательские CV-пайплайны	Визуальный контроль качества, видеонаблюдение, медицинские изображения

Отдельно о PyOD: появился в 2017 году, более 38 млн скачиваний, самая зрелая и популярная Python-библиотека для обнаружения аномалий в табличных данных, временных рядах, изображениях, графах и текстах. PyOD V3 поставляется с оркестратором ADEngine и агентным воркфлоу od-expert. Если вы разрабатываете, а не покупаете — именно отсюда чаще всего стартуют наши прототипы.

Бенчмарк-датасеты, которые имеют значение

Табличные и ИТ-операции: ADBench (57 датасетов, 30 алгоритмов), KDDCup99 и NSL-KDD (классические наборы данных для обнаружения сетевых вторжений), CIC-IDS-2017 (современные сценарии атак), Numenta Anomaly Benchmark (NAB) для анализа потоковых временных рядов.

Временные ряды: SMD (Server Machine Dataset), SMAP/MSL (телеметрия марсоходов NASA), WADI/SWaT (промышленные системы управления). У всех этих наборов данных есть известные проблемы с утечкой меток — опубликованные цифры стоит воспринимать как верхнюю оценку.

Изображения: MVTec AD для промышленных дефектов, BTAD, VisA, MPDD. PatchCore показывает более 99% AUROC на уровне изображения на MVTec AD; на реальной фабрике ожидайте снижение на 5–15 пунктов.

Видео: UCSD Pedestrian, ShanghaiTech, UCF-Crime, Avenue. Модели предобучены на сценариях видеонаблюдения, похожих на те, что описаны в нашем гайде по моделям для видеонаблюдения.

Метрики, которые справляются с дисбалансом классов

Не полагайтесь на точность. Если аномалий 0,5%, то модель, которая всегда предсказывает «нормально», получит 99,5% точности — и при этом будет абсолютно бесполезной.

Используйте PR-AUC вместо ROC-AUC для сильно несбалансированных классов — ROC-AUC остаётся завышенно оптимистичной, когда отрицательный класс доминирует. Recall при фиксированной точности (например, recall при precision 95%) — именно та метрика, которая важна большинству продуктовых команд: сколько настоящих аномалий мы поймаем, не утопив операторов в ложных срабатываниях. F1@k оценивает топ-k помеченных точек и зеркалит ежедневную очередь оператора на триаж. VUS-ROC и оценка по Numenta Anomaly Benchmark подходят для потоковых временных рядов, где точное начало события размыто.

Тонете в ложных срабатываниях в своём мониторинге?

Мы вытаскивали проекты по обнаружению аномалий в финтехе, здравоохранении и видеонаблюдении с помощью калибровки, подавления шума и активного обучения. Поможем и вам.

Позвоните нам → Напишите нам →

Build vs. buy — матрица решения

Критерий	Купить SaaS	Разработать (open-source)
Время до первого сигнала	Дни	8–14 недель с Agent Engineering
Кастомные функции и доменная логика	Ограничены шаблонами вендора	Всё, что можно выразить в коде
Размещение данных и соответствие требованиям	Регионы вендора, SOC 2 вендора	Где угодно, где можно запустить контейнер
Регулярные расходы	За место/за объём, растёт вместе с бизнесом	CPU/GPU + MLOps + переобучение
Объяснимость	Чёрный ящик с дашбордом	SHAP, суррогатные модели, готово для аудита
Когда выигрывает	Стандартный observability, быстрый эффект, нет своей ML-команды	Уникальный домен, собственные данные, регуляторные требования или жёсткие требования к задержкам

Берите гибрид, когда: начинаете с SaaS для простых и недорогих базовых алертов, а кастомные детекторы создаёте только для тех 1–2 направлений, где точность вендора явно недостаточна. Такой подход чаще всего подходит большинству B2B SaaS- и финтех-компаний.

Модель стоимости: реалистичные диапазоны без хайпа

Цифры ниже учитывают наш ускоренный подход с Agent Engineering. Рассматривайте их как ориентир для оценки, а не как коммерческое предложение: реальные суммы зависят от данных, интеграций и требований комплаенса.

Скоуп	Типичная длительность	Ориентировочная стоимость разработки	Регулярные расходы
Настройка SaaS и дашбордов	2–4 недели	1,1–3 млн ₽	Лицензия вендора растёт с объёмом
Табличный MVP (Isolation Forest + ECOD)	6–10 недель	3,3–8,2 млн ₽	Скромный CPU + поддержка уведомлений
Многомерные временные ряды + автоэнкодер	10–16 недель	6,7–16 млн ₽	Инференс на GPU + MLOps
Регулируемые / критичные для безопасности (SaMD, антифрод)	5–9 месяцев	15–45 млн ₽	Аудит, ревалидация, выделенная команда поддержки

Фреймворк решения: выберите алгоритм за пять вопросов

1. Какой тип данных? Табличные → Isolation Forest, ECOD. Временные ряды → LSTM, Anomaly Transformer, Matrix Profile. Изображения → PatchCore/PaDiM. Графы → DOMINANT и GraphSAGE-подобные. Сетевые пакеты → автоэнкодер, гибрид контролируемого и неконтролируемого подходов.

2. Сколько есть размеченных данных? Нет → обучение без учителя. Только нормальные в достатке → обучение с частичным учителем (One-Class SVM, AE на нормальных данных). Размечены оба класса → обучение с учителем, XGBoost / LightGBM с cost-ensitive loss.

3. Какой бюджет по задержкам? Меньше секунды на событие → Isolation Forest, ECOD, лёгкие статистические модели. Секунды-минуты в пакетном режиме → более глубокие нейросетевые детекторы. Часы в пакетном режиме → допустимо полное переобучение ансамбля.

4. Кто реагирует на алерт? Автоматическое действие без участия человека → нужна объяснимость, калиброванный FPR, консервативные пороги, идеально — контролируемый классификатор в цепочке. Человеческий триаж → можно позволить более высокий recall и улучшить UX подавления.

5. Как быстро меняется система? Стабильные распределения (лабораторное оборудование) → одно обучение и лёгкое переобучение. Быстрый дрейф (антифрод, веб-трафик) → переобучение раз в неделю или каждый день; рассмотрите онлайн-алгоритмы (Half-Space Trees, онлайн-версии Isolation Forest).

Подводные камни, которые губят проекты по обнаружению аномалий

1. Оптимизация ROC-АUC на 99,5% нормального класса. ROC-АUC остаётся высокой даже у бессмысленных моделей при сильном дисбалансе. С первого дня переходите на PR-АUC, полноту при фиксированной точности и F1@k.

2. Игнорирование дрейфа понятий. Модели, обученные весной 2025 года, к осени начинают постепенно терять точность. Настройте еженедельные проверки на дрейф (индекс стабильности популяции, тест Колмогорова–Смирнова по ключевым признакам) и переобучайте модель на скользящем окне.

3. Нет петли обратной связи для операторов. Если люди, которые разбирают алерты, не могут пометить ложное срабатывание в один клик, модель никогда не улучшится. Кнопку «не аномалия» делайте раньше, чем саму модель.

4. Развёртывание одной чёрной модели. Устойчивость в продакшене обеспечивается за счёт работы двух детекторов с разными индуктивными смещениями (например, Isolation Forest и автоэнкодер), объединённых в пространстве калибровки.

5. Экономия на UX подавления. Объём аномалий приходит всплесками. Без ограничений по частоте, дедупликации и градации по серьёзности операторы просто перегрузят систему за неделю.

KPI: что измерять

KPI качества. Precision @ k (целевое значение ≥ 0,7 для топ-50 ежедневных меток), полнота на отложенной размеченной выборке (≥ 0,6 для обучения без учителя, ≥ 0,85 для обучения с учителем), количество срабатываний алярма по дрейфу в неделю (целевое: низкое и стабильное).

Бизнес-метрики. Среднее время обнаружения (MTTD), среднее время устранения (MTTR), предотвращённые потери в рублях (заблокированный фрод, избежанный простой), нагрузка алертами на оператора за смену.

KPI надёжности. P95 задержки инференса (цель — менее 1 с для потоков, менее 500 мс для транзакций), частота переобучения после сигнала о дрейфе, время отката версии модели, доля алертов с приложенным SHAP или объяснением предсказания.

Мини-кейс: обнаружение аномалий на 2500+ потоках видеонаблюдения

Ситуация. Наша платформа V. A. L. T обслуживает более 770 организаций в США — правоохранительные органы, больницы, университеты — и поддерживает работу более чем 2 500 HD-камер и 50 000 ежедневных пользователей. Операторы постоянно пересматривали записи в поисках подозрительной активности, а главным препятствием становилась усталость от постоянных оповещений.

Подход. Гибридный стек: детектор на основе моделирования фона для недорогого первичного анализа, 3D-нейросеть для классификации сцены и определения активности человека, а также модель восстановления с самоконтролем, обученная на базовых записях с каждой камеры. Используются калиброванные уровни серьёзности инцидентов, удаление дубликатов по перекрывающимся зонам обзора и индивидуальные правила подавления, настроенные под каждую площадку.

Результат. Операторы обрабатывают лишь часть исходных алертов; система распознавания охватила все 2 500+ активных потоков без пропорционального увеличения штата; платформа поддерживает зашифрованные цепочки доказательств для последующего юридического использования. Вертикаль другая — подход остаётся прежним: гибридные детекторы, настроенные оценки, удобный интерфейс для подавления ложных срабатываний и замкнутая петля обратной связи.

Когда ML-обнаружение аномалий НЕ нужно

Откажитесь от ML, если (а) простое правило уже даёт 95% пользы — использовать IF amount > threshold не стыдно; (б) у вас нет исторических данных и нет реального способа их собрать в ближайшие 6–12 месяцев; (в) ошибка модели может привести к катастрофическим и необратимым последствиям (например, при автономных медицинских решениях); (г) команда, поддерживающая систему, не справится с переобучением модели.

Честный ответ часто звучит так: «гибридные статистические пороги для очевидных случаев, ML для остального и живой человек, который ежедневно просматривает топ-10». Такое решение выпускается за недели, а не за кварталы.

Нужен второй взгляд на дорожную карту по обнаружению аномалий?

Проведём аудит данных, подберём подходящий алгоритм и уровень инструментов, оценим целесообразность разработки с использованием Agent Engineering.

Позвоните нам → Напишите нам →

FAQ

Какой алгоритм машинного обучения лучше всего подходит для обнаружения аномалий?

Единственного лучшего решения нет. Для табличных данных начните с Isolation Forest и ECOD; для временных рядов — с моделей на основе LSTM или Anomaly Transformer; для изображений — с PatchCore или PaDiM. Самые эффективные продакшен-решения объединяют два детектора с разными индуктивными смещениями и добавляют слой калибровки.

С учителем или без учителя — что выбрать?

По умолчанию — без учителя; аномалии обычно редки и не размечены. Используйте режим с частичным учителем, если у вас есть чистая выборка нормальных данных. Переходите к обучению с учителем только тогда, когда у вас есть сотни или тысячи размеченных аномалий одного типа — и в этом случае применяйте XGBoost или LightGBM с cost-sensitive loss и оценивайте качество по PR-ROC, а не по ROC-AUC.

Разрабатывать на PyOD или покупать Datadog/Splunk?

Если нужна система обнаружения аномалий поверх уже существующего стека мониторинга, а у вас нет команды по машинному обучению — проще купить готовое решение. Если у вас есть собственные данные, специфичная логика или требования по соответствию стандартам, под которые нет подходящего вендора, — разрабатывайте самостоятельно на PyOD или scikit-learn. Многие B2B-команды в итоге комбинируют оба подхода: используют SaaS-решения для инфраструктурных метрик и кастомный код — для уникальной части продукта.

Насколько точно обнаружение аномалий работает в реальной жизни?

По свежим промышленным исследованиям, автоэнкодеры показывают точность 87–89%, а Isolation Forest — 84–86% на шумных высокоразмерных данных. PatchCore и аналогичные методы уровня SOTA для изображений демонстрируют более 99% AUROC на наборе MVTec AD; на реальных фабриках ожидайте снижение на 5–15 пунктов. В качестве критерия выхода в продакшен большинство команд использует precision @ k ≥ 0,7 и recall ≥ 0,6.

Как удержать модель от дрейфа?

Запускайте еженедельные проверки на дрейф (индекс стабильности популяции, тест Колмогорова–Смирнова по ключевым признакам), переобучайте модель на скользящем окне и направляйте обратную связь от операторов в размеченную выборку. Онлайн-алгоритмы (Half-Space Trees, онлайн-Isolation Forest) полезны, когда распределения смещаются постепенно.

Сколько стоит развернуть систему обнаружения аномалий?

Настройка SaaS обходится в 1,1–3 млн ₽ за 2–4 недели. Табличный MVP с Isolation Forest и калибровкой — 3,3–8,2 млн ₽ за 6–10 недель. Сборка многомерных временных рядов с автоэнкодером — 6,7–16 млн ₽ за 10–16 недель. Регулируемые или критичные для безопасности развёртывания — 15–45 млн ₽ за 5–9 месяцев. Диапазоны учитывают наш ускоренный подход с Agent Engineering.

Как справляться с ложными срабатываниями и усталостью от алертов?

Три вещи в правильном порядке: откалибруйте скоры в сопоставимые процентильные ранги, добавьте слой подавления (ограничения по частоте, дедупликация, гистерезис, градация серьёзности) и сделайте кнопку «не аномалия» в один клик, чтобы операторы обучали модель. Подкручивать пороги без этого — биться не в ту стену.

Можно ли запускать обнаружение аномалий на edge-устройствах?

Да. Isolation Forest, ECOD и лёгкие автоэнкодеры хорошо работают на edge-устройствах через ONNX, TFLite или Core ML. Подходят для IoT, обработки видео прямо на камере и развёртываний с высокими требованиями к приватности, где сырые данные не должны покидать устройство.

Что почитать дальше

Видеонаблюдение

Обнаружение аномалий в видеонаблюдении в реальном времени

Паттерны потоковых детекторов и как держать нагрузку алертов на операторов в разумных пределах.

AI-видеонаблюдение

Система видеонаблюдения на базе ИИ для обнаружения аномалий

Архитектуры, модели и уроки из систем, которые мы запустили в масштабе.

Модели

Модели обнаружения аномалий для видеонаблюдения

Сравнение глубоких моделей, которые показывают себя в реальных условиях.

Мониторинг

Машинное обучение для мониторинга в реальном времени

Как сквозно собрать ML-петлю мониторинга и не утонуть в алертах.

Услуги

Услуги Фора Софт по интеграции ИИ

Наш стек, кейсы и быстрый способ оценить ваш AI-проект вместе с нами.

Готовы выпустить систему обнаружения аномалий, которая реально улучшает метрики?

Правильный ответ на вопрос «какой алгоритм машинного обучения выбрать для обнаружения аномалий?» зависит от типа ваших данных, количества размеченных примеров и того, насколько часто меняется окружающая среда. Начните с Isolation Forest и ECOD — это бесплатный и надёжный базис. Используйте автоэнкодер или Anomaly Transformer там, где это действительно нужно. Вложите в калибровку, удобство подавления ложных срабатываний и обратную связь от пользователей не меньше усилий, чем в саму модель.

Фора Софт давно внедряет ML-детекторы в видеонаблюдение, здравоохранение и SaaS-продукты, поэтому хорошо знает, где могут возникнуть проблемы. Подход Agent Engineering позволяет нам запускать проекты за месяцы, а не за кварталы. Если нужна консультация по алгоритму, архитектуре или бюджету — просто позвоните нам.

Получите второе мнение по плану обнаружения аномалий

30 минут с нашим ML-лидером, чёткий скоуп и диапазон стоимости, честный совет — разрабатывать или покупать.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

Полное руководство по алгоритмам машинного обучения для поиска аномалий (пошаговый план 2026)

Почему Фора Софт написала этот плейбук

Что такое обнаружение аномалий на самом деле

Где ML-обнаружение аномалий реально окупается в 2026 году

Ландшафт алгоритмов, разбитый по тому, что вам действительно нужно

Isolation Forest (iForest)

ECOD и COPOD

Local Outlier Factor (LOF) и DBSCAN/ HDBSCAN

One-Class SVM и Deep SVDD

Автоэнкодеры и вариационные автоэнкодеры

Модели для временных рядов: LSTM, TCN, Anomaly Transformer, Matrix Profile

Модели для изображений: PatchCore, PaDiM, EfficientAD

Алгоритмы — сводное сравнение

С учителем, с частичным учителем, без учителя — как выбрать

Эталонная продакшен-архитектура

Ландшафт инструментов: open-source, облако и SaaS

Бенчмарк-датасеты, которые имеют значение

Метрики, которые справляются с дисбалансом классов

Build vs. buy — матрица решения

Модель стоимости: реалистичные диапазоны без хайпа

Фреймворк решения: выберите алгоритм за пять вопросов

Подводные камни, которые губят проекты по обнаружению аномалий

KPI: что измерять

Мини-кейс: обнаружение аномалий на 2500+ потоках видеонаблюдения

Когда ML-обнаружение аномалий НЕ нужно

FAQ

Что почитать дальше

Готовы выпустить систему обнаружения аномалий, которая реально улучшает метрики?

Похожие статьи

Хотите обсудить ваш проект?