7 эффективных алгоритмов машинного обучения для обнаружения аномалий в видео с камерами наблюдения (руководство по построению пайплайна)

7 лучших алгоритмов машинного обучения для детекции аномалий в видеонаблюдении в 2026 году (руководство по пайплайну) — обложка

Детекция аномалий в видеонаблюдении — задача двухуровневая, а не одноалгоритмическая. Первый уровень — быстрая статистическая или геометрическая модель, которая отбирает подозрительные кадры (Isolation Forest, One-Class SVM, GMM, K-Means). Второй уровень — глубокая модель, которая анализирует, что именно происходит на кадре (CNN, LSTM, автоэнкодеры, а в 2026 году — и vision-трансформеры). Соберите их правильно — получите детекцию за менее чем секунду с долей ложных срабатываний <1% на типичных потоках с камер CCTV. Соберите неправильно — либо утонете в потоке уведомлений, либо пропустите именно тот момент, ради которого всё и затевалось. Этот гайд — рабочий каркас для принятия решений, который мы используем при реальных внедрениях у клиентов в 2026 году.

Стек для детекции аномалий в 2026: YOLO-NAS для обнаружения, DINOv2 для эмбеддингов, гибриды Isolation Forest + автоэнкодер для скоринга без разметки и трансформеры для распознавания действий в сложных событиях. Ориентир: <2% ложных срабатываний при 95% полноте на 20 наиболее распространённых классах аномалий в ритейле и на транспорте.

Подробнее по теме: читайте наш полный гайд — Топ-7 моделей детекции аномалий для видеонаблюдения (2026).

Главное

Один алгоритм не побеждает. Детекция аномалий в видеонаблюдении — это пайплайн: лёгкая модель для предварительного отбора, глубокая — для подтверждения.
Автоэнкодеры и CNN — лучшие для обнаружения пиксельных аномалий. Они учатся распознавать «нормальное» изображение и выделяют всё, что в него не вписывается.
LSTM и трансформеры — лучшие для временных аномалий. Слоняние, движение «на хвосте», нетипичные траектории — это задача для последовательных моделей, а не для покадровых.
Isolation Forest — ваш префильтр. Обрабатывает один образец за доли миллисекунды, работает с признаками высокой размерности и легко обновляется в режиме реального времени.
Edge-first — это стандарт 2026 года. Обработка данных происходит прямо на камере, а сложные вычисления — на региональном сервере. Объём трафика и риски утечки данных снижаются на 60–90%.
Данные важнее алгоритма. Даже самая лучшая модель на плохих данных проиграет простой модели на качественных. Выделяйте 60% времени проекта на разметку.

Почему Fora Soft подходит для ML-продуктов в видеонаблюдении
Двухуровневый процесс обнаружения аномалий
1. Isolation Forest — обнаружение выбросов за доли миллисекунды
2. One-Class SVM — обнаружение аномалий в ограниченном пространстве признаков
3. Свёрточные нейронные сети (CNN)
4. LSTM и временные трансформеры
5. Автоэнкодеры — поиск аномалий на уровне пикселей без разметки
6. K-Means — группировка по поведению
7. Смеси гауссовых распределений (GMM)
Таблица сравнения алгоритмов
Как выбрать алгоритм в зависимости от задачи
Кейс: платформа видеонаблюдения V. A. L. T.
Развертывание на edge и в облаке
5 ловушек в продакшене
FAQ
Итоги

Почему Фора Софт подходит для ML-продуктов в видеонаблюдении

Мы выпускаем продукты для видеонаблюдения и видеоаналитики с 2012 года: 97% успешных проектов и более 200 выпущенных продуктов, выделенная команда по машинному обучению и сильная экспертиза в WebRTC, приёме RTSP/ONVIF и развёртывании на edge-устройствах NVIDIA/Jetson. Что касается детекции аномалий — мы внедрили в продакшен решения на основе Isolation Forest, One-Class SVM, автоэнкодеров, CNN из семейства YOLO и временных моделей на LSTM/трансформерах, включая платформу V. A. L. T., о которой расскажем ниже.

Берите гибридные стеки, когда: точность одной модели перестала расти. Связка вычитания фона, CNN и трансформера работает лучше, чем любая отдельная модель.

Что это значит для вашего продукта: мы не выбираем алгоритм по списку. Мы анализируем топологию ваших камер, допустимые задержки, стоимость разметки и цену ошибки — и предлагаем двухуровневый пайплайн: отсев и подтверждение. Алгоритмы ниже отражают реальные продакшен-стеки, а не обзор из научной литературы.

Строите продукт для видеонаблюдения или видеоаналитики?

Свяжитесь с нами. Подберём пайплайн детекции аномалий под количество ваших камер, допустимые задержки и стоимость ошибки — всё за один разговор, а не за три недели тендера.

Позвоните нам → Напишите нам →

Двухуровневый пайплайн детекции аномалий

99% видео с камер видеонаблюдения — это обычная рутина. Обрабатывать каждый кадр с помощью глубокой нейросети — значит зря нагружать GPU и получать ложные срабатывания. Паттерн, который мы применяем в проектах 2026 года, выглядит так:

Откажитесь от чистого облачного инференса, когда: у вас ограниченный бюджет на трафик. Инференс на edge сокращает трафик на 80% и более — вы отправляете события, а не весь видеопоток.

Уровень 1 — отсев (на edge). Извлекаете признаки (векторы движения, гистограммы, ограничивающие рамки объектов) и прогоняете через быструю модель без учителя — Isolation Forest или GMM — с настройкой на высокую полноту и среднюю точность. Менее миллисекунды на кадр.
Уровень 2 — подтверждение (региональный сервер). Для отмеченных кандидатов показывайте окно на 2–5 секунд в связке CNN + LSTM (или vision-трансформер), которая выдаёт интерпретируемый показатель аномальности и метку класса.
Уровень 3 — проверка человеком (опционально). Если score выше порога — клип с ограничивающими рамками попадает в очередь оператора. По всем важным вопросам окончательное решение остаётся за человеком.

Уровень 1 снижает нагрузку на Уровень 2 в 30–100 раз. Уровень 2 снижает нагрузку на Уровень 3 в 10–50 раз. На реальных проектах с сотнями камер оператор получает примерно один важный алерт в час.

1. Isolation Forest — отсев за доли миллисекунды

Что это. Ансамбль случайных бинарных деревьев. Чем меньше разбиений нужно, чтобы выделить точку, тем выше её аномальность. Модель обучается только на «нормальных» данных, разметка не требуется.

Почему это важно для видеонаблюдения. Инференс занимает доли миллисекунды на обычных CPU, обрабатывает векторы признаков размерности 50–500 (движение, оптический поток, количество объектов), модель обновляется в реальном времени — можно переобучать ночью на данных последних 24 часов «нормального» поведения, не храня размеченный датасет. Это наша базовая модель фильтрации на Уровне 1 в стеке 2026 года.

В чём слабость. Не понимает пиксели. Если подать на вход сырые массивы изображений, она проиграет любой глубокой модели. Всегда работает в паре со стадией извлечения признаков.

Берите, когда: нужен префильтр с высокой полнотой на извлечённых признаках — счётчики объектов, векторы траекторий, тепловые карты загруженности. Рабочая лошадка Уровня 1.

2. One-Class SVM — аномалии в ограниченном пространстве признаков

Что это. Метод опорных векторов, обученный только на «нормальных» данных: строит границу в пространстве признаков. Всё, что за пределами этой границы, — аномалия.

Операционный приоритет: реальный риск — дрейф модели. Планируйте переобучение раз в квартал с учётом освещения, погоды и сезонных изменений.

Почему это важно для видеонаблюдения. Лучший выбор, когда «норма» узкая и хорошо определена: охраняемое помещение ночью, пустая производственная линия, конкретный маршрут транспорта. Ядровой SVM ловит нелинейные паттерны нормы, которые упустит Isolation Forest.

В чём слабость. Обучение плохо масштабируется выше ~50 тыс. примеров. Подбор гиперпараметров (ν, γ) чувствителен, и настраивать их в процессе работы неочевидно.

Берите, когда: у вас чётко определённая норма и не более 50 тыс. обучающих примеров — например, спецзоны с ограниченным доступом, оборудование, сборочные линии.

3. Свёрточные нейронные сети (CNN)

Что это. Основа современного компьютерного зрения. В видеонаблюдении CNN используют в трёх задачах: обнаружение объектов (YOLOv10/11, RT-DETR), классификация (есть или нет нетипичный объект) и как извлекающие признаки компоненты для последующих моделей.

Почему это важно для видеонаблюдения. Любая семантически осмысленная аномалия — «человек в запретной зоне», «оставленный предмет», «появилось оружие» — лучше всего решается как задача детекции или классификации объектов с использованием CNN. YOLOv11 на FP16 даёт около 80 кадров в секунду на Jetson Orin Nano, так что развёртывание на краю сети вполне реально.

В чём слабость. CNN обрабатывают кадры по отдельности. Всё, что связано со временем — например, слежение, движение «на хвосте» или необычные траектории — требует модели, способной работать с последовательностями.

Берите, когда: аномалия семантическая и видна в одном кадре — детекция объектов, классификация, вторжение в зону, обнаружение оставленных предметов.

4. LSTM и временные трансформеры

Что это. Модели, обрабатывающие последовательности признаков (обычно эмбеддинги CNN по кадрам) и выдающие оценку аномальности для временного окна. В 2026 году трансформеры (TimeSformer, VideoMAE) обгоняют классические LSTM на бенчмарках, но LSTM всё ещё лучше подходят для развёртывания на CPU в условиях ограниченных ресурсов.

Типичная ошибка: игнорировать объяснимость. В регулируемых отраслях карты внимания, ограничивающие рамки и журналы аудита — обязательны.

Почему это важно для видеонаблюдения. Большинство интересных аномалий — это временные паттерны: слоняние, движение в обратную сторону, проход «на хвосте», резкие отклонения во времени пребывания, необычные потоки людей и транспорта. Одной CNN их не распознать. LSTM или трансформер поверх признаков CNN — проверенный подход 2026 года.

В чём слабость. Обучающих данных по редким временным аномалиям мало. Часто приходится генерировать синтетические данные — с помощью симуляторов или методов генеративной аугментации.

Берите, когда: аномалия проявляется во времени — слежение, движение «на хвосте», отклонения в траекториях, выбросы по времени пребывания, необычная динамика скоплений людей.

5. Автоэнкодеры — поиск аномалий на уровне пикселей без разметки

Что это. Нейросеть типа энкодер-декодер, обученная восстанавливать «нормальные» кадры. Чем хуже она восстанавливает — тем выше оценка аномальности. Варианты: вариационные автоэнкодеры (VAE) и ConvLSTM-автоэнкодеры (пространственно-временные).

Почему это важно для видеонаблюдения. Без разметки — никаких меток. Модель учится на часах «нормального» видео, а затем помечает всё, что не может реконструировать. Крайне полезно, когда заранее непонятно, какие аномалии искать.

В чём слабость. Может слишком хорошо обобщать: если реконструирует всё подряд — реконструирует и аномалию. Лечится автоэнкодерами с памятью или GAN-вариантами.

Берите, когда: у вас много обычного видео, словарь аномалий неизвестен и нет денег на разметку. Классика для промышленного мониторинга и длительного наблюдения за общественными пространствами.

6. K-Means — кластеризация поведения

Что это. Алгоритм кластеризации, который делит данные на K групп. Для поиска аномалий помечают точки, сильно удалённые от любого центроида, или те, что оказались в маленьком изолированном кластере.

Почему это важно для видеонаблюдения. Дешево, понятно и отлично подходит для кластеризации траекторий. «Нормальные» посетители торгового зала обычно следуют по нескольким десяткам типичных маршрутов — если траектория не попадает ни в один из кластеров, это повод обратить на неё внимание.

В чём слабость. K нужно задавать заранее. Кластеры должны быть сферическими — несферические распределения сбивают алгоритм с толку. Для пиксельных данных не подходит.

Берите, когда: траектории, паттерны загруженности или поведенческие векторы хорошо описываются небольшим числом типичных режимов — например, в ритейле, аэропортах или транспортных узлах.

7. Смеси гауссовских распределений (GMM)

Что это. Вероятностная модель, которая описывает данные как смесь нормальных распределений. Точки, у которых очень низкая вероятность во всех компонентах, считаются аномалиями. Также часто используется для выделения фона в классических пайплайнах компьютерного зрения.

Почему это важно для видеонаблюдения. Стандартный подход для моделирования фона на сценах со стационарной камерой — MOG2/КNN в OpenCV — основан на GMM. Такой метод даёт пиксельные маски, показывающие, «что здесь не должно быть», и остаётся стабильным при неизменной картинке.

В чём слабость. Движущиеся камеры, постепенный дрейф освещения, повторяющиеся движения (листва, флаги). Нужна пара — компенсация движения или обученная модель признаков.

Берите, когда: видеонаблюдение со стационарных камер, где аномалия — это «что нового появилось в кадре»: припаркованные машины, оставленные предметы, вторжение в периметр.

Таблица сравнения алгоритмов

Алгоритм	Для чего лучше	Задержка	Нужна разметка	Типичный FPR
Isolation Forest	Отсев по признакам (Уровень 1)	<1 мс CPU	Нет	3–8%
One-Class SVM	Сцены с узкой нормой	1–5 мс	Нет (только норма)	2–6%
CNN (YOLO/RT-DETR)	Семантические покадровые аномалии	12–80 кадров в секунду на edge	Да (рамки)	<1% (зрелая)
LSTM / трансформер	Временные аномалии	5–20 мс GPU	Да (полная или слабая)	1–3%
Автоэнкодер	Неизвестный словарь аномалий	5–30 мс GPU	Нет	3–10%
K-Means	Кластеризация траекторий	<1 мс CPU	Нет	5–12%
GMM	Вычитание фона	<5 мс CPU	Нет	2–8%

Выбор алгоритма по варианту использования

Периметр и зональное вторжение. YOLO-CNN детектор → Isolation Forest на признаках траектории для проверки времени пребывания.
Оставленные предметы. Вычитание фона на основе GMM → классификация кандидатов с помощью CNN.
Слоняние. CNN-детекция и трекинг → LSTM или временной трансформер на признаках треков.
Аномалии в толпе (паника, драки, изменение направления движения). Автоэнкодер на основе плотного оптического потока с временным трансформером.
Промышленность, конвейер, производственная линия. One-Class SVM на признаках, автоэнкодер на пикселях, управляемая CNN на известных дефектах.
Анализ траекторий в ритейле. K-Means по траекториям людей плюс Isolation Forest на признаках корзины и времени пребывания.

Кейс: V. A. L. T. — исследовательская платформа видеонаблюдения

Задача. V. A. L. T. — платформа видеонаблюдения и записи для исследовательских кабинетов, установленная более чем в 100 университетах и научно-медицинских учреждениях. Операторам требовались автоматические оповещения об аномалиях в ходе сессий — например, появление посторонних, использование оборудования не по назначению или необычное поведение участников — при этом без большого количества ложных срабатываний.

Стек, который мы собрали. Уровень 1: фильтрация по движению и загруженности на GMM на edge-боксах записи. Уровень 2: CNN семейства YOLO для обнаружения людей и оборудования, а также компактная LSTM по траекториям детекций — для анализа времени пребывания и выявления аномалий в маршрутах. Уровень 3: очередь задач для оператора в веб-интерфейсе V. A. L. T. с разметкой клипа одним кликом, которая возвращается в систему обучения.

Результат. Доля ложных срабатываний снизилась с ~11% до <1,2% за три месяца работы петли обратной связи с операторами. Среднее время выявления аномалии в сессии — с 45 минут ручного просмотра до ~9 секунд. Загрузка GPU на edge-боксах не превышала 30%, оставляя запас для дополнительной аналитики.

Есть кейс по детекции аномалий в видеонаблюдении?

Свяжитесь с нами — поможем построить пайплайн Уровня 1 и Уровня 2 под топологию ваших камер и стоимость ошибки.

Позвоните нам → Напишите нам →

Деплой на edge и в облаке

Дефолт 2026 года — гибрид с приоритетом edge. Отсев на Уровне 1 (Isolation Forest, GMM, лёгкая CNN) работает на самой камере или на edge-устройстве — Jetson, Hailo или Ambarella. Глубокие модели Уровня 2 — на региональном сервере (on-prem или в VPC). Интерфейс оператора Уровня 3 — в облаке или on-prem, в зависимости от требований к приватности.

Конкретные edge-цели на 2026: Jetson Orin Nano (8–16 TOPS, около 18 750 ₽), Hailo-8 (26 TOPS, около 11 250 ₽), Ambarella CV5 в самой камере. Все они легко справляются с компактными версиями YOLOv10/11 в разрешении 720p со скоростью не менее 30 кадров в секунду.

Экономия трафика от обработки на edge заметна: в V. A. L. T. мы зафиксировали сокращение исходящего трафика на 78% по сравнению с полностью облачной обработкой.

5 ловушек в продакшене, которые мы устранили

Обучение на чистых бенчмарках, деплой на грязных реальных потоках. UCSD Ped2 и ShanghaiTech хороши для публикаций — но это не ваша камера. Всегда собирайте неделю данных с площадки, прежде чем замораживать модель.
Нет петли обратной связи к разметке. Операторы отбрасывают ложные срабатывания. Ловите эти отбрасывания и возвращайте их в обучение. Только это сократило FPR V. A. L. T. вдвое за 90 дней.
Игнорирование концептуального дрейфа. Завод сменил смены, магазин — планировку — и ваша модель «нормы» перестала работать. Запланируйте ночное переобучение на данных за последние 7 дней.
Один порог на все случаи. Один порог не может одновременно определять «подозрительное поведение» и требовать «вызывать полицию». Используйте многоуровневые пороги с разными очередями обработки.
Не заложен бюджет на разметку. Для работы пайплайнов на уровне продакшена с CNN и LSTM нужно 5–20 тыс. размеченных событий. Закладывайте 15–75 ₽ за каждое событие и 6–12 недель на организацию процесса разметки.

Часто задаваемые вопросы

Какой алгоритм лучше для обнаружения аномалий в видеонаблюдении в реальном времени?

Одного алгоритма не существует. Продакшен-паттерн 2026 года: Isolation Forest или GMM на edge для фильтрации на Уровне 1, плюс CNN из семейства YOLO и временной LSTM или трансформер для подтверждения на Уровне 2. Пайплайны, основанные на одном алгоритме, либо перегружают операторов ложными срабатываниями (слишком чувствительные), либо пропускают реальные события (слишком консервативные).

Нужна ли разметка для обучения детектора аномалий?

Для Уровня 1 — нет. Isolation Forest, GMM, One-Class SVM и автоэнкодеры обучаются только на «нормальных» данных. Уровню 2 (семантическая детекция) для достижения точности в продакшене обычно требуется 5–20 тыс. размеченных кадров или клипов. Заложите бюджет на разметку до того, как соглашаться на CNN-подход.

Вытесняют ли vision-трансформеры CNN в 2026 году?

На бенчмарках — да, для крупных моделей. В реальном видеонаблюдении CNN пока остаются лидерами: на периферийном оборудовании у них выше скорость работы и лучше поддержка квантизации. Ожидайте, что трансформеры сначала закрепятся на уровне регионального сервера (Уровень 2), а потом появятся на периферии — по мере того как оборудование на периферии подойдёт к ним по возможностям к 2027–2028 году.

Какой целевой FPR закладывать?

Число задаёт толерантность оператора. Один оператор на 100 камер может обрабатывать примерно 1–2 алерта в час — дальше начинается усталость от уведомлений. Если модель выдаёт 40 алертов на камеру в сутки, вы фактически создаёте шум. Для большинства задач видеонаблюдения целевой FPR на границе решения Уровня 2 — менее 1,5%.

Можно ли крутить всё это на камере?

Уровень 1 — да. Isolation Forest, GMM и лёгкие CNN легко работают на современных SoC-камерах (Ambarella CV5, HiSilicon) и edge-устройствах уровня Jetson. Уровень 2 (тяжёлая CNN плюс LSTM или трансформер) лучше размещать на региональном сервере, особенно если к нему подключено несколько камер. В 2026 году оптимальный баланс цены и задержки — обработка Уровня 1 на edge, Уровня 2 — на региональном сервере.

А что с приватностью и регулированием?

Применяются GDPR, EU AI Act и законы о биометрии на уровне отдельных юрисдикций. Обработка на edge сильно упрощает соблюдение требований: сырое видео не покидает площадку, наружу передаются только метаданные алертов и короткие видеодоказательства. Если поток всё же должен покидать площадку, применяйте размытие лиц и номеров на edge. Поддерживайте политику хранения данных и подписывайте DPA с каждым поставщиком ML-решений.

Сколько времени занимает создание системы детекции аномалий для продакшена?

MVP пайплайна на одной заранее определённой сцене: 6–10 недель. Продакшен-решение для нескольких сцен и площадок с петлёй обратной связи и интерфейсом оператора: 4–6 месяцев. Самое долгое — сбор данных и разметка, а не работа над ML.

Итоги

Семь алгоритмов выше — это не рейтинг, а набор инструментов. Isolation Forest и GMM отсевают выбросы; One-Class SVM работает в строго определённых сценариях; CNN отвечают за понимание содержимого кадра; LSTM и трансформеры — за анализ временных закономерностей; автоэнкодеры выявляют неизвестные аномалии; K-Means группирует поведение. В продакшене вопрос стоит не «какой выбрать?», а «какой двухуровневый пайплайн собрать?» — и каждый серьёзный продукт видеонаблюдения, который мы выпускаем в 2026 году, сочетает быстрый первичный отсев без разметки с глубоким семантическим анализом.

Инженерная реальность: модели — это 30% проекта. Данные, разметка, обратная связь от операторов, борьба с дрейфом и edge-деплой — остальные 70%. Закладывайте бюджет соответственно.

Готовы спроектировать AI-пайплайн для вашего видеонаблюдения?

Свяжитесь с нами — разберём пайплайн, бюджет на задержки, экономику разметки и особенности edge-оборудования под ваши камеры и сценарии.

Позвоните нам → Напишите нам →

Читать дальше

Android и SDK

Лучшие Android SDK для приложений видеонаблюдения в 2026

Матрица решений по затратам, ИИ и комплаенсу — четыре трека.

Архитектура VMS

Масштабируемые системы управления видео в 2026

Пять инженерных решений, которые реально определяют масштаб VMS.

AI-видео

5 лучших инструментов ИИ для улучшения видео в 2026

Гайд по выбору с фокусом на пайплайн — задержки, SDK, стоимость.

Источники и материалы: бенчмарки аномалий UCSD Pedestrian и ShanghaiTech; документация от производителей NVIDIA Jetson Orin, Hailo, Ambarella CV5; статьи по YOLOv10/11 и RT-DETR; данные внедрений V. A. L. T. компании «Фора Софт» (2020–2026, с разрешения клиента).

Нужна помощь с оценкой для вашего роадмапа? Свяжитесь с нами — обсудим все детали за один разговор.

Матрица сравнения: разработать, купить, гибрид или open-source для ML-детекции аномалий в видеонаблюдении

Быстрая решётка для четырёх типовых путей в 2026 году. Берите строку, которая соответствует размеру команды, регуляторной нагрузке и желаемому сроку получения результата — а не ту, что звучит амбициознее всего.

Подход	Для кого	Трудозатраты	Время до результата	Риски
Купить готовый SaaS	Команды до 10 инженеров, типовой сценарий	Низкие (1–2 недели)	1–2 недели	Привязка к вендору, ограничения кастомизации
Гибрид (SaaS плюс свой слой)	Средний бизнес, смешанные сценарии	Средние (1–2 месяца)	1–3 месяца	Технический долг на стыке: две системы в эксплуатации
Своя разработка (современный стек)	Корпорации, уникальные данные или соответствие требованиям	Высокие (3–6 месяцев)	6–12 месяцев	Скорость разработки, удержание специалистов
Open-Source на своём хостинге	Когда важна стоимость, сильная техническая команда	Высокие (2–4 месяца)	3–6 месяцев	Операционная нагрузка, обновления безопасности

Ещё материалы Фора Софт

AI-инструменты улучшения видео
AI-распознавание эмоций в реальном времени
Масштабируемые системы управления видео

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным ИИ	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь — полноценный продукт, а не просто функция.
Время в приложениях с генеративным ИИ	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь конкурируют с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают не менее одной AI-функции	Не выпускать ИИ в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации влияют на финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн — только на мобильных)	Пользователи ожидают, что голосовой и текстовый ИИ будет работать везде.
Прогноз Gartner	Использование мобильных приложений снизится на 25% к 2027 году (из-за AI-ассистентов)	Приложения без встроенного ИИ будут терять пользователей в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + оплата за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ за 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (скидка 50% при батч-обработке)
Google Gemini API	Облако	Мультимодальность, экономичный текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ за изображение
Azure Cognitive Services	Облако	Корпоративное видение, стиль общения, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K–12), более 1 500 сценариев по учебной программе	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые создают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

7 эффективных алгоритмов машинного обучения для обнаружения аномалий в видео с камерами наблюдения (руководство по построению пайплайна)

Почему Фора Софт подходит для ML-продуктов в видеонаблюдении

Двухуровневый пайплайн детекции аномалий

1. Isolation Forest — отсев за доли миллисекунды

2. One-Class SVM — аномалии в ограниченном пространстве признаков

3. Свёрточные нейронные сети (CNN)

4. LSTM и временные трансформеры

5. Автоэнкодеры — поиск аномалий на уровне пикселей без разметки

6. K-Means — кластеризация поведения

7. Смеси гауссовских распределений (GMM)

Таблица сравнения алгоритмов

Выбор алгоритма по варианту использования

Кейс: V. A. L. T. — исследовательская платформа видеонаблюдения

Деплой на edge и в облаке

5 ловушек в продакшене, которые мы устранили

Часто задаваемые вопросы

Итоги

Читать дальше

Матрица сравнения: разработать, купить, гибрид или open-source для ML-детекции аномалий в видеонаблюдении

Ещё материалы Фора Софт

Похожие статьи

Хотите обсудить ваш проект?