Машинное обучение в домофонах: плейбук владельца продукта на 2026 год

Домофон с машинным обучением, обработкой естественного языка и интеллектуальным взаимодействием с пользователем

Ключевые выводы

• ML в домофонах превратился из конкурентного преимущества в базовое требование. Видеодомофоны с AI занимают более 60% новых установок, а рынок IP-домофонов вырастет с 187,5 млрд ₽ в 2024 году до 570 млрд ₽ к 2033 году (CAGR 10,8%).

• Реальную работу выполняют четыре ML-стека: устойчивое к шуму распознавание речи (Whisper + RNNoise + Silero VAD), распознавание лиц (YOLOv8 + ArcFace + проверка живости), детекция посылок и людей (FOMO или MobileNet на устройстве) и маршрутизация намерений через небольшие LLM.

• Для большинства сценариев домофонов edge выигрывает у облака и по задержке, и по совокупной стоимости. Инференс на устройстве укладывается в 10–100 мс и сокращает трафик примерно на 80%; полностью облачные пайплайны добавляют 200–2000 мс, а расходы на исходящий трафик растут вместе с нагрузкой.

• Биометрия включает регуляторику с первого дня. EU AI Act относит удалённую биометрическую идентификацию к категории высокого риска (полные правила вступают в силу в августе 2027 года), применяется статья 9 GDPR, а закон BIPA в штате Иллинойс подставляет вендоров под штрафы в 75 000–375 000 ₽ за каждое нарушение.

• Самая дорогая ошибка — не запустить пилот. ML-пилот на одном здании или одной модели устройства за 6–10 недель даст вам больше, чем 12-месячный план развития — начните с одной модели, одной метрики и одной точки развёртывания.

Почему этот плейбук написала Фора Софт

Мы разрабатываем мультимедийное ПО с 2005 года. За два десятилетия Фора Софт построила платформы видеостриминга, инструменты для видеоконференций на WebRTC, системы распознавания на базе AI и — что особенно важно для этой статьи — продукты для подключённых домофонов и видеонаблюдения, которые должны надёжно работать в подъездах, лобби, клиниках и судах, где сеть посредственная, а пользователи нетерпеливы.

Наш проект Netcam Studio заменил WebcamXP — одно из первых приложений для видеонаблюдения (2003) — на переработанный интерфейс с детекцией движения, распознаванием объектов и просмотром нескольких камер одновременно: те же ML-кирпичики, из которых сейчас собирают умный домофон. Мы также управляем развёртываниями в масштабе крупных камерных ферм: наш сервис видеонаблюдения работает с более чем 2 000 IP-камер в реальных проектах и использует edge-классификацию людей, транспорта и животных, чтобы сократить ложные срабатывания.

Этот плейбук — та самая статья, которую нам самим хотелось бы прочитать в 2020 году. Он написан для владельцев продуктов, которые решают, какие ML-функции добавить в домофон (жилой, многоквартирный, коммерческий или для здравоохранения), как их собрать и сколько заложить в бюджет. Текст откровенный, технический там, где это нужно, и построен вокруг компромиссов, с которыми наша команда реально сталкивалась на клиентских проектах.

Думаете о добавлении ML в дорожную карту домофона?

За 30 минут проведём аудит вашего продукта и подскажем, какие две-три ML-функции дадут максимальный прирост по метрикам — без презентаций ради презентаций.

Позвоните нам → Напишите нам →

Снимок рынка — где на самом деле находится машинное обучение в домофонах

Рынок IP-домофонов растёт быстрее, чем сегмент умного дома в целом. Аналитики оценивают его в 187,5 млрд ₽ в 2024 году с ростом до 570 млрд ₽ к 2033 году при CAGR 10,8%. Более широкая категория систем контроля доступа в здания движется по похожей траектории: 997,5 млрд ₽ в 2025 году и 1 680 млрд ₽ к 2033 году. Биометрические считыватели уже дают 41% новых установок, ещё 33% приходится на облачные сервисы контроля доступа (Access Control-as-a-Service, ACaaS).

Для владельца продукта это значит одно: вы больше не продаёте «домофон с AI в роадмапе». Покупатели ждут разблокировку по лицу, оповещения о посылках, управление через мобильное приложение и голосовые команды как базовый набор. Машинное обучение в домофонах улучшает коммуникации, но главное — держит продукт на плаву. Вендоры, которые откладывают ML, теряют сделки на этапе сравнения функций ещё до первого звонка с отделом продаж.

Самый быстрый рост даёт Азиатско-Тихоокеанский регион (CAGR 11–12%) за счёт плотной высотной застройки; Северная Америка и Европа растут медленнее, но с куда более тяжёлой регуляторной нагрузкой (см. разделы об EU AI Act и BIPA ниже). Сначала выберите географию запуска, потом стек.

ML-функции, которые реально влияют на продажи

Из десятков функций, которые можно прикрутить к домофону, на поведение покупателя влияют единицы. Остальное — маркетинговая шелуха. Ниже короткий список в порядке приоритета.

1. Двусторонняя связь, устойчивая к шуму

Почему это важно. Консьерж разбирает речь через уличный шум; ваш домофон должен уметь так же. RNNoise (GRU на 22 полосы, работает менее чем за 1 мс на обычных CPU) в паре с Silero VAD (1,8 МБ, real-time factor 0,004) убирает стационарный шум и выделяет речь. Подайте чистый звук на Whisper или менее тяжёлую ASR-модель — и качество распознавания вырастет с «нельзя работать» до «почти как человек» даже в шумном лобби.

2. Распознавание лиц с проверкой живости

Почему это важно. Открытие по нажатию не работает, когда жильцы забывают карты. Разблокировка по лицу обязана быть и быстрой (меньше 500 мс), и устойчивой к подделке. Современный стек: YOLOv8 для локализации лица, ArcFace или FaceNet для эмбеддингов 128–512D и CNN-классификатор живости, объединяющий глубину, rPPG (пульс по микроизменениям тона кожи) и реакцию радужки на свет. Сэкономьте на проверке живости — и распечатанная фотография откроет вам дверь.

3. Детекция посылок и людей

Почему это важно. Ring запустил эту функцию, потому что она — единственная, которую жильцы просят сразу после разблокировки. FOMO (Faster Objects, More Objects) укладывается в 200 КБ оперативной памяти и работает в 30× быстрее MobileNet SSD — идеально для дешёвых edge-ускорителей. Правильно подберите обучающую выборку (картонные коробки, конверты, игрушки для животных, кадры с одними ногами в кадре) — иначе будете весь день получать ложные срабатывания.

4. Классификация намерений для сортировки посетителей

Почему это важно. Когда посетитель говорит в домофон, вы хотите различить курьера, мастера, гостя и поставщика, не дёргая жильца. Небольшие трансформерные классификаторы намерений (DistilBERT, MiniLM или открытая LLM на 1B параметров) делают это локально за 200–400 мс. Бизнес-результат: жильцы отвечают на 30–40% меньше ненужных вызовов.

5. Предиктивное обслуживание и алерты по аномалиям

Почему это важно. Управляющие зданиями готовы платить ежемесячно за «домофон сам сообщает о неполадке, пока жильцы не позвонили». Лёгкая модель временных рядов (ARIMA или маленькая LSTM) ловит дрейф микрофона, умирающие электрозамки и обрывы аплинка. Здесь B2B-домофоны переходят от продажи «один раз» к регулярной выручке.

Берите распознавание лиц первым, когда: ваш покупатель — жилой комплекс с 50+ квартирами в доме, а главная тема обращений в поддержку — «забыл ключ». Всё остальное (детекция посылок, шумоподавление) подождёт, пока разблокировка не станет беспроблемной.

Четыре ML-стека внутри современного домофона

Выбирайте стек под задачу, а не наоборот. Вот что реально ставят сегодня и что оно делает на устройстве.

Аудиостек — речь и шум

Пайплайн почти всегда такой: захват с микрофона → Silero VAD (активность голоса) → RNNoise или Deep Noise Suppression (стационарный и нестационарный шум) → Whisper distil-small или аналог (транскрипция) → классификатор намерений. Whisper обучался на 680 тыс. часов многоязычной речи; его маленькая квантованная версия работает за 80–150 мс на одну фразу на ARM Cortex-A76. Для чисто wake-word или маршрутизации команд классификатор на 10 МБ всегда обыграет универсальный ASR.

Стек компьютерного зрения — лица и посылки

Для доступа схема такая: YOLOv8-nano (детекция лица и тела) → выравнивание → эмбеддинг ArcFace/FaceNet → матчинг 1:N по зарегистрированной галерее → классификатор живости. Для анализа сцены (доставка посылок, праздное ожидание у двери) подходит YOLOv8 или FOMO, работающий на 2–10 кадров в секунду на edge-чипе, который отправляет в облако только вырезки кадров с событиями.

NLP-стек — намерения и саммари

Для сортировки посетителей DistilBERT или MiniLM на нескольких сотнях размеченных примеров даёт 90%+ точности по намерению при инференсе 50–80 мс. Для более содержательных саммари («с 18 до 20 пришло пять курьеров Uber Eats») сгодится небольшая открытая LLM (Llama 3.2 3B, Mistral 7B) на шлюзе; отправка аудио в облачную LLM добавляет задержку и поднимает вопросы приватности.

Стек аномалий — здоровье устройства и фрод

Детекция аномалий во временных рядах (Isolation Forest, one-class SVM или небольшие LSTM) по телеметрии устройства ловит уходящее в отказ железо. Для «прохода на хвосте», незаметного входа за чужой картой и долго открытой двери 3D-CNN, распознающая действия по видео, ловит паттерны, которые правила не видят.

Не уверены, какой ML-стек подойдёт вашему железу?

Пришлите текущий BOM — скажем, какие модели поместятся в SoC, который у вас уже стоит, а каким нужен апгрейд железа.

Позвоните нам → Напишите нам →

Edge или облако — где запускать модели

Это самое дорогое архитектурное решение в подключённом домофоне. Edge выигрывает по задержке, приватности и долгосрочной стоимости; облако — по свежести моделей, аналитике и стартовым затратам на железо. Большинство работающих систем гибридные.

Критерий	Edge	Облако	Гибрид (рекомендуем по умолчанию)
Задержка на инференс	10–100 мс	200–2000 мс (включая RTT)	Быстрый путь на устройстве, медленный — в облаке
Расход трафика	−80% к полному потоку	Постоянная загрузка	Только ролики по событиям
Приватность	Высокая — сырые медиа не покидают устройство	Ниже — всё медиа идёт наружу	Высокая — только метаданные
Стоимость железа (BOM)	Выше (NPU или GPU)	Ниже	NPU среднего класса
TCO за 5 лет (100 дверей)	Ниже на 30–60% при масштабе	Растёт с нагрузкой	Обычно дешевле всего в сумме
Частота обновления моделей	OTA, реже	Непрерывно	Горячая подмена через CDN

Большинство серийных домофонов работают по схеме двухуровневого инференса: wake-word, обрезка кадра с лицом и отметка посылки — на устройстве; идентификация, транскрипция и саммари — в региональном облаке, и только по метаданным. Именно так Ring держит свои быстрые оповещения «курьер с белой посылкой» и при этом продолжает централизованно улучшать модель. Подробнее этот компромисс мы разбираем в нашем материале об AI-видеоаналитике для безопасности.

Берите чистое облачное решение только когда: ваш домофон — app-first продукт без выделенного железа (то есть SaaS-инструмент, а не панель у двери), либо вам осознанно не нужны отклики быстрее 500 мс.

Сравнение вендоров — что реально продают крупные игроки

Прежде чем что-то строить, посмотрите на конкурентов. Покупатели уже сравнивают Akuvox, 2N, DoorBird, ButterflyMX, Ring, Dahua и Hikvision по ML-функциям. Вот что заявлено в их актуальных публичных спецификациях.

Вендор	Ключевая AI-функция	Где работает инференс	Ценовой сегмент
Akuvox R29	Распознавание лиц с проверкой живости, SIP/ONVIF	На устройстве	~134 тыс. ₽ за железо
2N IP Verso	Модульная биометрия, до 1 999 контактов	На устройстве (опционально облако)	~75–112 тыс. ₽
DoorBird D21x	Объектив 180°, детекция движения, облачная запись	Облако (немного на устройстве)	28–375 тыс. ₽
ButterflyMX	Подтверждение доставок через приложение, HD-видео	Облако	SaaS (за квартиру в месяц)
Ring Video Doorbell	Детекция посылок, AI-описание сцены	Гибрид (edge + AWS)	Потребительский (7,5–26 тыс. ₽)
Dahua WizMind	Распознавание лиц, подсчёт людей, тепловые карты	На устройстве	B2B, варьируется
Hikvision	Детекция объектов на нейросетях, ночное видение See Clearer	На устройстве	B2B, корпоративный

Закономерность очевидна: серьёзные аппаратные вендоры держат инференс на устройстве; app-first и потребительские бренды опираются на облако. Если вы строите платформу поверх чужого железа (программный продукт для домофона), исходите из того, что чипы будут разные, и закладывайте раннтайм модель-серверса, способный работать на разных SoC.

Модель затрат — сколько на самом деле стоит ML-домофон

Разброс большой, поэтому даём ориентиры для продукта средней сложности: одно мобильное приложение домофона (iOS + Android), одна админ-панель, edge-сервис со шлюзом и тремя ML-функциями (разблокировка по лицу с проверкой живости, детекция посылок, ASR с шумоподавлением) и небольшой облачный бэкенд. Цифры предполагают пайплайн Agent Engineering Фора Софт — он обычно сокращает сроки на 20–35% относительно классической агентурной разработки.

Этап	Типовая длительность	Что получаете
Discovery и ML-фезибилити	2–3 недели	Архитектуру, шорт-лист моделей, план по данным, профилирование под целевое железо
Пилот по одной функции	6–10 недель	Рабочую модель на целевом чипе + интеграцию с приложением + развёртывание на одном здании
MVP (3 ML-функции)	4–6 месяцев	Разблокировку по лицу с живостью, детекцию посылок, голос/ASR, приложения, админку, бэкенд
Полная платформа	9–14 месяцев	Мультиарендный SaaS, ролевой доступ, комплаенс, аналитику, интеграции
Операционные расходы (облачная часть)	Постоянно	Инференс уровня AWS Rekognition обходится примерно в 0,007–0,75 ₽ за предсказание; час GPU стоит 22–225 ₽ в зависимости от класса

Мы намеренно не публикуем фиксированные ценники в открытых материалах — одна и та же функция может отличаться в 3× в зависимости от целевого железа, контура комплаенса (HIPAA против обычного SaaS) и того, переиспользуете ли вы уже существующее семейство моделей. Если нужна предметная оценка под ваш роадмап, мы даём её на 30-минутном скоупинг-звонке.

Мини-кейс — чему нас научила работа над Netcam Studio

Ситуация. Netcam Studio унаследовал пользовательскую базу WebcamXP, одного из первых приложений для видеонаблюдения (2003). Старый интерфейс был сделан для экспертов, детекция движения работала на правилах, а просмотр нескольких камер был мучением. Продукту нужны были современный интерфейс и ML-функции, которые непрофессиональные пользователи смогут настроить в небольшом офисе или лобби.

План на 12 недель. Сначала прошли discovery-фазу: разобрали типовые ложные срабатывания (тени, домашние животные, листва), потом переписали веб-интерфейс вокруг трёх вещей — визуального редактора правил поверх вывода ML, распознавания объектов с классификацией на людей/транспорт/животных на устройстве и парного отображения камер, чтобы управляющий зданием видел вход и лобби одновременно. Весь ML-инференс работает на хостовой машине; интерфейс получает только дельты по событиям.

Итог. Эта схема прямо переносится на умные домофоны: edge-инференс, интерфейс на событиях, ML, настроенный на сокращение ложных срабатываний, а не на наращивание числа классов. Команда сейчас использует тот же стек на проектах, смежных с домофонами, где работает до 2 000 IP-камер на одно развёртывание. Хотите похожую оценку под свой продукт? Позвоните или напишите нам.

Безопасность, приватность и комплаенс — биометрия включает регуляторику сразу

Как только домофон начинает обрабатывать лица, голоса или рисунок радужки, вы попадаете в регулируемую зону. Закладывайте комплаенс в архитектуру с самого начала, а не прикручивайте сбоку.

1. EU AI Act. Удалённая биометрическая идентификация (постфактум или в реальном времени) отнесена к категории высокого риска. Требования к документации и оценке соответствия начинают действовать с августа 2026 года, полное применение — с августа 2027-го. Активная биометрическая верификация (пользователь сам соглашается и открывает свою дверь своим лицом) под высокий риск не подпадает — различие принципиальное, и его стоит отразить в маркетинговых материалах продукта.

2. Статья 9 GDPR. Биометрические данные, используемые для идентификации, относятся к специальной категории. Понадобятся законное основание (для домофонов обычно — явное согласие), оценка воздействия на защиту данных (DPIA), ограничение сроков хранения и понятный процесс удаления для жильцов, которые съезжают.

3. BIPA штата Иллинойс. В США нет федерального закона о биометрии, но BIPA даёт частное право на иск: 75 000 ₽ за каждое нарушение по неосторожности и 375 000 ₽ за умышленное. Закон распространяется на данные жителей Иллинойса вне зависимости от того, где сидит ваша компания. Несколько штатов готовят похожие нормы; стройтесь так, будто BIPA действует по всей стране.

4. HIPAA (медицинские учреждения). Если ваш домофон стоит в клинике или больнице и может фиксировать PHI (имена на бейджах, голосовое упоминание диагнозов), потребуются BAA-соглашения и шифрование данных в покое и в передаче. Подробности о работе с BAA мы разбираем в гайде по домофонам для здравоохранения.

5. Инференс на устройстве как способ упростить приватность. Регуляторам сильно комфортнее с «биометрия не покидает устройство», чем с «мы шифруем её при передаче в наше облако». Если ваш чип тянет модель, делайте on-device дефолтом, а облако — опт-ином.

Фреймворк решения — выберите ML-объём за пять вопросов

В1. Какая жалоба в поддержку сейчас самая частая? Если «забыл ключ» — делайте разблокировку по лицу. Если «пропустил курьера» — делайте детекцию посылок. Запустите одну функцию, которая убирает топ-обращение. Всё остальное — в роадмап.

В2. Какое железо у вас уже стоит в полях? ARM Cortex-A53 нормально тянет Silero VAD, RNNoise и квантованные эмбеддинги лиц, но с полным Whisper и YOLOv8-large ему будет тяжело. Сначала профилируйте, потом обещайте.

В3. На какие регионы продаёте? EU-first — это нагрузка по биометрическому комплаенсу и локальная резидентность данных. US-first — экспозиция по BIPA. APAC-first — ценовая чувствительность и быстрый ритм OTA. Выбирайте архитектуру под географию запуска, а не под все три сразу.

В4. Как будете собирать размеченные данные? Предобученные модели дают 85%; оставшиеся 10 пунктов выбираются из вашего реального деплоя. Закладывайте разметку с человеком в петле с первой недели, а не с пятидесятой.

В5. Какая минимально допустимая точность и полнота? Зафиксируйте два числа: долю ложных пропусков (чужого пустили) и долю ложных отказов (своего не пустили). Для разблокировки по лицу обычно нужна FAR ниже 0,001% и FRR ниже 2%. Детекция посылок может позволить себе более высокую FAR при условии, что FRR останется ниже 5%.

Пять ловушек, которые мы регулярно встречаем в ML-домофонах

1. Распознавание лиц без нормальной проверки живости. Команда выкатывает пилот разблокировки по лицу, получает 99% точности на тестовом наборе — и через неделю распечатанная фотография вскрывает систему. Добавляйте глубину, rPPG или анализ текстуры с первого дня. Согласитесь на лишние 150–300 мс задержки — это дешевле, чем инцидент.

2. Модель, обученная на селфи со смартфонов, на железе в подъезде. Модели, натренированные на смартфонных селфи, проваливаются на широкоугольных камерах домофона с ИК-подсветкой. Дообучайте на реальных кадрах с устройства, пусть даже у вас всего 2 000 примеров. Transfer learning закрывает разрыв быстро.

3. Не заложили бюджет на шум. Уличный домофон ловит пики окружающего шума в 75–85 дБ. Если пропустить RNNoise или аналог, точность ASR падает ниже 60% — для голосовых команд это уже неприемлемо. Потратьте инженерную неделю на правильное шумоподавление.

4. Облачный инференс на критичных к задержке сценариях. Каждые лишние 300 мс на разблокировке — это жилец, который снова бьёт по панели и заваливает поддержку. Держите быстрый путь локально, а облако используйте только для аудита, аналитики и переобучения.

5. Биометрию хранят как обычные пользовательские данные. Биометрический отпечаток отозвать нельзя. Утечка — это пожизненная проблема для жильца, а не повседневная история со сменой пароля. Шифруйте по ключам на каждое устройство, храните шаблоны (а не сырые изображения) и обеспечьте понятный процесс удаления даже на случай, когда жилец съезжает без предупреждения.

Застряли на ложных срабатываниях или дырах в комплаенсе?

Мы уже разбирались с багами ложных пропусков в распознавании лиц, регрессиями проверки живости и аудитами BIPA-экспозиции на живых продуктах. Принесите свой случай.

Позвоните нам → Напишите нам →

KPI, которые стоит отслеживать с первого дня

KPI качества. FAR разблокировки по лицу ниже 0,001%, FRR ниже 2%; word-error rate ASR ниже 15% при окружающем шуме 70 дБ; precision детекции посылок выше 90% при recall выше 85%. Это пороги, при которых поток обращений в поддержку остаётся ровным.

Бизнес-KPI. Снижение числа вызовов, на которые отвечает жилец, в расчёте на квартиру в месяц (цель: −30% после запуска детекции посылок), рост MRR на одного управляющего зданием (+15–20% при добавлении предиктивного обслуживания), снижение оттока у мультиарендных покупателей (ML-функции обычно режут отток на 4–7 пунктов за первый год).

KPI надёжности. Сквозная задержка разблокировки p95 ниже 700 мс; среднее время между ложными событиями на камеру — реже раза в неделю; аптайм edge-инференса выше 99,5%. Если что-то из этого проседает, пользователи заметят за 48 часов.

Когда ML в домофон не нужен

Не каждому домофону полезен ML. Если вы продаёте аналоговый односемейный продукт с циклом замены раз в 10 лет и разовой оплатой, ML-функции редко окупают стоимость разработки. Если ваша установленная база работает на железе слабее Raspberry Pi Zero 2, ни одна современная модель туда не поместится без апгрейда.

Также не беритесь за ML, если у вас нет конвейера данных. Предобученные модели часть пути закроют, но без данных с реальных установок вы не сможете подстроить пороги ложных отказов или добавить новые классы намерений. Без данных нет улучшений, без улучшений нет защитного барьера от конкурентов. Сначала постройте маховик данных, потом ML.

FAQ

Что такое машинное обучение в домофоне простыми словами?

Это ПО, которое смотрит и слушает у вашей двери и принимает решения, которые раньше принимали вы сами: кого пустить, когда оповестить, какие посылки важны и что значит та или иная голосовая команда. Опирается оно на аудио- и видеомодели, обученные на миллионах примеров, плюс тонкий слой бизнес-правил, который вы настраиваете под себя.

Где запускать ML-инференс — на самом домофоне или в облаке?

Всё, что чувствительно к задержке (разблокировка, живые оповещения), — на устройстве. Облако используйте для обучения, аналитики и саммари. Эта гибридная схема и есть то, что в продакшне применяют Ring, Akuvox и наши собственные проекты видеонаблюдения.

Насколько точно работает распознавание лиц в реальных условиях домофона?

Предобученные ArcFace или FaceNet выдают 99%+ на чистых бенчмарках, но в реальном деплое падают до 93–96%, пока вы не дообучите их под ваше железо (широкоугольная оптика, ИК-подсветка, переменное освещение). Заложите 4–8 недель тонкой настройки после запуска.

Нужно ли биометрическому домофону согласие по GDPR?

Да, если вы обрабатываете данные жителей ЕС. Биометрическая идентификация подпадает под статью 9 GDPR (специальная категория) и требует явного согласия, DPIA, ограничения сроков хранения и процесса удаления. Верификация (пользователь открывает свою дверь сам) регулируется мягче, чем идентификация (матчинг по галерее).

Можно ли обойтись open-source моделями и избежать счетов за облако?

Для большинства задач домофона — да. Silero VAD, RNNoise, FOMO, YOLOv8 и Whisper-distil работают на устройстве по разрешительным лицензиям. Закрытые облачные API имеют смысл только для функций, которые не запускаются на вашем чипе (например, LLM-саммари с большим контекстом по месяцу событий).

Как быстрее всего запустить ML-пилот в существующем домофоне?

Возьмите одно здание, одну функцию и один KPI. Запустите пилот на 6–10 недель с одной ML-моделью на одной точке и измерьте единственную метрику, которая важна. Одно реальное развёртывание даст больше, чем шесть месяцев лабораторной работы.

Как убрать ложные оповещения о посылках?

Соберите хотя бы 5 000 примеров реальных посылок плюс 2 000 примеров типовых ложных триггеров (игрушки для животных, смятые коробки, пакеты из магазина) с собственной сети камер. Дообучите детектор на этих данных и добавьте правило двух кадров: объект должен присутствовать на двух подряд кадрах, прежде чем сработает оповещение.

Как ML в домофонах интегрируется с управлением зданием и смарт-хоум платформами?

Через стандартные протоколы: ONVIF или SIP для видео/аудио, MQTT или webhook для ML-событий, OAuth для аутентификации арендаторов. Большинство современных домофонов отдают REST API; практические заметки по интеграциям мы собрали в гайде по IoT-домофонам.

Интеграции, после которых ML в домофоне окупается

ML-домофон полезен ровно настолько, насколько хорошо он умеет разговаривать с соседними системами. Три интеграции стабильно отрабатывают вложения: контроль доступа (Mercury, HID, LenelS2), чтобы разблокировка по лицу реально открывала дверь; системы управления зданием (Niagara, Johnson Controls), чтобы ML-события запускали реальные процессы; и приложения для жильцов (SDK для iOS/Android, пуш-уведомления, Slack/Teams в коммерческих зданиях), чтобы оповещения долетали до людей меньше чем за секунду.

Стройте интеграционный слой вокруг протоколов, а не конкретных вендоров (ONVIF для видео, SIP для аудио, MQTT и webhook для событий). Так продукт защищён от смены вендоров — в PropTech это происходит часто — и быстрее идут сделки, потому что интеграторы могут подключить вас без кастомной разработки.

Стратегия по данным — маховик данных дороже модели

Open-source модели сокращают разрыв в архитектуре. Что нельзя скачать — это ваши данные с реальных развёртываний. С первого дня настройте конвейер событий, который с согласия пользователей фиксирует обезличенные результаты инференса (предсказание, уверенность, действие пользователя, итог). Небольшая, но регулярная команда разметки (хоть два человека по 10 часов в неделю) даёт достаточно обратной связи, чтобы переобучать модель ежемесячно — именно так через год вы будете впереди конкурентов.

Подробнее о том, как связывать ML-вывод с живым видео, — в нашем гайде по интеграции видеоаналитики, где разобраны схема событий и бэкенд-паттерн, который мы переиспользуем в проектах по домофонам и видеонаблюдению.

Что почитать дальше

Умные домофоны

Будущее умных домофонных систем: AI и интеграция ПО

Где железо домофона встречается с app-first подходом и что это значит для вашего роадмапа.

Голос

AI в домофонах: глубокое погружение в распознавание речи

Как устроен устойчивый к шуму ASR внутри реальных домофонных продуктов, с разбором выбора моделей.

Функции

Обязательные функции видеодомофона на 2025 год

Тот набор функций, по которому покупатели сравнивают вас, ещё не дойдя до отдела продаж.

IoT

Как IoT-домофоны расширяют возможности связи

Протоколы, edge-устройства и паттерны интеграции, которые работают в реальных проектах.

Видеоаналитика

AI-видеоаналитика для систем безопасности

Детекция объектов, поведенческая аналитика и как встроить их в потоки событий домофона.

Готовы запустить ML, который жильцы реально заметят?

Машинное обучение в домофоне улучшает коммуникацию так, что и жильцы, и управляющие замечают это в первые недели: меньше забытых карт, меньше пропущенных доставок, меньше лишних вызовов. Выигрышный рецепт скучный — выбрать одну функцию, запустить инференс на устройстве, отгрузить шестинедельный пилот, измерить одну KPI, потом расширяться. Откажитесь от презентаций на 20 функций и от ML-тумана. Решения по железу, конвейеры данных и комплаенс — вот что отличает домофон, который вы выкатили, от того, который вы потом продолжаете поддерживать.

Если хотите свежий взгляд на ML-объём вашего продукта — мы с 2005 года занимаемся видеонаблюдением и домофонами. Разговор короткий, советы бесплатные, а работа, которую мы беремся делать, через два года не превращается в обузу.

Планируете ML-функции для своего домофона?

Принесите продукт и целевое железо — вернёмся с приоритизированным шорт-листом ML-функций и планом пилота, который запустится за восемь недель.

Позвоните нам → Напишите нам →

Технологии

Показатель	Цифра за 2025	Что это значит для вас
Выручка мобильных приложений с генеративным AI	225 млрд ₽, +273% год к году	Самостоятельное AI-приложение теперь полноценный продукт, а не просто функция.
Время в приложениях с генеративным AI	48 млрд часов (×3,6 к 2024)	Привычка у пользователей сформировалась — ассистенты теперь борются с вашим приложением за время сессии.
Внедрение разработчиками	63% выпускают ≥ 1 AI-функцию	Не выпускать AI в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации	+62% вовлечённости, +80% конверсии	Одни только AI-рекомендации двигают финансовый результат.
Пользователи мобильных AI-ассистентов (США)	200 млн+ (110 млн только на мобильных)	Пользователи ждут, что голосовой и текстовый AI работает везде.
Прогноз Gartner	Использование мобильных приложений −25% к 2027 (из-за AI-ассистентов)	Приложения без встроенного AI будут терять сессии в пользу системных ассистентов.

Фреймворк / API	Платформа	Лучше всего для	Типичная задержка	Структура затрат
Core ML	iOS, macOS, watchOS	Зрение и NLP на устройстве с Apple Neural Engine	< 100 мс	Разовая, внутри приложения
Apple Foundation Models	iOS 18+, macOS 15+	LLM на устройстве, резюмирование, инструменты письма	< 500 мс	Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT	Android, iOS, Web	Кроссплатформенное ML на устройстве	< 200 мс	Разовая, внутри приложения
MediaPipe	Android, iOS, Web	Поза, руки, лицо, жесты, сегментация	< 100 мс	Разовая, внутри приложения
ML Kit (Google)	Android, iOS	Распознавание текста, штрихкоды, перевод, обнаружение лиц	50 мс–2 с	Бесплатный тариф + за запрос
Gemini Nano (AICore)	Android (Pixel 9+, S26+)	LLM на устройстве, резюмирование, подсказки ответов	< 1 с	Бесплатно (в составе ОС)
ONNX Runtime Mobile	Android, iOS, Web	Переносимые модели между фреймворками	< 300 мс	Разовая, внутри приложения
OpenAI API (GPT-5)	Облако	Рассуждения, код и зрение уровня state-of-the-art	1–3 с	93,75–750 ₽ / 1 млн токенов
Anthropic Claude API	Облако	Рассуждения с длинным контекстом, анализ, код	1–3 с	75–1 875 ₽ / 1 млн токенов (−50% в батче)
Google Gemini API	Облако	Мультимодальность, экономичные текст и зрение	1–2 с	6–375 ₽ / 1 млн токенов
AWS Rekognition	Облако	Анализ изображений и видео, модерация	500 мс–2 с	0,075–0,9 ₽ / изображение
Azure Cognitive Services	Облако	Корпоративное зрение, речь, язык	500 мс–2 с	За запрос + подписка

Объём	Пример функции	Сроки	Ориентировочная стоимость
Одна функция на устройстве	Сканирование документа + OCR	4–8 недель	2–6 млн ₽
Гибрид среднего размера	Зрение на устройстве + облачный LLM-чат	8–14 недель	6–13,5 млн ₽
Полноценный гибрид под продакшн	Оркестрация нескольких моделей, RAG, мониторинг	14–22 недели	11,2–22,5 млн ₽
Корпоративная платформа	Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA	22+ недели	от 22,5 млн ₽

Платформа	Для чего лучше всего	Стартовая цена	Нужна гарнитура?
ClassVR	Школа (K-12), более 1 500 сценариев под учебную программу	от 75 000 ₽ за школьный комплект	Да (гарнитуры в комплекте)
Labster	Лаборатории биологии, химии, физики в вузах	5 925–8 175 ₽ за студента в год	Нет (браузер + опционально VR)
Nearpod (с VR)	Встраивание в уроки в школе	11 925–29 775 ₽ в год на преподавателя	Опционально
zSpace	AR/VR без гарнитуры; более 3 500 округов	По запросу (фирменное оборудование)	Нет (очки + дисплей с трекингом)
Prisms VR	Математика и естественные науки, 140 округов	По запросу (лицензия округа)	Да
Engage / Spatial	Совместные классы в высшем образовании	37 500–150 000 ₽ в год за помещение	Да (несколько устройств)
CoSpaces Edu	VR-проекты, которые делают сами ученики	75–225 ₽ за ученика в год	Опционально
Osso VR / FundamentalVR	Хирургическая подготовка	450 000–3 млн ₽ в год за рабочее место	Да

Статья расходов	Год 1	Год 2 и далее
30 × Meta Quest 3S (комплект за 37 500 ₽)	1 125 000 ₽	0 ₽ (обновление раз в 3–4 года)
Контент-платформа (ClassVR / Nearpod)	150 000–375 000 ₽	150 000–375 000 ₽
Обучение преподавателей (1 день)	112 500–225 000 ₽	Обновление: 37 500 ₽/год
Зарядная станция + MDM	112 500–187 500 ₽	0 ₽
Страховка / поломки (10%)	112 500 ₽	112 500 ₽
Итого	1,6–2 млн ₽	300 000–525 000 ₽

Машинное обучение в домофонах: плейбук владельца продукта на 2026 год

Почему этот плейбук написала Фора Софт

Снимок рынка — где на самом деле находится машинное обучение в домофонах

ML-функции, которые реально влияют на продажи

1. Двусторонняя связь, устойчивая к шуму

2. Распознавание лиц с проверкой живости

3. Детекция посылок и людей

4. Классификация намерений для сортировки посетителей

5. Предиктивное обслуживание и алерты по аномалиям

Четыре ML-стека внутри современного домофона

Аудиостек — речь и шум

Стек компьютерного зрения — лица и посылки

NLP-стек — намерения и саммари

Стек аномалий — здоровье устройства и фрод

Edge или облако — где запускать модели

Сравнение вендоров — что реально продают крупные игроки

Модель затрат — сколько на самом деле стоит ML-домофон

Мини-кейс — чему нас научила работа над Netcam Studio

Безопасность, приватность и комплаенс — биометрия включает регуляторику сразу

Фреймворк решения — выберите ML-объём за пять вопросов

Пять ловушек, которые мы регулярно встречаем в ML-домофонах

KPI, которые стоит отслеживать с первого дня

Когда ML в домофон не нужен

FAQ

Интеграции, после которых ML в домофоне окупается

Стратегия по данным — маховик данных дороже модели

Что почитать дальше

Готовы запустить ML, который жильцы реально заметят?

Похожие статьи

Хотите обсудить ваш проект?