AI-рекомендации видеоконтента: справочник покупателя на 2026 год

AI-системы рекомендаций контента: персонализированные подборки видео — иллюстрация обложки

Система рекомендаций контента на базе AI — это та часть видеоплатформы, которая решает, что включится следующим. Если она работает как надо, на её долю приходится 70–85% просмотренного контента (давно известная цифра Netflix), и именно она тихо обеспечивает удержание во всех крупных стриминговых сервисах. Если работает плохо — съедает GPU-бюджет, нарушает статью 38 EU Digital Services Act и теряет пользователей ещё до того, как загрузится каталог. Это руководство — практический справочник покупателя на 2026 год: какое семейство алгоритмов выбрать, какие фреймворки и managed-сервисы, насколько быстро всё должно работать, сколько это стоит и как остаться в рамках DSA и EU AI Act.

Фора Софт строит и поддерживает рекомендательные системы для видеоплатформ — стриминга, VOD, OTT и edtech. Мы запускали базовые решения на коллаборативной фильтрации, two-tower нейронные ретриверы на Merlin, transformer-реранкеры на TorchRec и слои векторного поиска, которые их кормят, — на собственных серверах, в AWS и в GCP. В этой статье собрано то, что мы выдаём клиентам в первый же день созвона по новому проекту, и порядок изложения помогает вам определиться: строить, покупать или сделать тот гибрид, который мы рекомендуем — собрать слой ретривала своими руками, а feature store и векторную БД взять как сервис.

Главное

• Каскад 2026 года состоит из трёх слоёв. Ретривал (< 40 мс) → скоринг (< 40 мс) → реранкинг (< 20 мс) при жёстком бюджете 100 мс end-to-end.

• Досматриваемость важнее времени просмотра. В 2025–2026 годах и YouTube Shorts, и TikTok пересчитали веса в пользу процента досмотра. 30-секундное видео с 85% досмотра теперь обгоняет 60-секундное с 50%.

• ROI уровня Netflix реален, но редко достижим в чистом виде. На большинстве платформ хорошая рекомендательная система даёт прирост вовлечённости 8–20% и окупается за 3–6 месяцев.

• В 2026 году комплаенс — это уже не опция. Статья 38 DSA требует наличия режима ранжирования без профилирования для пользователей из ЕС; статья 27 — объяснимости; EU AI Act относит часть рекомендательных систем к категории высокого риска.

• Инфраструктуру покупайте, модель стройте сами. Feast или Tecton для фич, Pinecone/Milvus/Vertex Matching Engine для ANN-ретривала, своя two-tower или transformer-модель. Полностью managed-вариант (AWS Personalize) — только для команд на ранней стадии.

Почему этот гайд написала Фора Софт

Большинство переделок видеорекомендеров, с которыми мы сталкиваемся, проваливаются по предсказуемым причинам: оптимистичная выкатка feature store, упирающаяся в лимиты памяти Redis на 10 млн пользователей; two-tower модель ретривала, которая отлично ранжирует офлайн и рассыпается онлайн, потому что real-time фичи не подключили; «соответствующая DSA» хронологическая лента, которую никто не прогнал через A/B и которая тихо роняет удержание. Нашей команде платили за то, чтобы каждую из этих историй чинить, и за то, чтобы запускать новые рекомендеры с нуля под жёсткие SLA.

Этот гайд — выжимка из такого опыта. Если вы выбираете между AWS Personalize, Vertex AI Recommendations и собственной разработкой и хотите получить взвешенное мнение от команды, которая работала со всеми тремя вариантами, — позвоните или напишите нам.

Выбираете между AWS Personalize, Vertex AI и кастомной разработкой?

30 минут с нашим тимлидом по ML-инжинирингу: feature store, слой ретривала, модель стоимости и периметр комплаенса.

Позвоните нам → Напишите нам →

Что такое AI-рекомендер в 2026 году на самом деле

Видеорекомендер в 2026 году — это трёхступенчатый каскад. Ретривал сужает каталог из миллионов элементов до набора кандидатов в несколько сотен — обычно через приближённый поиск ближайших соседей (ANN) по item-эмбеддингам, которые выдаёт two-tower нейросеть. Скоринг прогоняет по этому набору более тяжёлую модель (градиентный бустинг, DNN или transformer) и возвращает ранжированный список. Реранкинг накладывает бизнес-правила — разнообразие, свежесть, ограничения по правам, эксплорацию, режим без профилирования по DSA — и отдаёт клиенту итоговые N элементов.

Весь каскад должен укладываться в 100 мс для интерактивных лент. Каждые лишние 100 мс задержки срезают выручку примерно на 1% (классическое наблюдение Amazon, которое до сих пор цитируется в литературе 2026 года), а на видеоплатформе эффект на старт сессии и время до первого воспроизведения ещё жёстче.

Главный фронтир в 2026 году — не сама модель, а обратная связь по восприятию. Команда Reels в Meta в 2025–2026 годах начала использовать масштабные данные пользовательских опросов как фичи наряду с неявными кликами — потому что чистые CTR-модели сходятся к кликбейту. YouTube Shorts перестроил ранкер вокруг сигналов «удовлетворённости» (сохранения, репосты, процент досмотра). Ваша система должна это учитывать.

Срез рынка — что приносят рекомендации на самом деле

Netflix публично связывает с персонализацией около 75 млрд ₽ удержанной выручки в год и сообщает, что около 80% просмотренного контента приходит из рекомендаций, а не из поиска. YouTube Shorts генерирует около 70% времени просмотра именно за счёт рекомендательной ленты. TikTok относится к алгоритму как к своему главному конкурентному рву. Эти цифры задают рамку разговора об ROI, но напрямую к большинству платформ не переносятся — а вот операционный эффект переносится: первая полноценная выкатка обычно даёт прирост вовлечённости 8–20% по сравнению с хронологическим или популярностным порядком.

Структура расходов тоже хорошо описана. Managed-сервисы (AWS Personalize, Vertex AI Recommendations) стоят меньше копейки за 1000 рекомендаций, но плата за обучение и приём событий делает месячный счёт труднопредсказуемым. Self-hosted стек требует инженерного времени на старте и копеек за рекомендацию в установившемся режиме. Точка безубыточности обычно лежит в районе 2–5 млн активных пользователей в месяц — конкретное значение зависит от того, насколько часто меняется ваш каталог.

Семейства алгоритмов в 2026 году

Классические базовые методы (всё ещё нужны)

Матричная факторизация и соседская коллаборативная фильтрация. Дёшево, объяснимо, сильный baseline. Не пропускайте — это A/B-контроль, который покажет, делает ли ваша глубокая модель что-то полезное на самом деле. RecBole или implicit подходят как открытые варианты.

Контентные методы. Эмбеддинги по заголовку, описанию, превью, расшифровке (Whisper / Nova-3). Незаменимы для cold-start новых видео; должны быть в вашем ансамбле всегда.

Нейронный ретривал (дефолт 2026 года)

Two-tower модели. Одна башня кодирует пользователя (история, контекст), вторая — элемент; обе выдают плотный вектор, а ретривал сводится к ANN-поиску по скалярному произведению. Так работают YouTube, Pinterest и большинство современных платформ. Реализация — TFRS, TorchRec или Merlin.

Transformer-модели последовательностей. TransAct (Pinterest, 2023), HSTU (Meta Generative Recommenders, 2024), Monolith (TikTok). Моделируют действия пользователя как последовательность; лучше пулинговых эмбеддингов улавливают свежесть и контекст. На Pinterest заявлен прирост вовлечённости 11%+; на платформах с короткими видео — сопоставимо.

LLM как рекомендер. P5, LLaRA, GenRec, RecGPT. Перспективное направление; для массового инференса пока не дефолт из-за задержек и стоимости. Где это уже работает в 2026 году — диалоговый поиск контента («найди что-то похожее на X, но короче») и генерация эмбеддингов для cold-start через разбор описаний LLM.

Онлайн-обучение и бандиты

Контекстные бандиты. Vowpal Wabbit, сэмплирование Томпсона. Критично для эксплорации новых элементов и для персонализации превью — канонический кейс бандитов у Netflix. Используйте в паре с базовым рекомендером, чтобы в одном пайплайне и эксплуатировать, и исследовать.

Берите two-tower нейронный ретривер, если: каталог > 100 тыс. элементов, медианная история пользователя > 20 событий, бюджет задержки в районе 100 мс. Это дефолт 2026 года.

Берите transformer-модель последовательностей, если: у вас короткий формат или контент с сессионной структурой, время удержания меньше минуты, и в поведении доминируют сигналы свежести.

Берите гибрид классической CF и контентного подхода, если: каталог менее 100 тыс. элементов, трафик меньше 1 млн MAU, и вы хотите сильный baseline до того, как вкладываться в инфраструктуру глубокого обучения.

Добавляйте бандитный слой сверху, если: у вас ежедневно появляются новые элементы для cold-start, нужно тестировать варианты превью или метаданных, либо есть регуляторное давление продемонстрировать, что петля обратной связи не зацикливается.

Стек 2026 года — feature store, векторная БД, обучение, сервинг

Feature store. Feast 0.10 (2026) для open-source с Redis или DynamoDB в онлайне и BigQuery/Snowflake в офлайне. Tecton — managed-вариант с SLA. Хорошо настроенный пайплайн Feast + Redis даёт p99 меньше миллисекунды на десятках миллионов запросов в секунду.

Векторная БД и ANN-ретривал. Pinecone — полностью managed; Milvus — self-hosted на масштабе миллиардов векторов; Faiss — библиотека, которую вы оборачиваете сами; Vertex AI Matching Engine — если вы на GCP; pgvector — для небольших продакшенов до 10 млн элементов. Критерий шорт-листа — задержка p99, а не набор фич.

Обучение. Офлайн-батч: Airflow или Prefect, Spark для агрегации фич. Онлайн/стриминг: Kafka + Flink. Обучение на GPU — на NVIDIA Merlin для полноты пайплайна или на чистом TorchRec + DLRM для своих архитектур.

Сервинг. Triton Inference Server (NVIDIA) — для GPU-сервинга моделей на масштабе; TorchServe — для моделей попроще; CPU-скоринг — для тяжёлого хвоста (градиентный бустинг, логистическая регрессия по топовым фичам).

Наблюдаемость. Дрифт фич, дрифт модели, расхождение онлайн- и офлайн-метрик, покрытие, разнообразие. Prometheus + Grafana — для системных метрик; отдельный инструмент ML-наблюдаемости (Arize, Evidently, Fiddler) — для метрик модели.

Managed-сервисы или своя разработка

Вариант	Что это	Структура расходов	Кому подходит	На что обратить внимание
AWS Personalize	Полностью managed-рекомендер	~4,5 ₽ за 1000 рекомендаций + обучение	Ранняя стадия, < 1 млн MAU	Непрозрачные модели, ограниченный тюнинг
Vertex AI Recs + Matching	Managed two-tower + ANN	По использованию и хранению	Команды на GCP, мультирегиональный ANN	Привязка к GCP
Algolia Recommend	Поиск и рекомендации как сервис	За запись/за запрос	E-commerce, каталог < 10 млн	Ограниченные возможности глубокого обучения
Pinecone + своя модель	Managed ANN + ваш ретривер	За под/за запрос	Средний рынок, своя модель	Эксплуатацию модели вы всё ещё ведёте сами
Self-hosted (Merlin + Milvus)	Полностью свой стек	GPU-хостинг + время инженеров	> 5 млн MAU, суверенитет данных	Высокая инженерная стоимость
Гибрид (наш выбор)	Покупаем инфраструктуру, строим модель	SaaS-инфраструктура + время инженеров	Лучшее соотношение для 1–10 млн MAU	Нужна команда, способная моделировать

Бюджет задержки — куда уходят 100 мс

1. Получение фич (~20 мс). Feast + Redis, Tecton или своя реализация чтения из DynamoDB. Меньше миллисекунды на фичу; 20 фич на запрос оставляют запас. Главный риск — fan-out, поэтому батчите чтения везде, где можно.

2. Получение кандидатов (~30 мс). ANN-поиск по item-эмбеддингам — Pinecone, Milvus, Faiss HNSW. У Pinecone p99 около 20–40 мс на масштабе 10 млн векторов; Milvus в self-hosted при настройке примерно там же. Цель — 200–500 кандидатов.

3. Скоринг (~30 мс). Ваша основная модель — скоринг two-tower, проход transformer по набору кандидатов или градиентный бустинг. Triton на одной A100 спокойно обрабатывает 500 кандидатов на запрос за < 30 мс.

4. Реранкинг (~15 мс). Разнообразие (MMR), бизнес-правила (права, регионализация), эксплорация (бандит), переключатель режима без профилирования по DSA, когда он включён. Чистый CPU, линейно от количества кандидатов.

5. Сеть и сериализация (~5–10 мс). «Налог». Держите рекомендательный сервис в одном регионе с feature store и векторной БД и кэшируйте топ-K ответ на пользователя на 30–60 секунд.

P99 рекомендера выше 150 мс? Найдём те самые 50 мс, которые вы оставляете на столе.

Пришлите трейс пайплайна и сэмпл трафика — вернёмся с письменной диагностикой через 48 часов.

Позвоните нам → Напишите нам →

Cold-start — новые элементы, новые пользователи, новые аккаунты

Новые элементы. Эмбеддинги по заголовку, описанию, расшифровке (Whisper / Nova-3), превью (CLIP) и любым структурированным метаданным (жанр, длительность, язык). Подмешивайте контентный ретривал к коллаборативным сигналам, как только начнут поступать данные о вовлечённости. Закладывайте 1–3 дня на выход на стабильную позицию в ранжировании.

Новые пользователи. Используйте сигналы регистрации (локаль, устройство, источник перехода), короткий онбординг-опрос или дефолты по популярности внутри когорты. Отправляйте таких пользователей в бандитную ветку с упором на эксплорацию на первые 10–20 взаимодействий — так вы быстро учитесь и не сваливаетесь в спираль популярного контента.

Новые аккаунты на масштабе (B2B). Для платформ с тенантами (edtech, корпоративное видео) начинайте с дефолтов уровня тенанта, основанных на поведении первого администратора, и переучивайте модель отдельно по каждому тенанту, как только наберётся > 1000 взаимодействий.

Персонализация превью и остальной поверхности

Рекомендер — это не только «что включится дальше». Netflix не зря персонализирует ещё и превью; прирост CTR от удачного превью часто сопоставим с приростом от лучшего порядка элементов. В 2026 году каждый креативный вариант на поверхности — превью, надпись поверх, длина нарезки — стоит решать как задачу контекстных бандитов поверх базового ранкера.

Для длинного формата персонализируйте также блоки «потому что вы смотрели X», лейблы жанров и нарезку трейлера-превью при наведении. Для короткого — длину очереди автоплея и переход между элементами. Небольшие изменения на поверхности дают реальный прирост удержания.

Комплаенс — DSA Article 38, AI Act, GDPR

DSA, статья 38. Очень крупные онлайн-платформы (VLOP) обязаны предлагать как минимум один режим рекомендаций, не основанный на профилировании. На практике это хронологическая или популярностная лента, которую пользователь может включить в один клик. Встраивайте переключатель в UI и подключайте режим «без профилирования» к слою реранкинга — так весь существующий каскад продолжит обеспечивать разнообразие и соблюдение прав.

DSA, статья 27. Прозрачность. Вы обязаны простым языком объяснить «основные параметры» вашего рекомендера и дать пользователю возможность управлять ими там, где такие настройки есть. «Мы ранжируем по сочетанию вашей истории просмотров, схожести с похожими пользователями и свежести контента» — правильная интонация.

EU AI Act. Рекомендеры в отдельных контекстах (трудоустройство, образование, ленты для несовершеннолетних) могут быть отнесены к категории высокого риска. Документируйте систему, ведите журнал управления рисками и стройте маршрут для участия человека в удалении, перерасчёте и обжаловании.

GDPR. Реализуйте кнопку «сбросить рекомендации» в один клик, очищающую вход профилирования, и обработку запросов субъекта данных, способную выгрузить или удалить эмбеддинги пользователя. Храните историю просмотров по обоснованному графику (мы обычно рекомендуем 24 месяца для активных пользователей и 12 — для неактивных).

Модель стоимости — сколько на самом деле стоит рекомендер на 1 млн MAU

Ориентировочные цифры для среднерыночной видеоплатформы с 1 млн MAU, 40 сессиями в месяц, 10 рекомендательными вызовами на сессию (400 млн рекомендаций в месяц, 40 млрд скорингов элементов в месяц).

Слой	AWS Personalize	Гибрид (Pinecone + кастом)	Self-hosted (Merlin)
Feature store	В составе	90 000 ₽/мес (Feast + Redis)	67 500 ₽/мес
Векторная БД и ретривал	В составе	150 000 ₽/мес (Pinecone)	60 000 ₽/мес (Milvus)
Обучение и инференс	~1,8 млн ₽/мес @ 4,5 ₽/1k рекомендаций	300 000 ₽/мес (Triton + A100 spot)	225 000 ₽/мес
Приём событий	60 000 ₽/мес	37 500 ₽/мес (MSK)	22 500 ₽/мес
Наблюдаемость	В составе	45 000 ₽/мес (Evidently)	30 000 ₽/мес
Итого в месяц	~1,8 млн ₽	~620 000 ₽	~405 000 ₽ + время инженеров

Гибридный путь даёт лучшую юнит-экономику на большинстве среднерыночных платформ. Self-hosted на бумаге дешевле, но съедает 1,5–2,5 FTE ML-инженеров на поддержку — и это переворачивает арифметику выше отметки 750 000 ₽/месяц, как только честно учесть зарплаты.

Мини-кейс — edtech-платформа, 12 недель разработки, +18% времени просмотра

Ситуация. Глобальная edtech-видеоплатформа с 2,1 млн MAU работала на популярностной ленте; D30-удержание было 34%, средняя длина сессии — 11 минут. Команда хотела выкатить рекомендер до начала осеннего цикла регистраций.

План на 12 недель. Недели 1–2: аудит данных, согласование KPI (досматриваемость + D30-удержание), периметр соответствия DSA. Недели 3–6: feature store на Feast + Redis, Pinecone для ANN-ретривала, своя two-tower модель, обученная на четырёх годах данных о событиях. Недели 7–9: пилот на 5%, ежедневный обзор A/B, реранкинг настроен под разнообразие (курсы между дисциплинами). Недели 10–12: раскатка на 100% с переключателем DSA «без профилирования» в UI, дашборды наблюдаемости в проде.

Результат. Прирост времени просмотра +18% (p99 задержки 82 мс). D30-удержание выросло с 34% до 41%. Длина сессии — с 11 до 14,5 минуты. Переключатель DSA доступен с первого дня запуска в ЕС. Хотите такой же разбор для своей ленты? Позвоните или напишите нам.

Каркас принятия решения — выбор стека за пять вопросов

Вопрос 1. Какой у вас MAU? < 500 тыс. → managed (AWS Personalize или Algolia). 500 тыс.–5 млн → гибрид. > 5 млн → self-hosted начинает окупаться.

Вопрос 2. Короткий формат или длинный? Короткий → transformer-модели последовательностей и сильный упор на свежесть. Длинный → two-tower ретривал + более тяжёлый реранкер + персонализация превью.

Вопрос 3. Насколько часто меняется каталог? Высокая ротация (live, UGC) → онлайн-обучение + бандиты сверху. Стабильный каталог (VOD, образование) → офлайн-батч с переобучением каждый день или каждую неделю.

Вопрос 4. Регуляторный периметр? VLOP или потребительский продукт в ЕС → переключатель DSA «без профилирования» по статье 38 и прозрачность по статье 27 с первого дня. Корпоративный/B2B/небольшое присутствие в ЕС → обязательства легче.

Вопрос 5. Суверенитет данных? On-prem или жёсткая привязка к региону → self-hosted Milvus + Merlin. Иначе подходят Pinecone и Vertex.

Пять ловушек, которые губят выкатку рекомендеров

1. Оптимизация по кликам вместо досматриваемости. Чистые CTR-модели сходятся к кликбейту. Решение: учить на смеси досматриваемости, времени просмотра и сигналов удовлетворённости из опросов с весами под вашу продуктовую стратегию.

2. Нет A/B-каркаса. Вы выкатываете «новую модель» и не можете доказать, что она вообще что-то делает. Решение: каждое изменение — через эксперимент с заранее зафиксированными метриками; закладывайте это до запуска, а не после.

3. Офлайн выигрывает, онлайн проваливается. NDCG отличный, а DAU не двигается. Решение: привязывайте каждую офлайн-метрику к целевому онлайн-приросту и отбраковывайте офлайн-победы, не двигающие KPI в shadow-режиме.

4. Дрифт фич, который никто не замечает. Обучающие данные — из распределения, которому продакшен-трафик уже не соответствует. Решение: ML-наблюдаемость с первой недели; алерты на дрифт; переобучение по графику, который оправдан вашим объёмом вовлечённости.

5. Нет переключателя DSA «без профилирования». Регулятор ЕС проверяет наличие опции «не профилировать меня» в один клик — а её у вас нет. Решение: встройте в UI, прокиньте через реранкер и логируйте состояние пользователя, чтобы ответы на запросы аудита делались в одно действие.

KPI — что измерять с первого дня

Качество. Доля досмотров (целевой рост +5–10 пунктов к baseline), длина сессии (+10–20%), CTR на топ-10 позиции ленты (отслеживать, а не максимизировать) и покрытие (≥ 70% каталога показывается за 30-дневное окно).

Бизнес. D7/D30-удержание против контрольной группы, прирост подписок и регистраций, выручка на пользователя в рекламной модели, утилизация каталога (доля просмотров длинного хвоста). Это те цифры, которые реально интересуют топ-менеджмент.

Надёжность. P50 рекомендера (≤ 60 мс) и p95 (≤ 100 мс), recall@K ANN на офлайн-эвалюации (≥ 0,9), процент успешных запусков обучающего пайплайна, число алертов о дрифте фич в неделю. Это те цифры, которые поднимают вас в три ночи.

Отрасли, где рекомендеры приносят реальную ценность в 2026 году

OTT/SVOD. Канонический сценарий — Netflix, Disney+, Max, Prime Video. Целевая метрика — время просмотра, обязательства DSA в ЕС обязательны, персонализация превью необходима.

Короткий формат UGC. TikTok, YouTube Shorts, Instagram Reels. Transformer-модели последовательностей, активная эксплорация, ежедневный cold-start новых элементов.

Edtech-видео и LMS. Рекомендации курсов, персонализация по когортам, целевая метрика — досматриваемость. Регуляторная нагрузка ниже, требования к настройке на уровне тенанта — выше.

Live-коммерция и видеошопинг в реальном времени. Рекомендации в рамках сессии, очень высокая скорость cold-start, мультирегиональные ограничения по правам. Дефолт — гибридный стек с бандитным реранкингом.

Корпоративное видео. Учебные библиотеки, внутренние таунхоллы, онбординг-контент. Качество рекомендера значит меньше, чем RBAC и поиск; managed-сервисы (Algolia Recommend) тут хорошо работают.

Новостное видео. Учёт свежести, регулирование разнообразия, чувствительность к GDPR и DSA. Гибрид контентного метода с CF и сильным запасным режимом «без профилирования».

Строить, покупать или гибрид

Полностью managed (AWS Personalize, Vertex AI Recommendations, Algolia Recommend) — если у вас < 1 млн MAU, каталог меньше 1 млн элементов, нет своей ML-команды и вы готовы принять непрозрачную модель. Это самый быстрый путь к baseline-приросту 10–15%.

Гибрид (инфраструктуру покупаете, модель строите) — если у вас 1–10 млн MAU, нужен контроль над ранкером и не хочется владеть feature store и векторной БД. Берите Feast + Pinecone или Tecton + Vertex Matching Engine и стройте two-tower ретривал с реранкером на градиентном бустинге.

Полностью своя разработка — если у вас > 10 млн MAU, есть требования суверенитета данных или on-prem, нужна transformer-модель последовательностей (короткий формат на масштабе) или рекомендер — ваше ключевое конкурентное преимущество (продукт уровня TikTok). Merlin + Milvus + TorchRec + Feast в self-hosted.

Когда рекомендер строить не надо

Не стройте, если в каталоге меньше 5000 элементов — поиск и редакторская подборка с тем же инженерным бюджетом, скорее всего, дадут больше. Рекомендеры расцветают на больших и неоднородных каталогах; в маленьком нет того длинного хвоста, который можно было бы открывать.

Не стройте, если не умеете измерять. Если ваш аналитический пайплайн не может уверенно атрибутировать время просмотра к позиции в ленте, рекомендер будет дрейфовать вслепую. Наблюдаемость и атрибуция — раньше модели.

Не стройте под регулируемый контент (детские ленты, образование для несовершеннолетних, политические новости) без приоритетного комплаенс-ревью. EU AI Act относит часть таких сценариев к высокому риску, и наивная выкатка может быстро привлечь внимание регулятора.

Планируете запуск видеорекомендера для платформы в ЕС?

Фора Софт делает рекомендательные стеки с соблюдением DSA с момента старта правоприменения в 2024 году. Один созвон — и периметр, стек и план на 12 недель размечены.

Позвоните нам → Напишите нам →

Сценарий выкатки на 12 недель

Недели 1–2. Аудит данных, согласование KPI, определение периметра соответствия DSA/AI Act. Выбор стека (managed/гибрид/self-hosted). Подписание DPA, настройка контрактов на приём событий.

Недели 3–5. Поднят feature store и векторная БД, стартовый baseline two-tower ретривала. Исторический бэкфил; офлайн-каркас оценки.

Недели 6–8. 5–10% в shadow/пилоте с полной наблюдаемостью. Итерации по правилам реранкинга (разнообразие, свежесть, права). Подключение переключателя «без профилирования».

Недели 9–11. Масштабирование до 50%, добавление персонализации превью, первая «сухая» комплаенс-проверка (текст прозрачности по DSA, флоу сброса по GDPR).

Неделя 12. Раскатка на 100%, KPI-дашборды подключены к управленческому ревью, недельный ритм калибровки, разбор пилота, дорожная карта на следующие две поверхности (например, ранжирование поиска и переупорядочивание главной строки).

FAQ

Что такое AI-система рекомендаций контента?

Трёхступенчатый пайплайн — ретривал кандидатов, скоринг машинной моделью и реранкинг с бизнес-правилами, — который выбирает, что показать каждому пользователю на каждой поверхности (лента, строка, превью). В 2026 году дефолтная архитектура — two-tower нейронный ретривер плюс transformer-скоринг по последовательностям, отдающие результат меньше чем за 100 мс end-to-end.

Что выбрать: AWS Personalize, Vertex AI или собственную разработку?

AWS Personalize и Vertex AI Recommendations — самый быстрый путь к baseline-приросту 10–15% для команд до 1 млн MAU. Выше этого масштаба лучшая юнит-экономика — у гибрида: feature store на Feast, векторная БД Pinecone или Vertex Matching Engine, своя two-tower модель ретривала и реранкер на градиентном бустинге. Полностью self-hosted (Merlin + Milvus) начинает окупаться выше 10 млн MAU или при ограничениях суверенитета данных.

Сколько в месяц стоит рекомендер на 1 млн MAU?

Примерно 1,8 млн ₽ в месяц на AWS Personalize (400 млн рекомендаций по 4,5 ₽ за 1000 + обучение + приём событий), 600–675 тыс. ₽ на гибридном стеке (Feast + Pinecone + своя модель на Triton) и 375–450 тыс. ₽ в self-hosted на Merlin + Milvus — плюс 1,5–2,5 FTE ML-инженеров для последнего варианта.

Как обеспечить соответствие DSA Article 38?

Предложите как минимум один режим рекомендаций без профилирования — обычно это хронологический или популярностный — и сделайте его доступным в один клик. Прокиньте переключатель в слой реранкинга; разнообразие и логику прав сохраняйте в любом случае. Логируйте выбранный пользователем режим, чтобы аудит регулятора проходился в одно действие.

С какого алгоритма начать?

Two-tower нейронный ретривер — дефолт 2026 года для длинного и среднего формата видео. Для короткого формата с сессионной структурой добавьте сверху transformer-модель последовательностей. Всегда держите в качестве A/B-контроля классическую коллаборативную фильтрацию. Контекстный бандит сверху — для эксплорации и персонализации превью.

Как обрабатывать cold-start?

Для новых элементов поднимайте эмбеддинги по заголовку, описанию, расшифровке и визуальным фичам (CLIP), а потом подмешивайте сигналы вовлечённости по мере накопления. Для новых пользователей используйте сигналы из онбординг-опроса и дефолты по когорте, плюс ранжирование с упором на эксплорацию на первые 10–20 взаимодействий. Закладывайте 1–3 дня на выход новых элементов на стабильные позиции в ранжировании.

Сколько занимает разработка рекомендера?

Managed-baseline (AWS Personalize) можно вывести в продакшен за 4–6 недель. Гибрид two-tower + реранкер обычно занимает 10–12 недель — от аудита данных до раскатки на 100%. Self-hosted transformer-модель последовательностей на масштабе — это первая итерация на 5–8 месяцев, дальше итерации идут гораздо быстрее.

Какая задержка приемлема?

Целевые значения — p50 ≤ 60 мс и p95 ≤ 100 мс end-to-end (ретривал + скоринг + реранкинг). Задержка свыше 150–200 мс заметно бьёт по вовлечённости. Держите рекомендательный сервис, feature store и векторную БД в одном регионе; кэшируйте топ-K ответ на пользователя на 30–60 секунд.

Читайте дальше

AI Video

Разработка приложений для видеостриминга с AI в 2026 году

Протоколы, кодеки и рекомендательные системы — в одном сквозном гайде.

AI Video

Интеграция AI-чатботов с видео: гайд 2026

Интерактивные аватары, Tavus и HeyGen, задержка меньше 600 мс.

Voice AI

AI-ассистенты звонков: справочник покупателя 2026

Vapi, Retell, OpenAI Realtime и периметр комплаенса.

Услуги

Услуги AI-разработки

Как Фора Софт строит продакшен ML-системы под ключ.

Готовы запустить рекомендер, который реально двигает удержание?

Стек рекомендера 2026 года хорошо изучен: two-tower ретривал, скорер на transformer или градиентном бустинге и реранкер на бизнес-правилах, отдающий результат меньше чем за 100 мс из feature store и векторной БД. По сути, остаются решения о масштабе MAU, формате контента, регуляторном периметре и о том, что для вашего бизнеса важнее — скорость выхода на рынок или юнит-экономика.

Если в этом квартале вы выкатываете managed-baseline — берите AWS Personalize или Vertex AI Recommendations, подключайте приём событий и запускайте пилот на 5% с заранее зафиксированной метрикой. Если у вас больше 1 млн MAU — идите в гибрид: Feast + Pinecone + two-tower, обученный на ваших данных, с A/B-каркасом и наблюдаемостью с первой недели. Если вы на масштабе VLOP или у вас серьёзные ограничения по суверенитету данных — планируйте 6-месячную self-hosted сборку на Merlin и Milvus.

Так или иначе, Фора Софт уже запускала ту схему, которую вы собираетесь строить. Принесите свои KPI, форму каталога и комплаенс-периметр — мы вернёмся с шорт-листом стеков, моделью стоимости и планом поставки на 12 недель.

Спроектируем ваш рекомендер от начала и до конца.

30 минут с нашим тимлидом по ML-инжинирингу: стек, комплаенс, модель стоимости и план поставки на 12 недель.

Позвоните нам → Напишите нам →

Технологии

Стадия	Агрессивный бюджет	Реалистичный бюджет	Как удержать
Захват и форк	50 мс	100 мс	Медиасервер и AI-сайдкар рядом; кадры Opus по 20 мс
Streaming ASR	150 мс	300 мс	Промежуточные гипотезы, endpointing, тюнинг VAD
Streaming MT	150 мс	400 мс	Инкрементальный декодер; кэш контекста на сессию
Streaming TTS	200 мс	500 мс	Синтез чанками; буферы коротких предложений
Возврат слушателю	50 мс	150 мс	Медиа в том же регионе; микс через SFU
Итого от рта до уха	~600 мс	~1,5 с	Архитектура + вендоры + регионы

Стадия	Лучшее качество	Лучшая цена	Open-source / self-host	На что обратить внимание
Streaming ASR	Deepgram, AssemblyAI, Speechmatics	Azure, Google, Amazon Transcribe	Whisper, NVIDIA Parakeet / Canary	Качество телефонного звука сильно варьируется
MT	DeepL, GPT-4o / Claude / Gemini	Google Translate, Azure, Amazon	NLLB-200, M2M-100, MADLAD-400	Задержка LLM при росте нагрузки
TTS	ElevenLabs, Cartesia, OpenAI	Amazon Polly Neural, Azure Neural	Coqui TTS, Piper, XTTS v2	Задержка первого аудио на холодном старте
Медиасервер	LiveKit Cloud, Vonage Video, Daily	FreeSWITCH, Asterisk, Janus	Все перечисленные open-source	SIP-interop и тюнинг обхода NAT
SIP-прокси	Kamailio, OpenSIPS	Kamailio, Drachtio	Kamailio, OpenSIPS	Сложность маршрутизации растёт с числом транков

Статья	За минуту, коммерческий API	За минуту, self-hosted	Заметки
Streaming ASR	0,9–1,8 ₽	0,2–0,6 ₽	Deepgram и Google в нижней части диапазона
Машинный перевод	0,3–3 ₽	0,1–0,7 ₽	LLM-пайплайны в верхней части
Нейросетевой TTS	2,2–9 ₽	0,6–1,8 ₽	Премиум-ElevenLabs наверху
Медиасервер + egress	0,3–0,7 ₽	0,07–0,2 ₽	LiveKit Cloud vs self-hosted
Итого за минуту	3,7–15 ₽	1–3,4 ₽	Self-hosted примерно в 3–5 раз дешевле

Инструмент	Модель	Цена	Срок	Для кого	Главное ограничение
Photomatix Pro 7	Десктоп	7 425 ₽ единоразово	30–60 мин на 100 фото	Одиночный фотограф, детерминированный результат	Нет подмены неба, устаревший UI
Luminar Neo	Десктоп + кроссплатформа	7 425–11 925 ₽	5–15 мин на фото	Пресеты под недвижимость, подмена неба	Дефолтный пресет может пересатурировать
AutoHDR	Облачный AI	30–41 ₽ / кадр	20–30 мин	Агентства, объёмы MLS	Меньше контроля над стилем
Imagen AI	Облако + Lightroom	2–5 ₽ / кадр	Минуты, пакетно	Фотографы со своим стилем	Нужен каталог для обучения
Aftershoot	Облачная подписка	750–4 500 ₽ / месяц	Безлимит по объёму	Студии большого объёма, плоский тариф	Меньше пресетов под недвижимость
BoxBrownie (Pixa)	Управляемый аутсорсинг	120 ₽ / кадр	~24 часа	Агентства «всё под ключ»	Самый медленный, самая высокая цена
Кастомная разработка (SaaS)	Свой API + облако	Себестоимость 15–37 ₽ / кадр	Настраиваемый (5–30 мин)	Proptech, вертикальные обёртки	12–20 недель до MVP

AI-рекомендации видеоконтента: справочник покупателя на 2026 год

Почему этот гайд написала Фора Софт

Что такое AI-рекомендер в 2026 году на самом деле

Срез рынка — что приносят рекомендации на самом деле

Семейства алгоритмов в 2026 году

Классические базовые методы (всё ещё нужны)

Нейронный ретривал (дефолт 2026 года)

Онлайн-обучение и бандиты

Стек 2026 года — feature store, векторная БД, обучение, сервинг

Managed-сервисы или своя разработка

Бюджет задержки — куда уходят 100 мс

Cold-start — новые элементы, новые пользователи, новые аккаунты

Персонализация превью и остальной поверхности

Комплаенс — DSA Article 38, AI Act, GDPR

Модель стоимости — сколько на самом деле стоит рекомендер на 1 млн MAU

Мини-кейс — edtech-платформа, 12 недель разработки, +18% времени просмотра

Каркас принятия решения — выбор стека за пять вопросов

Пять ловушек, которые губят выкатку рекомендеров

KPI — что измерять с первого дня

Отрасли, где рекомендеры приносят реальную ценность в 2026 году

Строить, покупать или гибрид

Когда рекомендер строить не надо

Сценарий выкатки на 12 недель

FAQ

Читайте дальше

Готовы запустить рекомендер, который реально двигает удержание?

Похожие статьи

Хотите обсудить ваш проект?