
Система рекомендаций контента на базе AI — это та часть видеоплатформы, которая решает, что включится следующим. Если она работает как надо, на её долю приходится 70–85% просмотренного контента (давно известная цифра Netflix), и именно она тихо обеспечивает удержание во всех крупных стриминговых сервисах. Если работает плохо — съедает GPU-бюджет, нарушает статью 38 EU Digital Services Act и теряет пользователей ещё до того, как загрузится каталог. Это руководство — практический справочник покупателя на 2026 год: какое семейство алгоритмов выбрать, какие фреймворки и managed-сервисы, насколько быстро всё должно работать, сколько это стоит и как остаться в рамках DSA и EU AI Act.
Фора Софт строит и поддерживает рекомендательные системы для видеоплатформ — стриминга, VOD, OTT и edtech. Мы запускали базовые решения на коллаборативной фильтрации, two-tower нейронные ретриверы на Merlin, transformer-реранкеры на TorchRec и слои векторного поиска, которые их кормят, — на собственных серверах, в AWS и в GCP. В этой статье собрано то, что мы выдаём клиентам в первый же день созвона по новому проекту, и порядок изложения помогает вам определиться: строить, покупать или сделать тот гибрид, который мы рекомендуем — собрать слой ретривала своими руками, а feature store и векторную БД взять как сервис.
Главное
• Каскад 2026 года состоит из трёх слоёв. Ретривал (< 40 мс) → скоринг (< 40 мс) → реранкинг (< 20 мс) при жёстком бюджете 100 мс end-to-end.
• Досматриваемость важнее времени просмотра. В 2025–2026 годах и YouTube Shorts, и TikTok пересчитали веса в пользу процента досмотра. 30-секундное видео с 85% досмотра теперь обгоняет 60-секундное с 50%.
• ROI уровня Netflix реален, но редко достижим в чистом виде. На большинстве платформ хорошая рекомендательная система даёт прирост вовлечённости 8–20% и окупается за 3–6 месяцев.
• В 2026 году комплаенс — это уже не опция. Статья 38 DSA требует наличия режима ранжирования без профилирования для пользователей из ЕС; статья 27 — объяснимости; EU AI Act относит часть рекомендательных систем к категории высокого риска.
• Инфраструктуру покупайте, модель стройте сами. Feast или Tecton для фич, Pinecone/Milvus/Vertex Matching Engine для ANN-ретривала, своя two-tower или transformer-модель. Полностью managed-вариант (AWS Personalize) — только для команд на ранней стадии.
Почему этот гайд написала Фора Софт
Большинство переделок видеорекомендеров, с которыми мы сталкиваемся, проваливаются по предсказуемым причинам: оптимистичная выкатка feature store, упирающаяся в лимиты памяти Redis на 10 млн пользователей; two-tower модель ретривала, которая отлично ранжирует офлайн и рассыпается онлайн, потому что real-time фичи не подключили; «соответствующая DSA» хронологическая лента, которую никто не прогнал через A/B и которая тихо роняет удержание. Нашей команде платили за то, чтобы каждую из этих историй чинить, и за то, чтобы запускать новые рекомендеры с нуля под жёсткие SLA.
Этот гайд — выжимка из такого опыта. Если вы выбираете между AWS Personalize, Vertex AI Recommendations и собственной разработкой и хотите получить взвешенное мнение от команды, которая работала со всеми тремя вариантами, — позвоните или напишите нам.
Выбираете между AWS Personalize, Vertex AI и кастомной разработкой?
30 минут с нашим тимлидом по ML-инжинирингу: feature store, слой ретривала, модель стоимости и периметр комплаенса.
Что такое AI-рекомендер в 2026 году на самом деле
Видеорекомендер в 2026 году — это трёхступенчатый каскад. Ретривал сужает каталог из миллионов элементов до набора кандидатов в несколько сотен — обычно через приближённый поиск ближайших соседей (ANN) по item-эмбеддингам, которые выдаёт two-tower нейросеть. Скоринг прогоняет по этому набору более тяжёлую модель (градиентный бустинг, DNN или transformer) и возвращает ранжированный список. Реранкинг накладывает бизнес-правила — разнообразие, свежесть, ограничения по правам, эксплорацию, режим без профилирования по DSA — и отдаёт клиенту итоговые N элементов.
Весь каскад должен укладываться в 100 мс для интерактивных лент. Каждые лишние 100 мс задержки срезают выручку примерно на 1% (классическое наблюдение Amazon, которое до сих пор цитируется в литературе 2026 года), а на видеоплатформе эффект на старт сессии и время до первого воспроизведения ещё жёстче.
Главный фронтир в 2026 году — не сама модель, а обратная связь по восприятию. Команда Reels в Meta в 2025–2026 годах начала использовать масштабные данные пользовательских опросов как фичи наряду с неявными кликами — потому что чистые CTR-модели сходятся к кликбейту. YouTube Shorts перестроил ранкер вокруг сигналов «удовлетворённости» (сохранения, репосты, процент досмотра). Ваша система должна это учитывать.
Срез рынка — что приносят рекомендации на самом деле
Netflix публично связывает с персонализацией около 75 млрд ₽ удержанной выручки в год и сообщает, что около 80% просмотренного контента приходит из рекомендаций, а не из поиска. YouTube Shorts генерирует около 70% времени просмотра именно за счёт рекомендательной ленты. TikTok относится к алгоритму как к своему главному конкурентному рву. Эти цифры задают рамку разговора об ROI, но напрямую к большинству платформ не переносятся — а вот операционный эффект переносится: первая полноценная выкатка обычно даёт прирост вовлечённости 8–20% по сравнению с хронологическим или популярностным порядком.
Структура расходов тоже хорошо описана. Managed-сервисы (AWS Personalize, Vertex AI Recommendations) стоят меньше копейки за 1000 рекомендаций, но плата за обучение и приём событий делает месячный счёт труднопредсказуемым. Self-hosted стек требует инженерного времени на старте и копеек за рекомендацию в установившемся режиме. Точка безубыточности обычно лежит в районе 2–5 млн активных пользователей в месяц — конкретное значение зависит от того, насколько часто меняется ваш каталог.
Семейства алгоритмов в 2026 году
Классические базовые методы (всё ещё нужны)
Матричная факторизация и соседская коллаборативная фильтрация. Дёшево, объяснимо, сильный baseline. Не пропускайте — это A/B-контроль, который покажет, делает ли ваша глубокая модель что-то полезное на самом деле. RecBole или implicit подходят как открытые варианты.
Контентные методы. Эмбеддинги по заголовку, описанию, превью, расшифровке (Whisper / Nova-3). Незаменимы для cold-start новых видео; должны быть в вашем ансамбле всегда.
Нейронный ретривал (дефолт 2026 года)
Two-tower модели. Одна башня кодирует пользователя (история, контекст), вторая — элемент; обе выдают плотный вектор, а ретривал сводится к ANN-поиску по скалярному произведению. Так работают YouTube, Pinterest и большинство современных платформ. Реализация — TFRS, TorchRec или Merlin.
Transformer-модели последовательностей. TransAct (Pinterest, 2023), HSTU (Meta Generative Recommenders, 2024), Monolith (TikTok). Моделируют действия пользователя как последовательность; лучше пулинговых эмбеддингов улавливают свежесть и контекст. На Pinterest заявлен прирост вовлечённости 11%+; на платформах с короткими видео — сопоставимо.
LLM как рекомендер. P5, LLaRA, GenRec, RecGPT. Перспективное направление; для массового инференса пока не дефолт из-за задержек и стоимости. Где это уже работает в 2026 году — диалоговый поиск контента («найди что-то похожее на X, но короче») и генерация эмбеддингов для cold-start через разбор описаний LLM.
Онлайн-обучение и бандиты
Контекстные бандиты. Vowpal Wabbit, сэмплирование Томпсона. Критично для эксплорации новых элементов и для персонализации превью — канонический кейс бандитов у Netflix. Используйте в паре с базовым рекомендером, чтобы в одном пайплайне и эксплуатировать, и исследовать.
Берите two-tower нейронный ретривер, если: каталог > 100 тыс. элементов, медианная история пользователя > 20 событий, бюджет задержки в районе 100 мс. Это дефолт 2026 года.
Берите transformer-модель последовательностей, если: у вас короткий формат или контент с сессионной структурой, время удержания меньше минуты, и в поведении доминируют сигналы свежести.
Берите гибрид классической CF и контентного подхода, если: каталог менее 100 тыс. элементов, трафик меньше 1 млн MAU, и вы хотите сильный baseline до того, как вкладываться в инфраструктуру глубокого обучения.
Добавляйте бандитный слой сверху, если: у вас ежедневно появляются новые элементы для cold-start, нужно тестировать варианты превью или метаданных, либо есть регуляторное давление продемонстрировать, что петля обратной связи не зацикливается.
Стек 2026 года — feature store, векторная БД, обучение, сервинг
Feature store. Feast 0.10 (2026) для open-source с Redis или DynamoDB в онлайне и BigQuery/Snowflake в офлайне. Tecton — managed-вариант с SLA. Хорошо настроенный пайплайн Feast + Redis даёт p99 меньше миллисекунды на десятках миллионов запросов в секунду.
Векторная БД и ANN-ретривал. Pinecone — полностью managed; Milvus — self-hosted на масштабе миллиардов векторов; Faiss — библиотека, которую вы оборачиваете сами; Vertex AI Matching Engine — если вы на GCP; pgvector — для небольших продакшенов до 10 млн элементов. Критерий шорт-листа — задержка p99, а не набор фич.
Обучение. Офлайн-батч: Airflow или Prefect, Spark для агрегации фич. Онлайн/стриминг: Kafka + Flink. Обучение на GPU — на NVIDIA Merlin для полноты пайплайна или на чистом TorchRec + DLRM для своих архитектур.
Сервинг. Triton Inference Server (NVIDIA) — для GPU-сервинга моделей на масштабе; TorchServe — для моделей попроще; CPU-скоринг — для тяжёлого хвоста (градиентный бустинг, логистическая регрессия по топовым фичам).
Наблюдаемость. Дрифт фич, дрифт модели, расхождение онлайн- и офлайн-метрик, покрытие, разнообразие. Prometheus + Grafana — для системных метрик; отдельный инструмент ML-наблюдаемости (Arize, Evidently, Fiddler) — для метрик модели.
Managed-сервисы или своя разработка
| Вариант | Что это | Структура расходов | Кому подходит | На что обратить внимание |
|---|---|---|---|---|
| AWS Personalize | Полностью managed-рекомендер | ~4,5 ₽ за 1000 рекомендаций + обучение | Ранняя стадия, < 1 млн MAU | Непрозрачные модели, ограниченный тюнинг |
| Vertex AI Recs + Matching | Managed two-tower + ANN | По использованию и хранению | Команды на GCP, мультирегиональный ANN | Привязка к GCP |
| Algolia Recommend | Поиск и рекомендации как сервис | За запись/за запрос | E-commerce, каталог < 10 млн | Ограниченные возможности глубокого обучения |
| Pinecone + своя модель | Managed ANN + ваш ретривер | За под/за запрос | Средний рынок, своя модель | Эксплуатацию модели вы всё ещё ведёте сами |
| Self-hosted (Merlin + Milvus) | Полностью свой стек | GPU-хостинг + время инженеров | > 5 млн MAU, суверенитет данных | Высокая инженерная стоимость |
| Гибрид (наш выбор) | Покупаем инфраструктуру, строим модель | SaaS-инфраструктура + время инженеров | Лучшее соотношение для 1–10 млн MAU | Нужна команда, способная моделировать |
Бюджет задержки — куда уходят 100 мс
1. Получение фич (~20 мс). Feast + Redis, Tecton или своя реализация чтения из DynamoDB. Меньше миллисекунды на фичу; 20 фич на запрос оставляют запас. Главный риск — fan-out, поэтому батчите чтения везде, где можно.
2. Получение кандидатов (~30 мс). ANN-поиск по item-эмбеддингам — Pinecone, Milvus, Faiss HNSW. У Pinecone p99 около 20–40 мс на масштабе 10 млн векторов; Milvus в self-hosted при настройке примерно там же. Цель — 200–500 кандидатов.
3. Скоринг (~30 мс). Ваша основная модель — скоринг two-tower, проход transformer по набору кандидатов или градиентный бустинг. Triton на одной A100 спокойно обрабатывает 500 кандидатов на запрос за < 30 мс.
4. Реранкинг (~15 мс). Разнообразие (MMR), бизнес-правила (права, регионализация), эксплорация (бандит), переключатель режима без профилирования по DSA, когда он включён. Чистый CPU, линейно от количества кандидатов.
5. Сеть и сериализация (~5–10 мс). «Налог». Держите рекомендательный сервис в одном регионе с feature store и векторной БД и кэшируйте топ-K ответ на пользователя на 30–60 секунд.
P99 рекомендера выше 150 мс? Найдём те самые 50 мс, которые вы оставляете на столе.
Пришлите трейс пайплайна и сэмпл трафика — вернёмся с письменной диагностикой через 48 часов.
Cold-start — новые элементы, новые пользователи, новые аккаунты
Новые элементы. Эмбеддинги по заголовку, описанию, расшифровке (Whisper / Nova-3), превью (CLIP) и любым структурированным метаданным (жанр, длительность, язык). Подмешивайте контентный ретривал к коллаборативным сигналам, как только начнут поступать данные о вовлечённости. Закладывайте 1–3 дня на выход на стабильную позицию в ранжировании.
Новые пользователи. Используйте сигналы регистрации (локаль, устройство, источник перехода), короткий онбординг-опрос или дефолты по популярности внутри когорты. Отправляйте таких пользователей в бандитную ветку с упором на эксплорацию на первые 10–20 взаимодействий — так вы быстро учитесь и не сваливаетесь в спираль популярного контента.
Новые аккаунты на масштабе (B2B). Для платформ с тенантами (edtech, корпоративное видео) начинайте с дефолтов уровня тенанта, основанных на поведении первого администратора, и переучивайте модель отдельно по каждому тенанту, как только наберётся > 1000 взаимодействий.
Персонализация превью и остальной поверхности
Рекомендер — это не только «что включится дальше». Netflix не зря персонализирует ещё и превью; прирост CTR от удачного превью часто сопоставим с приростом от лучшего порядка элементов. В 2026 году каждый креативный вариант на поверхности — превью, надпись поверх, длина нарезки — стоит решать как задачу контекстных бандитов поверх базового ранкера.
Для длинного формата персонализируйте также блоки «потому что вы смотрели X», лейблы жанров и нарезку трейлера-превью при наведении. Для короткого — длину очереди автоплея и переход между элементами. Небольшие изменения на поверхности дают реальный прирост удержания.
Комплаенс — DSA Article 38, AI Act, GDPR
DSA, статья 38. Очень крупные онлайн-платформы (VLOP) обязаны предлагать как минимум один режим рекомендаций, не основанный на профилировании. На практике это хронологическая или популярностная лента, которую пользователь может включить в один клик. Встраивайте переключатель в UI и подключайте режим «без профилирования» к слою реранкинга — так весь существующий каскад продолжит обеспечивать разнообразие и соблюдение прав.
DSA, статья 27. Прозрачность. Вы обязаны простым языком объяснить «основные параметры» вашего рекомендера и дать пользователю возможность управлять ими там, где такие настройки есть. «Мы ранжируем по сочетанию вашей истории просмотров, схожести с похожими пользователями и свежести контента» — правильная интонация.
EU AI Act. Рекомендеры в отдельных контекстах (трудоустройство, образование, ленты для несовершеннолетних) могут быть отнесены к категории высокого риска. Документируйте систему, ведите журнал управления рисками и стройте маршрут для участия человека в удалении, перерасчёте и обжаловании.
GDPR. Реализуйте кнопку «сбросить рекомендации» в один клик, очищающую вход профилирования, и обработку запросов субъекта данных, способную выгрузить или удалить эмбеддинги пользователя. Храните историю просмотров по обоснованному графику (мы обычно рекомендуем 24 месяца для активных пользователей и 12 — для неактивных).
Модель стоимости — сколько на самом деле стоит рекомендер на 1 млн MAU
Ориентировочные цифры для среднерыночной видеоплатформы с 1 млн MAU, 40 сессиями в месяц, 10 рекомендательными вызовами на сессию (400 млн рекомендаций в месяц, 40 млрд скорингов элементов в месяц).
| Слой | AWS Personalize | Гибрид (Pinecone + кастом) | Self-hosted (Merlin) |
|---|---|---|---|
| Feature store | В составе | 90 000 ₽/мес (Feast + Redis) | 67 500 ₽/мес |
| Векторная БД и ретривал | В составе | 150 000 ₽/мес (Pinecone) | 60 000 ₽/мес (Milvus) |
| Обучение и инференс | ~1,8 млн ₽/мес @ 4,5 ₽/1k рекомендаций | 300 000 ₽/мес (Triton + A100 spot) | 225 000 ₽/мес |
| Приём событий | 60 000 ₽/мес | 37 500 ₽/мес (MSK) | 22 500 ₽/мес |
| Наблюдаемость | В составе | 45 000 ₽/мес (Evidently) | 30 000 ₽/мес |
| Итого в месяц | ~1,8 млн ₽ | ~620 000 ₽ | ~405 000 ₽ + время инженеров |
Гибридный путь даёт лучшую юнит-экономику на большинстве среднерыночных платформ. Self-hosted на бумаге дешевле, но съедает 1,5–2,5 FTE ML-инженеров на поддержку — и это переворачивает арифметику выше отметки 750 000 ₽/месяц, как только честно учесть зарплаты.
Мини-кейс — edtech-платформа, 12 недель разработки, +18% времени просмотра
Ситуация. Глобальная edtech-видеоплатформа с 2,1 млн MAU работала на популярностной ленте; D30-удержание было 34%, средняя длина сессии — 11 минут. Команда хотела выкатить рекомендер до начала осеннего цикла регистраций.
План на 12 недель. Недели 1–2: аудит данных, согласование KPI (досматриваемость + D30-удержание), периметр соответствия DSA. Недели 3–6: feature store на Feast + Redis, Pinecone для ANN-ретривала, своя two-tower модель, обученная на четырёх годах данных о событиях. Недели 7–9: пилот на 5%, ежедневный обзор A/B, реранкинг настроен под разнообразие (курсы между дисциплинами). Недели 10–12: раскатка на 100% с переключателем DSA «без профилирования» в UI, дашборды наблюдаемости в проде.
Результат. Прирост времени просмотра +18% (p99 задержки 82 мс). D30-удержание выросло с 34% до 41%. Длина сессии — с 11 до 14,5 минуты. Переключатель DSA доступен с первого дня запуска в ЕС. Хотите такой же разбор для своей ленты? Позвоните или напишите нам.
Каркас принятия решения — выбор стека за пять вопросов
Вопрос 1. Какой у вас MAU? < 500 тыс. → managed (AWS Personalize или Algolia). 500 тыс.–5 млн → гибрид. > 5 млн → self-hosted начинает окупаться.
Вопрос 2. Короткий формат или длинный? Короткий → transformer-модели последовательностей и сильный упор на свежесть. Длинный → two-tower ретривал + более тяжёлый реранкер + персонализация превью.
Вопрос 3. Насколько часто меняется каталог? Высокая ротация (live, UGC) → онлайн-обучение + бандиты сверху. Стабильный каталог (VOD, образование) → офлайн-батч с переобучением каждый день или каждую неделю.
Вопрос 4. Регуляторный периметр? VLOP или потребительский продукт в ЕС → переключатель DSA «без профилирования» по статье 38 и прозрачность по статье 27 с первого дня. Корпоративный/B2B/небольшое присутствие в ЕС → обязательства легче.
Вопрос 5. Суверенитет данных? On-prem или жёсткая привязка к региону → self-hosted Milvus + Merlin. Иначе подходят Pinecone и Vertex.
Пять ловушек, которые губят выкатку рекомендеров
1. Оптимизация по кликам вместо досматриваемости. Чистые CTR-модели сходятся к кликбейту. Решение: учить на смеси досматриваемости, времени просмотра и сигналов удовлетворённости из опросов с весами под вашу продуктовую стратегию.
2. Нет A/B-каркаса. Вы выкатываете «новую модель» и не можете доказать, что она вообще что-то делает. Решение: каждое изменение — через эксперимент с заранее зафиксированными метриками; закладывайте это до запуска, а не после.
3. Офлайн выигрывает, онлайн проваливается. NDCG отличный, а DAU не двигается. Решение: привязывайте каждую офлайн-метрику к целевому онлайн-приросту и отбраковывайте офлайн-победы, не двигающие KPI в shadow-режиме.
4. Дрифт фич, который никто не замечает. Обучающие данные — из распределения, которому продакшен-трафик уже не соответствует. Решение: ML-наблюдаемость с первой недели; алерты на дрифт; переобучение по графику, который оправдан вашим объёмом вовлечённости.
5. Нет переключателя DSA «без профилирования». Регулятор ЕС проверяет наличие опции «не профилировать меня» в один клик — а её у вас нет. Решение: встройте в UI, прокиньте через реранкер и логируйте состояние пользователя, чтобы ответы на запросы аудита делались в одно действие.
KPI — что измерять с первого дня
Качество. Доля досмотров (целевой рост +5–10 пунктов к baseline), длина сессии (+10–20%), CTR на топ-10 позиции ленты (отслеживать, а не максимизировать) и покрытие (≥ 70% каталога показывается за 30-дневное окно).
Бизнес. D7/D30-удержание против контрольной группы, прирост подписок и регистраций, выручка на пользователя в рекламной модели, утилизация каталога (доля просмотров длинного хвоста). Это те цифры, которые реально интересуют топ-менеджмент.
Надёжность. P50 рекомендера (≤ 60 мс) и p95 (≤ 100 мс), recall@K ANN на офлайн-эвалюации (≥ 0,9), процент успешных запусков обучающего пайплайна, число алертов о дрифте фич в неделю. Это те цифры, которые поднимают вас в три ночи.
Отрасли, где рекомендеры приносят реальную ценность в 2026 году
OTT/SVOD. Канонический сценарий — Netflix, Disney+, Max, Prime Video. Целевая метрика — время просмотра, обязательства DSA в ЕС обязательны, персонализация превью необходима.
Короткий формат UGC. TikTok, YouTube Shorts, Instagram Reels. Transformer-модели последовательностей, активная эксплорация, ежедневный cold-start новых элементов.
Edtech-видео и LMS. Рекомендации курсов, персонализация по когортам, целевая метрика — досматриваемость. Регуляторная нагрузка ниже, требования к настройке на уровне тенанта — выше.
Live-коммерция и видеошопинг в реальном времени. Рекомендации в рамках сессии, очень высокая скорость cold-start, мультирегиональные ограничения по правам. Дефолт — гибридный стек с бандитным реранкингом.
Корпоративное видео. Учебные библиотеки, внутренние таунхоллы, онбординг-контент. Качество рекомендера значит меньше, чем RBAC и поиск; managed-сервисы (Algolia Recommend) тут хорошо работают.
Новостное видео. Учёт свежести, регулирование разнообразия, чувствительность к GDPR и DSA. Гибрид контентного метода с CF и сильным запасным режимом «без профилирования».
Строить, покупать или гибрид
Полностью managed (AWS Personalize, Vertex AI Recommendations, Algolia Recommend) — если у вас < 1 млн MAU, каталог меньше 1 млн элементов, нет своей ML-команды и вы готовы принять непрозрачную модель. Это самый быстрый путь к baseline-приросту 10–15%.
Гибрид (инфраструктуру покупаете, модель строите) — если у вас 1–10 млн MAU, нужен контроль над ранкером и не хочется владеть feature store и векторной БД. Берите Feast + Pinecone или Tecton + Vertex Matching Engine и стройте two-tower ретривал с реранкером на градиентном бустинге.
Полностью своя разработка — если у вас > 10 млн MAU, есть требования суверенитета данных или on-prem, нужна transformer-модель последовательностей (короткий формат на масштабе) или рекомендер — ваше ключевое конкурентное преимущество (продукт уровня TikTok). Merlin + Milvus + TorchRec + Feast в self-hosted.
Когда рекомендер строить не надо
Не стройте, если в каталоге меньше 5000 элементов — поиск и редакторская подборка с тем же инженерным бюджетом, скорее всего, дадут больше. Рекомендеры расцветают на больших и неоднородных каталогах; в маленьком нет того длинного хвоста, который можно было бы открывать.
Не стройте, если не умеете измерять. Если ваш аналитический пайплайн не может уверенно атрибутировать время просмотра к позиции в ленте, рекомендер будет дрейфовать вслепую. Наблюдаемость и атрибуция — раньше модели.
Не стройте под регулируемый контент (детские ленты, образование для несовершеннолетних, политические новости) без приоритетного комплаенс-ревью. EU AI Act относит часть таких сценариев к высокому риску, и наивная выкатка может быстро привлечь внимание регулятора.
Планируете запуск видеорекомендера для платформы в ЕС?
Фора Софт делает рекомендательные стеки с соблюдением DSA с момента старта правоприменения в 2024 году. Один созвон — и периметр, стек и план на 12 недель размечены.
Сценарий выкатки на 12 недель
Недели 1–2. Аудит данных, согласование KPI, определение периметра соответствия DSA/AI Act. Выбор стека (managed/гибрид/self-hosted). Подписание DPA, настройка контрактов на приём событий.
Недели 3–5. Поднят feature store и векторная БД, стартовый baseline two-tower ретривала. Исторический бэкфил; офлайн-каркас оценки.
Недели 6–8. 5–10% в shadow/пилоте с полной наблюдаемостью. Итерации по правилам реранкинга (разнообразие, свежесть, права). Подключение переключателя «без профилирования».
Недели 9–11. Масштабирование до 50%, добавление персонализации превью, первая «сухая» комплаенс-проверка (текст прозрачности по DSA, флоу сброса по GDPR).
Неделя 12. Раскатка на 100%, KPI-дашборды подключены к управленческому ревью, недельный ритм калибровки, разбор пилота, дорожная карта на следующие две поверхности (например, ранжирование поиска и переупорядочивание главной строки).
FAQ
Что такое AI-система рекомендаций контента?
Трёхступенчатый пайплайн — ретривал кандидатов, скоринг машинной моделью и реранкинг с бизнес-правилами, — который выбирает, что показать каждому пользователю на каждой поверхности (лента, строка, превью). В 2026 году дефолтная архитектура — two-tower нейронный ретривер плюс transformer-скоринг по последовательностям, отдающие результат меньше чем за 100 мс end-to-end.
Что выбрать: AWS Personalize, Vertex AI или собственную разработку?
AWS Personalize и Vertex AI Recommendations — самый быстрый путь к baseline-приросту 10–15% для команд до 1 млн MAU. Выше этого масштаба лучшая юнит-экономика — у гибрида: feature store на Feast, векторная БД Pinecone или Vertex Matching Engine, своя two-tower модель ретривала и реранкер на градиентном бустинге. Полностью self-hosted (Merlin + Milvus) начинает окупаться выше 10 млн MAU или при ограничениях суверенитета данных.
Сколько в месяц стоит рекомендер на 1 млн MAU?
Примерно 1,8 млн ₽ в месяц на AWS Personalize (400 млн рекомендаций по 4,5 ₽ за 1000 + обучение + приём событий), 600–675 тыс. ₽ на гибридном стеке (Feast + Pinecone + своя модель на Triton) и 375–450 тыс. ₽ в self-hosted на Merlin + Milvus — плюс 1,5–2,5 FTE ML-инженеров для последнего варианта.
Как обеспечить соответствие DSA Article 38?
Предложите как минимум один режим рекомендаций без профилирования — обычно это хронологический или популярностный — и сделайте его доступным в один клик. Прокиньте переключатель в слой реранкинга; разнообразие и логику прав сохраняйте в любом случае. Логируйте выбранный пользователем режим, чтобы аудит регулятора проходился в одно действие.
С какого алгоритма начать?
Two-tower нейронный ретривер — дефолт 2026 года для длинного и среднего формата видео. Для короткого формата с сессионной структурой добавьте сверху transformer-модель последовательностей. Всегда держите в качестве A/B-контроля классическую коллаборативную фильтрацию. Контекстный бандит сверху — для эксплорации и персонализации превью.
Как обрабатывать cold-start?
Для новых элементов поднимайте эмбеддинги по заголовку, описанию, расшифровке и визуальным фичам (CLIP), а потом подмешивайте сигналы вовлечённости по мере накопления. Для новых пользователей используйте сигналы из онбординг-опроса и дефолты по когорте, плюс ранжирование с упором на эксплорацию на первые 10–20 взаимодействий. Закладывайте 1–3 дня на выход новых элементов на стабильные позиции в ранжировании.
Сколько занимает разработка рекомендера?
Managed-baseline (AWS Personalize) можно вывести в продакшен за 4–6 недель. Гибрид two-tower + реранкер обычно занимает 10–12 недель — от аудита данных до раскатки на 100%. Self-hosted transformer-модель последовательностей на масштабе — это первая итерация на 5–8 месяцев, дальше итерации идут гораздо быстрее.
Какая задержка приемлема?
Целевые значения — p50 ≤ 60 мс и p95 ≤ 100 мс end-to-end (ретривал + скоринг + реранкинг). Задержка свыше 150–200 мс заметно бьёт по вовлечённости. Держите рекомендательный сервис, feature store и векторную БД в одном регионе; кэшируйте топ-K ответ на пользователя на 30–60 секунд.
Читайте дальше
AI Video
Разработка приложений для видеостриминга с AI в 2026 году
Протоколы, кодеки и рекомендательные системы — в одном сквозном гайде.
AI Video
Интеграция AI-чатботов с видео: гайд 2026
Интерактивные аватары, Tavus и HeyGen, задержка меньше 600 мс.
Voice AI
AI-ассистенты звонков: справочник покупателя 2026
Vapi, Retell, OpenAI Realtime и периметр комплаенса.
Услуги
Услуги AI-разработки
Как Фора Софт строит продакшен ML-системы под ключ.
Готовы запустить рекомендер, который реально двигает удержание?
Стек рекомендера 2026 года хорошо изучен: two-tower ретривал, скорер на transformer или градиентном бустинге и реранкер на бизнес-правилах, отдающий результат меньше чем за 100 мс из feature store и векторной БД. По сути, остаются решения о масштабе MAU, формате контента, регуляторном периметре и о том, что для вашего бизнеса важнее — скорость выхода на рынок или юнит-экономика.
Если в этом квартале вы выкатываете managed-baseline — берите AWS Personalize или Vertex AI Recommendations, подключайте приём событий и запускайте пилот на 5% с заранее зафиксированной метрикой. Если у вас больше 1 млн MAU — идите в гибрид: Feast + Pinecone + two-tower, обученный на ваших данных, с A/B-каркасом и наблюдаемостью с первой недели. Если вы на масштабе VLOP или у вас серьёзные ограничения по суверенитету данных — планируйте 6-месячную self-hosted сборку на Merlin и Milvus.
Так или иначе, Фора Софт уже запускала ту схему, которую вы собираетесь строить. Принесите свои KPI, форму каталога и комплаенс-периметр — мы вернёмся с шорт-листом стеков, моделью стоимости и планом поставки на 12 недель.
Спроектируем ваш рекомендер от начала и до конца.
30 минут с нашим тимлидом по ML-инжинирингу: стек, комплаенс, модель стоимости и план поставки на 12 недель.
