AI-системы рекомендаций контента: персонализированные подборки видео — иллюстрация обложки

Система рекомендаций контента на базе AI — это та часть видеоплатформы, которая решает, что включится следующим. Если она работает как надо, на её долю приходится 70–85% просмотренного контента (давно известная цифра Netflix), и именно она тихо обеспечивает удержание во всех крупных стриминговых сервисах. Если работает плохо — съедает GPU-бюджет, нарушает статью 38 EU Digital Services Act и теряет пользователей ещё до того, как загрузится каталог. Это руководство — практический справочник покупателя на 2026 год: какое семейство алгоритмов выбрать, какие фреймворки и managed-сервисы, насколько быстро всё должно работать, сколько это стоит и как остаться в рамках DSA и EU AI Act.

Фора Софт строит и поддерживает рекомендательные системы для видеоплатформ — стриминга, VOD, OTT и edtech. Мы запускали базовые решения на коллаборативной фильтрации, two-tower нейронные ретриверы на Merlin, transformer-реранкеры на TorchRec и слои векторного поиска, которые их кормят, — на собственных серверах, в AWS и в GCP. В этой статье собрано то, что мы выдаём клиентам в первый же день созвона по новому проекту, и порядок изложения помогает вам определиться: строить, покупать или сделать тот гибрид, который мы рекомендуем — собрать слой ретривала своими руками, а feature store и векторную БД взять как сервис.

Главное

Каскад 2026 года состоит из трёх слоёв. Ретривал (< 40 мс) → скоринг (< 40 мс) → реранкинг (< 20 мс) при жёстком бюджете 100 мс end-to-end.

Досматриваемость важнее времени просмотра. В 2025–2026 годах и YouTube Shorts, и TikTok пересчитали веса в пользу процента досмотра. 30-секундное видео с 85% досмотра теперь обгоняет 60-секундное с 50%.

ROI уровня Netflix реален, но редко достижим в чистом виде. На большинстве платформ хорошая рекомендательная система даёт прирост вовлечённости 8–20% и окупается за 3–6 месяцев.

В 2026 году комплаенс — это уже не опция. Статья 38 DSA требует наличия режима ранжирования без профилирования для пользователей из ЕС; статья 27 — объяснимости; EU AI Act относит часть рекомендательных систем к категории высокого риска.

Инфраструктуру покупайте, модель стройте сами. Feast или Tecton для фич, Pinecone/Milvus/Vertex Matching Engine для ANN-ретривала, своя two-tower или transformer-модель. Полностью managed-вариант (AWS Personalize) — только для команд на ранней стадии.

Почему этот гайд написала Фора Софт

Большинство переделок видеорекомендеров, с которыми мы сталкиваемся, проваливаются по предсказуемым причинам: оптимистичная выкатка feature store, упирающаяся в лимиты памяти Redis на 10 млн пользователей; two-tower модель ретривала, которая отлично ранжирует офлайн и рассыпается онлайн, потому что real-time фичи не подключили; «соответствующая DSA» хронологическая лента, которую никто не прогнал через A/B и которая тихо роняет удержание. Нашей команде платили за то, чтобы каждую из этих историй чинить, и за то, чтобы запускать новые рекомендеры с нуля под жёсткие SLA.

Этот гайд — выжимка из такого опыта. Если вы выбираете между AWS Personalize, Vertex AI Recommendations и собственной разработкой и хотите получить взвешенное мнение от команды, которая работала со всеми тремя вариантами, — позвоните или напишите нам.

Выбираете между AWS Personalize, Vertex AI и кастомной разработкой?

30 минут с нашим тимлидом по ML-инжинирингу: feature store, слой ретривала, модель стоимости и периметр комплаенса.

Позвоните нам → Напишите нам →

Что такое AI-рекомендер в 2026 году на самом деле

Видеорекомендер в 2026 году — это трёхступенчатый каскад. Ретривал сужает каталог из миллионов элементов до набора кандидатов в несколько сотен — обычно через приближённый поиск ближайших соседей (ANN) по item-эмбеддингам, которые выдаёт two-tower нейросеть. Скоринг прогоняет по этому набору более тяжёлую модель (градиентный бустинг, DNN или transformer) и возвращает ранжированный список. Реранкинг накладывает бизнес-правила — разнообразие, свежесть, ограничения по правам, эксплорацию, режим без профилирования по DSA — и отдаёт клиенту итоговые N элементов.

Весь каскад должен укладываться в 100 мс для интерактивных лент. Каждые лишние 100 мс задержки срезают выручку примерно на 1% (классическое наблюдение Amazon, которое до сих пор цитируется в литературе 2026 года), а на видеоплатформе эффект на старт сессии и время до первого воспроизведения ещё жёстче.

Главный фронтир в 2026 году — не сама модель, а обратная связь по восприятию. Команда Reels в Meta в 2025–2026 годах начала использовать масштабные данные пользовательских опросов как фичи наряду с неявными кликами — потому что чистые CTR-модели сходятся к кликбейту. YouTube Shorts перестроил ранкер вокруг сигналов «удовлетворённости» (сохранения, репосты, процент досмотра). Ваша система должна это учитывать.

Срез рынка — что приносят рекомендации на самом деле

Netflix публично связывает с персонализацией около 75 млрд ₽ удержанной выручки в год и сообщает, что около 80% просмотренного контента приходит из рекомендаций, а не из поиска. YouTube Shorts генерирует около 70% времени просмотра именно за счёт рекомендательной ленты. TikTok относится к алгоритму как к своему главному конкурентному рву. Эти цифры задают рамку разговора об ROI, но напрямую к большинству платформ не переносятся — а вот операционный эффект переносится: первая полноценная выкатка обычно даёт прирост вовлечённости 8–20% по сравнению с хронологическим или популярностным порядком.

Структура расходов тоже хорошо описана. Managed-сервисы (AWS Personalize, Vertex AI Recommendations) стоят меньше копейки за 1000 рекомендаций, но плата за обучение и приём событий делает месячный счёт труднопредсказуемым. Self-hosted стек требует инженерного времени на старте и копеек за рекомендацию в установившемся режиме. Точка безубыточности обычно лежит в районе 2–5 млн активных пользователей в месяц — конкретное значение зависит от того, насколько часто меняется ваш каталог.

Семейства алгоритмов в 2026 году

Классические базовые методы (всё ещё нужны)

Матричная факторизация и соседская коллаборативная фильтрация. Дёшево, объяснимо, сильный baseline. Не пропускайте — это A/B-контроль, который покажет, делает ли ваша глубокая модель что-то полезное на самом деле. RecBole или implicit подходят как открытые варианты.

Контентные методы. Эмбеддинги по заголовку, описанию, превью, расшифровке (Whisper / Nova-3). Незаменимы для cold-start новых видео; должны быть в вашем ансамбле всегда.

Нейронный ретривал (дефолт 2026 года)

Two-tower модели. Одна башня кодирует пользователя (история, контекст), вторая — элемент; обе выдают плотный вектор, а ретривал сводится к ANN-поиску по скалярному произведению. Так работают YouTube, Pinterest и большинство современных платформ. Реализация — TFRS, TorchRec или Merlin.

Transformer-модели последовательностей. TransAct (Pinterest, 2023), HSTU (Meta Generative Recommenders, 2024), Monolith (TikTok). Моделируют действия пользователя как последовательность; лучше пулинговых эмбеддингов улавливают свежесть и контекст. На Pinterest заявлен прирост вовлечённости 11%+; на платформах с короткими видео — сопоставимо.

LLM как рекомендер. P5, LLaRA, GenRec, RecGPT. Перспективное направление; для массового инференса пока не дефолт из-за задержек и стоимости. Где это уже работает в 2026 году — диалоговый поиск контента («найди что-то похожее на X, но короче») и генерация эмбеддингов для cold-start через разбор описаний LLM.

Онлайн-обучение и бандиты

Контекстные бандиты. Vowpal Wabbit, сэмплирование Томпсона. Критично для эксплорации новых элементов и для персонализации превью — канонический кейс бандитов у Netflix. Используйте в паре с базовым рекомендером, чтобы в одном пайплайне и эксплуатировать, и исследовать.

Берите two-tower нейронный ретривер, если: каталог > 100 тыс. элементов, медианная история пользователя > 20 событий, бюджет задержки в районе 100 мс. Это дефолт 2026 года.

Берите transformer-модель последовательностей, если: у вас короткий формат или контент с сессионной структурой, время удержания меньше минуты, и в поведении доминируют сигналы свежести.

Берите гибрид классической CF и контентного подхода, если: каталог менее 100 тыс. элементов, трафик меньше 1 млн MAU, и вы хотите сильный baseline до того, как вкладываться в инфраструктуру глубокого обучения.

Добавляйте бандитный слой сверху, если: у вас ежедневно появляются новые элементы для cold-start, нужно тестировать варианты превью или метаданных, либо есть регуляторное давление продемонстрировать, что петля обратной связи не зацикливается.

Стек 2026 года — feature store, векторная БД, обучение, сервинг

Feature store. Feast 0.10 (2026) для open-source с Redis или DynamoDB в онлайне и BigQuery/Snowflake в офлайне. Tecton — managed-вариант с SLA. Хорошо настроенный пайплайн Feast + Redis даёт p99 меньше миллисекунды на десятках миллионов запросов в секунду.

Векторная БД и ANN-ретривал. Pinecone — полностью managed; Milvus — self-hosted на масштабе миллиардов векторов; Faiss — библиотека, которую вы оборачиваете сами; Vertex AI Matching Engine — если вы на GCP; pgvector — для небольших продакшенов до 10 млн элементов. Критерий шорт-листа — задержка p99, а не набор фич.

Обучение. Офлайн-батч: Airflow или Prefect, Spark для агрегации фич. Онлайн/стриминг: Kafka + Flink. Обучение на GPU — на NVIDIA Merlin для полноты пайплайна или на чистом TorchRec + DLRM для своих архитектур.

Сервинг. Triton Inference Server (NVIDIA) — для GPU-сервинга моделей на масштабе; TorchServe — для моделей попроще; CPU-скоринг — для тяжёлого хвоста (градиентный бустинг, логистическая регрессия по топовым фичам).

Наблюдаемость. Дрифт фич, дрифт модели, расхождение онлайн- и офлайн-метрик, покрытие, разнообразие. Prometheus + Grafana — для системных метрик; отдельный инструмент ML-наблюдаемости (Arize, Evidently, Fiddler) — для метрик модели.

Managed-сервисы или своя разработка

Вариант Что это Структура расходов Кому подходит На что обратить внимание
AWS Personalize Полностью managed-рекомендер ~4,5 ₽ за 1000 рекомендаций + обучение Ранняя стадия, < 1 млн MAU Непрозрачные модели, ограниченный тюнинг
Vertex AI Recs + Matching Managed two-tower + ANN По использованию и хранению Команды на GCP, мультирегиональный ANN Привязка к GCP
Algolia Recommend Поиск и рекомендации как сервис За запись/за запрос E-commerce, каталог < 10 млн Ограниченные возможности глубокого обучения
Pinecone + своя модель Managed ANN + ваш ретривер За под/за запрос Средний рынок, своя модель Эксплуатацию модели вы всё ещё ведёте сами
Self-hosted (Merlin + Milvus) Полностью свой стек GPU-хостинг + время инженеров > 5 млн MAU, суверенитет данных Высокая инженерная стоимость
Гибрид (наш выбор) Покупаем инфраструктуру, строим модель SaaS-инфраструктура + время инженеров Лучшее соотношение для 1–10 млн MAU Нужна команда, способная моделировать

Бюджет задержки — куда уходят 100 мс

1. Получение фич (~20 мс). Feast + Redis, Tecton или своя реализация чтения из DynamoDB. Меньше миллисекунды на фичу; 20 фич на запрос оставляют запас. Главный риск — fan-out, поэтому батчите чтения везде, где можно.

2. Получение кандидатов (~30 мс). ANN-поиск по item-эмбеддингам — Pinecone, Milvus, Faiss HNSW. У Pinecone p99 около 20–40 мс на масштабе 10 млн векторов; Milvus в self-hosted при настройке примерно там же. Цель — 200–500 кандидатов.

3. Скоринг (~30 мс). Ваша основная модель — скоринг two-tower, проход transformer по набору кандидатов или градиентный бустинг. Triton на одной A100 спокойно обрабатывает 500 кандидатов на запрос за < 30 мс.

4. Реранкинг (~15 мс). Разнообразие (MMR), бизнес-правила (права, регионализация), эксплорация (бандит), переключатель режима без профилирования по DSA, когда он включён. Чистый CPU, линейно от количества кандидатов.

5. Сеть и сериализация (~5–10 мс). «Налог». Держите рекомендательный сервис в одном регионе с feature store и векторной БД и кэшируйте топ-K ответ на пользователя на 30–60 секунд.

P99 рекомендера выше 150 мс? Найдём те самые 50 мс, которые вы оставляете на столе.

Пришлите трейс пайплайна и сэмпл трафика — вернёмся с письменной диагностикой через 48 часов.

Позвоните нам → Напишите нам →

Cold-start — новые элементы, новые пользователи, новые аккаунты

Новые элементы. Эмбеддинги по заголовку, описанию, расшифровке (Whisper / Nova-3), превью (CLIP) и любым структурированным метаданным (жанр, длительность, язык). Подмешивайте контентный ретривал к коллаборативным сигналам, как только начнут поступать данные о вовлечённости. Закладывайте 1–3 дня на выход на стабильную позицию в ранжировании.

Новые пользователи. Используйте сигналы регистрации (локаль, устройство, источник перехода), короткий онбординг-опрос или дефолты по популярности внутри когорты. Отправляйте таких пользователей в бандитную ветку с упором на эксплорацию на первые 10–20 взаимодействий — так вы быстро учитесь и не сваливаетесь в спираль популярного контента.

Новые аккаунты на масштабе (B2B). Для платформ с тенантами (edtech, корпоративное видео) начинайте с дефолтов уровня тенанта, основанных на поведении первого администратора, и переучивайте модель отдельно по каждому тенанту, как только наберётся > 1000 взаимодействий.

Персонализация превью и остальной поверхности

Рекомендер — это не только «что включится дальше». Netflix не зря персонализирует ещё и превью; прирост CTR от удачного превью часто сопоставим с приростом от лучшего порядка элементов. В 2026 году каждый креативный вариант на поверхности — превью, надпись поверх, длина нарезки — стоит решать как задачу контекстных бандитов поверх базового ранкера.

Для длинного формата персонализируйте также блоки «потому что вы смотрели X», лейблы жанров и нарезку трейлера-превью при наведении. Для короткого — длину очереди автоплея и переход между элементами. Небольшие изменения на поверхности дают реальный прирост удержания.

Комплаенс — DSA Article 38, AI Act, GDPR

DSA, статья 38. Очень крупные онлайн-платформы (VLOP) обязаны предлагать как минимум один режим рекомендаций, не основанный на профилировании. На практике это хронологическая или популярностная лента, которую пользователь может включить в один клик. Встраивайте переключатель в UI и подключайте режим «без профилирования» к слою реранкинга — так весь существующий каскад продолжит обеспечивать разнообразие и соблюдение прав.

DSA, статья 27. Прозрачность. Вы обязаны простым языком объяснить «основные параметры» вашего рекомендера и дать пользователю возможность управлять ими там, где такие настройки есть. «Мы ранжируем по сочетанию вашей истории просмотров, схожести с похожими пользователями и свежести контента» — правильная интонация.

EU AI Act. Рекомендеры в отдельных контекстах (трудоустройство, образование, ленты для несовершеннолетних) могут быть отнесены к категории высокого риска. Документируйте систему, ведите журнал управления рисками и стройте маршрут для участия человека в удалении, перерасчёте и обжаловании.

GDPR. Реализуйте кнопку «сбросить рекомендации» в один клик, очищающую вход профилирования, и обработку запросов субъекта данных, способную выгрузить или удалить эмбеддинги пользователя. Храните историю просмотров по обоснованному графику (мы обычно рекомендуем 24 месяца для активных пользователей и 12 — для неактивных).

Модель стоимости — сколько на самом деле стоит рекомендер на 1 млн MAU

Ориентировочные цифры для среднерыночной видеоплатформы с 1 млн MAU, 40 сессиями в месяц, 10 рекомендательными вызовами на сессию (400 млн рекомендаций в месяц, 40 млрд скорингов элементов в месяц).

Слой AWS Personalize Гибрид (Pinecone + кастом) Self-hosted (Merlin)
Feature store В составе 90 000 ₽/мес (Feast + Redis) 67 500 ₽/мес
Векторная БД и ретривал В составе 150 000 ₽/мес (Pinecone) 60 000 ₽/мес (Milvus)
Обучение и инференс ~1,8 млн ₽/мес @ 4,5 ₽/1k рекомендаций 300 000 ₽/мес (Triton + A100 spot) 225 000 ₽/мес
Приём событий 60 000 ₽/мес 37 500 ₽/мес (MSK) 22 500 ₽/мес
Наблюдаемость В составе 45 000 ₽/мес (Evidently) 30 000 ₽/мес
Итого в месяц ~1,8 млн ₽ ~620 000 ₽ ~405 000 ₽ + время инженеров

Гибридный путь даёт лучшую юнит-экономику на большинстве среднерыночных платформ. Self-hosted на бумаге дешевле, но съедает 1,5–2,5 FTE ML-инженеров на поддержку — и это переворачивает арифметику выше отметки 750 000 ₽/месяц, как только честно учесть зарплаты.

Мини-кейс — edtech-платформа, 12 недель разработки, +18% времени просмотра

Ситуация. Глобальная edtech-видеоплатформа с 2,1 млн MAU работала на популярностной ленте; D30-удержание было 34%, средняя длина сессии — 11 минут. Команда хотела выкатить рекомендер до начала осеннего цикла регистраций.

План на 12 недель. Недели 1–2: аудит данных, согласование KPI (досматриваемость + D30-удержание), периметр соответствия DSA. Недели 3–6: feature store на Feast + Redis, Pinecone для ANN-ретривала, своя two-tower модель, обученная на четырёх годах данных о событиях. Недели 7–9: пилот на 5%, ежедневный обзор A/B, реранкинг настроен под разнообразие (курсы между дисциплинами). Недели 10–12: раскатка на 100% с переключателем DSA «без профилирования» в UI, дашборды наблюдаемости в проде.

Результат. Прирост времени просмотра +18% (p99 задержки 82 мс). D30-удержание выросло с 34% до 41%. Длина сессии — с 11 до 14,5 минуты. Переключатель DSA доступен с первого дня запуска в ЕС. Хотите такой же разбор для своей ленты? Позвоните или напишите нам.

Каркас принятия решения — выбор стека за пять вопросов

Вопрос 1. Какой у вас MAU? < 500 тыс. → managed (AWS Personalize или Algolia). 500 тыс.–5 млн → гибрид. > 5 млн → self-hosted начинает окупаться.

Вопрос 2. Короткий формат или длинный? Короткий → transformer-модели последовательностей и сильный упор на свежесть. Длинный → two-tower ретривал + более тяжёлый реранкер + персонализация превью.

Вопрос 3. Насколько часто меняется каталог? Высокая ротация (live, UGC) → онлайн-обучение + бандиты сверху. Стабильный каталог (VOD, образование) → офлайн-батч с переобучением каждый день или каждую неделю.

Вопрос 4. Регуляторный периметр? VLOP или потребительский продукт в ЕС → переключатель DSA «без профилирования» по статье 38 и прозрачность по статье 27 с первого дня. Корпоративный/B2B/небольшое присутствие в ЕС → обязательства легче.

Вопрос 5. Суверенитет данных? On-prem или жёсткая привязка к региону → self-hosted Milvus + Merlin. Иначе подходят Pinecone и Vertex.

Пять ловушек, которые губят выкатку рекомендеров

1. Оптимизация по кликам вместо досматриваемости. Чистые CTR-модели сходятся к кликбейту. Решение: учить на смеси досматриваемости, времени просмотра и сигналов удовлетворённости из опросов с весами под вашу продуктовую стратегию.

2. Нет A/B-каркаса. Вы выкатываете «новую модель» и не можете доказать, что она вообще что-то делает. Решение: каждое изменение — через эксперимент с заранее зафиксированными метриками; закладывайте это до запуска, а не после.

3. Офлайн выигрывает, онлайн проваливается. NDCG отличный, а DAU не двигается. Решение: привязывайте каждую офлайн-метрику к целевому онлайн-приросту и отбраковывайте офлайн-победы, не двигающие KPI в shadow-режиме.

4. Дрифт фич, который никто не замечает. Обучающие данные — из распределения, которому продакшен-трафик уже не соответствует. Решение: ML-наблюдаемость с первой недели; алерты на дрифт; переобучение по графику, который оправдан вашим объёмом вовлечённости.

5. Нет переключателя DSA «без профилирования». Регулятор ЕС проверяет наличие опции «не профилировать меня» в один клик — а её у вас нет. Решение: встройте в UI, прокиньте через реранкер и логируйте состояние пользователя, чтобы ответы на запросы аудита делались в одно действие.

KPI — что измерять с первого дня

Качество. Доля досмотров (целевой рост +5–10 пунктов к baseline), длина сессии (+10–20%), CTR на топ-10 позиции ленты (отслеживать, а не максимизировать) и покрытие (≥ 70% каталога показывается за 30-дневное окно).

Бизнес. D7/D30-удержание против контрольной группы, прирост подписок и регистраций, выручка на пользователя в рекламной модели, утилизация каталога (доля просмотров длинного хвоста). Это те цифры, которые реально интересуют топ-менеджмент.

Надёжность. P50 рекомендера (≤ 60 мс) и p95 (≤ 100 мс), recall@K ANN на офлайн-эвалюации (≥ 0,9), процент успешных запусков обучающего пайплайна, число алертов о дрифте фич в неделю. Это те цифры, которые поднимают вас в три ночи.

Отрасли, где рекомендеры приносят реальную ценность в 2026 году

OTT/SVOD. Канонический сценарий — Netflix, Disney+, Max, Prime Video. Целевая метрика — время просмотра, обязательства DSA в ЕС обязательны, персонализация превью необходима.

Короткий формат UGC. TikTok, YouTube Shorts, Instagram Reels. Transformer-модели последовательностей, активная эксплорация, ежедневный cold-start новых элементов.

Edtech-видео и LMS. Рекомендации курсов, персонализация по когортам, целевая метрика — досматриваемость. Регуляторная нагрузка ниже, требования к настройке на уровне тенанта — выше.

Live-коммерция и видеошопинг в реальном времени. Рекомендации в рамках сессии, очень высокая скорость cold-start, мультирегиональные ограничения по правам. Дефолт — гибридный стек с бандитным реранкингом.

Корпоративное видео. Учебные библиотеки, внутренние таунхоллы, онбординг-контент. Качество рекомендера значит меньше, чем RBAC и поиск; managed-сервисы (Algolia Recommend) тут хорошо работают.

Новостное видео. Учёт свежести, регулирование разнообразия, чувствительность к GDPR и DSA. Гибрид контентного метода с CF и сильным запасным режимом «без профилирования».

Строить, покупать или гибрид

Полностью managed (AWS Personalize, Vertex AI Recommendations, Algolia Recommend) — если у вас < 1 млн MAU, каталог меньше 1 млн элементов, нет своей ML-команды и вы готовы принять непрозрачную модель. Это самый быстрый путь к baseline-приросту 10–15%.

Гибрид (инфраструктуру покупаете, модель строите) — если у вас 1–10 млн MAU, нужен контроль над ранкером и не хочется владеть feature store и векторной БД. Берите Feast + Pinecone или Tecton + Vertex Matching Engine и стройте two-tower ретривал с реранкером на градиентном бустинге.

Полностью своя разработка — если у вас > 10 млн MAU, есть требования суверенитета данных или on-prem, нужна transformer-модель последовательностей (короткий формат на масштабе) или рекомендер — ваше ключевое конкурентное преимущество (продукт уровня TikTok). Merlin + Milvus + TorchRec + Feast в self-hosted.

Когда рекомендер строить не надо

Не стройте, если в каталоге меньше 5000 элементов — поиск и редакторская подборка с тем же инженерным бюджетом, скорее всего, дадут больше. Рекомендеры расцветают на больших и неоднородных каталогах; в маленьком нет того длинного хвоста, который можно было бы открывать.

Не стройте, если не умеете измерять. Если ваш аналитический пайплайн не может уверенно атрибутировать время просмотра к позиции в ленте, рекомендер будет дрейфовать вслепую. Наблюдаемость и атрибуция — раньше модели.

Не стройте под регулируемый контент (детские ленты, образование для несовершеннолетних, политические новости) без приоритетного комплаенс-ревью. EU AI Act относит часть таких сценариев к высокому риску, и наивная выкатка может быстро привлечь внимание регулятора.

Планируете запуск видеорекомендера для платформы в ЕС?

Фора Софт делает рекомендательные стеки с соблюдением DSA с момента старта правоприменения в 2024 году. Один созвон — и периметр, стек и план на 12 недель размечены.

Позвоните нам → Напишите нам →

Сценарий выкатки на 12 недель

Недели 1–2. Аудит данных, согласование KPI, определение периметра соответствия DSA/AI Act. Выбор стека (managed/гибрид/self-hosted). Подписание DPA, настройка контрактов на приём событий.

Недели 3–5. Поднят feature store и векторная БД, стартовый baseline two-tower ретривала. Исторический бэкфил; офлайн-каркас оценки.

Недели 6–8. 5–10% в shadow/пилоте с полной наблюдаемостью. Итерации по правилам реранкинга (разнообразие, свежесть, права). Подключение переключателя «без профилирования».

Недели 9–11. Масштабирование до 50%, добавление персонализации превью, первая «сухая» комплаенс-проверка (текст прозрачности по DSA, флоу сброса по GDPR).

Неделя 12. Раскатка на 100%, KPI-дашборды подключены к управленческому ревью, недельный ритм калибровки, разбор пилота, дорожная карта на следующие две поверхности (например, ранжирование поиска и переупорядочивание главной строки).

FAQ

Что такое AI-система рекомендаций контента?

Трёхступенчатый пайплайн — ретривал кандидатов, скоринг машинной моделью и реранкинг с бизнес-правилами, — который выбирает, что показать каждому пользователю на каждой поверхности (лента, строка, превью). В 2026 году дефолтная архитектура — two-tower нейронный ретривер плюс transformer-скоринг по последовательностям, отдающие результат меньше чем за 100 мс end-to-end.

Что выбрать: AWS Personalize, Vertex AI или собственную разработку?

AWS Personalize и Vertex AI Recommendations — самый быстрый путь к baseline-приросту 10–15% для команд до 1 млн MAU. Выше этого масштаба лучшая юнит-экономика — у гибрида: feature store на Feast, векторная БД Pinecone или Vertex Matching Engine, своя two-tower модель ретривала и реранкер на градиентном бустинге. Полностью self-hosted (Merlin + Milvus) начинает окупаться выше 10 млн MAU или при ограничениях суверенитета данных.

Сколько в месяц стоит рекомендер на 1 млн MAU?

Примерно 1,8 млн ₽ в месяц на AWS Personalize (400 млн рекомендаций по 4,5 ₽ за 1000 + обучение + приём событий), 600–675 тыс. ₽ на гибридном стеке (Feast + Pinecone + своя модель на Triton) и 375–450 тыс. ₽ в self-hosted на Merlin + Milvus — плюс 1,5–2,5 FTE ML-инженеров для последнего варианта.

Как обеспечить соответствие DSA Article 38?

Предложите как минимум один режим рекомендаций без профилирования — обычно это хронологический или популярностный — и сделайте его доступным в один клик. Прокиньте переключатель в слой реранкинга; разнообразие и логику прав сохраняйте в любом случае. Логируйте выбранный пользователем режим, чтобы аудит регулятора проходился в одно действие.

С какого алгоритма начать?

Two-tower нейронный ретривер — дефолт 2026 года для длинного и среднего формата видео. Для короткого формата с сессионной структурой добавьте сверху transformer-модель последовательностей. Всегда держите в качестве A/B-контроля классическую коллаборативную фильтрацию. Контекстный бандит сверху — для эксплорации и персонализации превью.

Как обрабатывать cold-start?

Для новых элементов поднимайте эмбеддинги по заголовку, описанию, расшифровке и визуальным фичам (CLIP), а потом подмешивайте сигналы вовлечённости по мере накопления. Для новых пользователей используйте сигналы из онбординг-опроса и дефолты по когорте, плюс ранжирование с упором на эксплорацию на первые 10–20 взаимодействий. Закладывайте 1–3 дня на выход новых элементов на стабильные позиции в ранжировании.

Сколько занимает разработка рекомендера?

Managed-baseline (AWS Personalize) можно вывести в продакшен за 4–6 недель. Гибрид two-tower + реранкер обычно занимает 10–12 недель — от аудита данных до раскатки на 100%. Self-hosted transformer-модель последовательностей на масштабе — это первая итерация на 5–8 месяцев, дальше итерации идут гораздо быстрее.

Какая задержка приемлема?

Целевые значения — p50 ≤ 60 мс и p95 ≤ 100 мс end-to-end (ретривал + скоринг + реранкинг). Задержка свыше 150–200 мс заметно бьёт по вовлечённости. Держите рекомендательный сервис, feature store и векторную БД в одном регионе; кэшируйте топ-K ответ на пользователя на 30–60 секунд.

AI Video

Разработка приложений для видеостриминга с AI в 2026 году

Протоколы, кодеки и рекомендательные системы — в одном сквозном гайде.

AI Video

Интеграция AI-чатботов с видео: гайд 2026

Интерактивные аватары, Tavus и HeyGen, задержка меньше 600 мс.

Voice AI

AI-ассистенты звонков: справочник покупателя 2026

Vapi, Retell, OpenAI Realtime и периметр комплаенса.

Услуги

Услуги AI-разработки

Как Фора Софт строит продакшен ML-системы под ключ.

Готовы запустить рекомендер, который реально двигает удержание?

Стек рекомендера 2026 года хорошо изучен: two-tower ретривал, скорер на transformer или градиентном бустинге и реранкер на бизнес-правилах, отдающий результат меньше чем за 100 мс из feature store и векторной БД. По сути, остаются решения о масштабе MAU, формате контента, регуляторном периметре и о том, что для вашего бизнеса важнее — скорость выхода на рынок или юнит-экономика.

Если в этом квартале вы выкатываете managed-baseline — берите AWS Personalize или Vertex AI Recommendations, подключайте приём событий и запускайте пилот на 5% с заранее зафиксированной метрикой. Если у вас больше 1 млн MAU — идите в гибрид: Feast + Pinecone + two-tower, обученный на ваших данных, с A/B-каркасом и наблюдаемостью с первой недели. Если вы на масштабе VLOP или у вас серьёзные ограничения по суверенитету данных — планируйте 6-месячную self-hosted сборку на Merlin и Milvus.

Так или иначе, Фора Софт уже запускала ту схему, которую вы собираетесь строить. Принесите свои KPI, форму каталога и комплаенс-периметр — мы вернёмся с шорт-листом стеков, моделью стоимости и планом поставки на 12 недель.

Спроектируем ваш рекомендер от начала и до конца.

30 минут с нашим тимлидом по ML-инжинирингу: стек, комплаенс, модель стоимости и план поставки на 12 недель.

Позвоните нам → Напишите нам →

  • Технологии