
Главное
• 67 % продакшен-внедрений LLM используют RAG (отчёт McKinsey по корпоративному ИИ за 2026 год). Это рост с 31 % в 2024-м. Подход стал мейнстримом, а видео- и аудио-приложения остаются недооценённым фронтиром.
• Универсальный RAG не работает на видео. Стратегия чанкинга транскриптов, поиск с привязкой ко времени, выбор мультимодального эмбеддинга, диаризация говорящих — всё это важнее, чем выбор векторного хранилища.
• Правило 73 %. Когда RAG отказывает в продакшене, в 73 % случаев виноват именно поиск, а не генерация. Вкладывайтесь в качество поиска (чанкинг, реранкинг, гибридный поиск), прежде чем тюнинговать промпт LLM.
• Стоимость определяется эмбеддингом и инференсом LLM, а не векторным хранилищем. 1 000 часов видео обходятся примерно в 9 000 ₽/мес на ASR + 3 000 ₽/мес на эмбеддинг + 1 125 ₽/мес на векторное хранилище. Инференс LLM масштабируется с числом запросов.
• Глубокие ссылки с привязкой ко времени — ключевая фича. Ответ RAG, ведущий к точному моменту в исходном видео, и делает «чат с моими записями» по-настоящему полезным, а не игрушкой. Закладывайте таймкоды с первого дня.
Почему Фора Софт написала этот гайд
Фора Софт с 2005 года выпустила более 200 видео- и аудио-продуктов и реализовала RAG-решения поверх нескольких из них. BrainCert (e-learning-платформа с годовой выручкой в 750 млн ₽) — поиск по лекциям; VALT (650+ юридических организаций) — e-discovery-поиск по записям допросов и показаний; TransLinguist — поиск по многоязычным транскриптам; Mangomolo — поиск по архивам вещателя.
В 2024–2026 годах мы построили четыре продакшен-системы видео-RAG и провели аудит ещё двух. Паттерны в этом гайде — из тех проектов плюс публичные источники: статья VideoRAG (KDD 2026), AWS V-RAG, продакшен-стратегии Morphik, цифра McKinsey про 67 % внедрений.
Если вы строите «чат с моими записями», семантический видеопоиск, Q&A по лекциям или любое RAG-приложение, где источник — видео или аудио, этот гайд даст вам архитектуру, стратегии чанкинга, выбор векторного хранилища и модель стоимости.
Нужен RAG для вашего видео- или аудио-архива?
Пришлите количество видео, общее число часов и сценарий использования. Мы вернёмся с архитектурой и оценкой стоимости через 48 часов. Бесплатно.
Почему универсальный RAG не работает на видео
Универсальный RAG (Pinecone + LangChain + GPT-4) на корпусе документации поднимается за 50 строк Python. Тот же подход на видеоархивах даёт бесполезные ответы. Три причины:
1. Чанкинг транскриптов сложнее, чем чанкинг документов. У документов есть заголовки, абзацы, предложения. У транскриптов — реплики говорящих, паузы, перебивания, переключения темы посреди фразы. Чанк в 500 слов охватывает 3 разных спикеров и 4 разные темы. Поиск выдаёт не тот момент, потому что у чанка нет чёткой семантической границы.
2. Привязка ко времени — необходимость, а не опция. «Пациент упомянул боль в груди» бесполезно без «на 12:34 минуте консультации 14 августа». Глубокая ссылка на исходное видео и делает ответ применимым. Закладывайте таймкоды в каждый чанк и протаскивайте их через поиск и ответ.
3. Мультимодальный контекст важен для части сценариев. Запись с камеры наблюдения, где человек заходит в зону ограниченного доступа, требует визуального контекста, а не только аудио-транскрипта. Лекция с диаграммами на доске требует визуальной составляющей. Чисто текстовый эмбеддинг RAG полностью теряет визуальный сигнал.
Эталонная архитектура
Рисунок 1. Конвейер видео-/аудио-RAG — ASR, чанкинг, эмбеддинг, векторное хранилище, реранкер, LLM, ответ с таймкодами.
Стратегии чанкинга для транскриптов
Чанкинг по предложениям. Каждое предложение — отдельный чанк. Жёсткая семантическая граница, много мелких чанков, при необходимости поиск может подтянуть окружающий контекст. Подходит для FAQ-запросов по хорошо проговорённому контенту.
Чанкинг по репликам говорящего. Каждая реплика (непрерывный отрезок одного спикера) становится чанком. Сохраняет структуру диалога, согласуется с выходом диаризации. Подходит для разговорного контента (встречи, допросы, интервью).
Семантический чанкинг. Определяет смену темы по схожести эмбеддингов. Границы чанков ложатся на естественные семантические разрывы. Качество выше, на этапе ингеста дороже. Подходит для лекций, подкастов, длинного контента.
Окно фиксированной длины с нахлёстом. Окна по 30 секунд с нахлёстом в 5 секунд. Просто, предсказуемо, работает приемлемо. Подходит для прототипа или когда структура спикеров и тем плохая.
Гибридный (рекомендуем). Основа — реплики говорящих, плюс детектор смены темы внутри длинных реплик. Окно обычно 60–90 секунд, нахлёст 10–20 секунд для сохранения контекста. Используем в большинстве наших продакшен-внедрений.
Таймкоды на каждый чанк. В чанке хранятся: ID чанка, ID исходного видео, start_time, end_time, спикер (если известен), эмбеддинг. Поиск возвращает чанк вместе с таймкодом, ответ ссылается на «такую-то минуту в источнике X».
Когда нужен мультимодальный эмбеддинг, а когда хватит текстового
| Тип контента | Рекомендуем | Почему |
|---|---|---|
| Встречи, подкасты, допросы | Только текстовый эмбеддинг | Много речи, визуал малоинформативен |
| Лекции с диаграммами и демонстрациями | Гибрид (текст + эмбеддинги ключевых кадров) | Визуальная часть несёт смысл |
| Записи с камер видеонаблюдения | Мультимодальный (CLIP + текст) | Главное — визуал, речи мало |
| Спортивные трансляции | Мультимодальный + дорожка комментатора | Важны и визуал, и аудио-комментарий |
| Музыка, фоновое аудио | Аудио-эмбеддинг (CLAP) | Языка нет, доминируют звуковые признаки |
Инструменты для мультимодального эмбеддинга. CLIP для пар изображение-текст (зрелое, быстрое решение). VideoCLIP / X-CLIP для видео. CLAP для аудио. Twelve Labs — коммерческий мультимодальный API. ImageBind от Meta. Оптимум 2026 года — гибрид: текстовый эмбеддинг для транскрипта плюс разреженные эмбеддинги ключевых кадров для визуального контекста.
Сравнение векторных хранилищ
| Хранилище | Хостинг | Сильная сторона | Когда подходит |
|---|---|---|---|
| Qdrant | Self-hosted или облако | Производительность, гибридный поиск, фильтры по payload | Дефолт 2026-го для серьёзных внедрений |
| Pinecone | Только управляемое облако | Простота эксплуатации, широкая экосистема | Когда важна скорость выхода и нет SRE |
| Weaviate | Self-hosted или облако | Схемы, гибридный поиск, модули | Энтерпрайз с богатыми структурированными метаданными |
| pgvector | Расширение Postgres | Postgres уже работает, новой инфры не нужно | До 10 млн векторов, транзакционная интеграция |
| Chroma | Self-hosted, встраиваемый | Удобство для разработчика, встраивается в приложение | Прототипы, однотенантные приложения |
| Milvus | Self-hosted, облако Zilliz | Масштаб — миллиарды векторов | Огромные датасеты, R&D-нагрузки |
Разница в стоимости между векторными хранилищами невелика по сравнению с эмбеддингом и LLM. Берите то, что ваша команда умеет эксплуатировать; не оптимизируйте этот выбор сверх меры.
Правило 73 % — когда RAG падает, виноват поиск
Отраслевая аналитика 2026 года стабильно показывает: когда RAG отказывает в продакшене, в 73 % случаев виноват поиск, а не генерация. LLM редко становится узким местом, если вы используете модели уровня GPT-4 или Claude 3.5. Узкое место — то, что подаёт поисковик.
Типичные сценарии отказа поиска. (1) Слишком мелкие чанки (теряется контекст). (2) Слишком крупные чанки (запрос «размывается»). (3) Не включён гибридный поиск (dense + sparse выигрывает у любого по отдельности). (4) Нет реранкера (ответ есть в топ-50, но LLM его не видит). (5) Несовпадение моделей эмбеддинга (многоязычный контент с английскими эмбеддингами).
Порядок инвестиций. Сначала чините поиск: чанкинг, гибридный поиск, реранкинг, фильтры по метаданным. Каждую итерацию мерьте precision/recall на размеченном валидационном наборе (об этом мы пишем в нашем гайде по оценке LLM-приложений). Только после того, как поиск стабилен, переходите к тюнингу промпта LLM.
Гибридный поиск. Совместите плотный векторный поиск (семантическая близость) с разреженным BM25 (совпадение по ключевым словам). Реранкуйте объединение. Подсказка: BM25 в одиночку ловит запросы с именами собственными, техническими терминами и идентификаторами, которые dense-эмбеддинг пропускает. На наших внедрениях гибрид выигрывает 10–20 % precision.
Реранкер. Прогоняйте топ-50 первичной выдачи через cross-encoder-реранкер (Cohere Rerank, BGE Reranker, ColBERT). Отдавайте топ-5 в LLM. Реранкер сильно меньше LLM, но кардинально повышает precision. Стоит задержки на любом серьёзном внедрении.
Модель стоимости
Рабочий пример: 1 000 часов записей встреч, 100 запросов в день.
ASR. Self-hosted Whisper на GPU: примерно 0,3 ₽ за минуту аудио. 1 000 часов = 60 000 минут = 22 тыс. ₽ единоразово + 3 750 ₽/мес на новый контент. Управляемые AssemblyAI / Deepgram: 0,7–1,5 ₽ за минуту. На больших объёмах self-hosted Whisper окупает GPU.
Эмбеддинг. OpenAI text-embedding-3-small: 0,0015 ₽ за 1 000 токенов. 1 000 часов речи ≈ 8 млн токенов. Единоразовый эмбеддинг — 12 тыс. ₽. Новый контент — 2 250 ₽/мес.
Векторное хранилище. Self-hosted Qdrant: примерно 1 125 ₽/мес на 1 млн векторов. Управляемый Pinecone: примерно 5 250 ₽/мес на похожую нагрузку. Это копейки на фоне стоимости LLM.
Реранкер. Cohere Rerank: 75 ₽ за 1 000 запросов. 100 запросов в день = 225 ₽/мес.
Инференс LLM. GPT-4 с контекстом из 5 чанков: примерно 1,5 ₽ за запрос. 100 запросов в день = 4 500 ₽/мес. Или Claude 3.5 Sonnet с похожей ценой. Это переменная составляющая.
Итого. Около 12 тыс. ₽/мес на этом масштабе, в основном за счёт ASR (если вы постоянно добавляете контент) и инференса LLM. Линейно: 10 000 часов и 1 000 запросов в день — примерно 120 тыс. ₽/мес.
Хотите модель стоимости для своего архива?
Пришлите количество видео, среднюю длительность и объём запросов. Мы вернёмся с полным расчётом стоимости через 48 часов. Бесплатно.
Build vs Buy — AssemblyAI LeMUR, Twelve Labs, кастом
AssemblyAI LeMUR. Конвейер «ASR + LLM поверх транскрипта» как управляемый сервис. Q&A, саммари, кастомные промпты по транскриптам. Самый быстрый выход для RAG только по транскриптам. Доплата к DIY на масштабе — в 2–3 раза.
Twelve Labs. Мультимодальный видеопоиск и Q&A как сервис. Понимание видео (визуал + аудио), семантический поиск, поиск на уровне сцены. Подходит, когда визуальный контент важен, а CLIP-конвейер строить самим не хочется.
Morphik / V-RAG (AWS). AWS-нативный фреймворк для видео-RAG. Интеграция Bedrock + S3 + Kendra. Подходит, когда лок-ин AWS приемлем и данные уже там.
LlamaIndex / LangChain. Прикладные фреймворки оркестрации. Сочетаются с любым векторным хранилищем, моделью эмбеддинга, LLM. Дефолт 2026 года для кастомных сборок.
Кастом. Когда сценарий вертикально-специфический (юридический e-discovery, поиск по записям с камер, анализ медицинских транскриптов) или когда комплаенс требует self-hosted (телемед-RAG уровня HIPAA). Выше затраты на разработку, зато полный контроль.
Мини-кейс — платформа для встреч добавляет «чат с прошлой неделей» за 6 недель
B2B-платформа записи и расшифровки встреч (под NDA, около 50 тыс. записей в неделю) обратилась к нам в конце 2025-го с задачей сделать «чат с моими записями» как фичу v2. Цель: пользователь пишет «о чём мы вчера договорились с Марком?», ассистент возвращает ответ с глубокими ссылками на нужные моменты.
Сборка за 6 недель. Недели 1–2: стратегия чанкинга (по репликам, окна 60 секунд, нахлёст 10 секунд), Whisper-large для ASR (уже был в их пайплайне), text-embedding-3-small для эмбеддингов. Недели 3–4: векторное хранилище Qdrant с гибридным поиском, Cohere Rerank для перехода с топ-50 в топ-5, GPT-4 с системным промптом, требующим цитирования. Неделя 5: глубокие ссылки по таймкодам, фильтрация по нескольким записям. Неделя 6: оценка через RAGAS на 200 размеченных запросах, итерации поиска до precision > 80 %.
Результат. 84 % precision поиска на размеченном валидационном наборе. Внедрение: 35 % пользователей попробовали фичу за 30 дней, 58 % — за 90 дней. Месячное удержание выросло на 11 процентных пунктов среди тех, кто пользовался фичей 5+ раз. Позвоните нам, чтобы обсудить похожую сборку под ваш архив.
Оценка — RAGAS, Braintrust, LangSmith
RAGAS. Open-source-фреймворк оценки специально под RAG. Метрики: релевантность контекста, релевантность ответа, обоснованность (берётся ли ответ из извлечённого контекста). Стандартный инструмент для RAG-оценки, интегрируется с большинством стеков.
Braintrust. Полнофункциональная платформа оценки, привлекла 6 млрд ₽ в феврале 2026-го по оценке 60 млрд ₽. Связывает продакшен-трейсы, оценки, итерации промптов, гейты качества в CI/CD. Подходит командам, ведущим несколько LLM-фич сразу.
LangSmith. Оценка от создателей LangChain. Сильная трассировка, инструменты для итераций промптов, интеграция с фреймворком. Подходит, когда стек плотно завязан на LangChain.
Эталонный датасет (golden dataset). Самый сложный шаг при настройке оценки. Типовой паттерн: 100–200 размеченных пар «вопрос-ответ», покрывающих основные сценарии плюс крайние случаи. Курируют доменные эксперты, а не инженеры. Без этого вы тюните вслепую.
Каркас принятия решения — стек за пять вопросов
В1. Контент с упором на речь или на визуал? Речь — конвейер с текстовым эмбеддингом. Визуал — мультимодальный (CLIP + текст). Смешанный — гибридное скоринговое объединение.
В2. Какой объём за 12 месяцев? До 1 000 часов — управляемые сервисы (AssemblyAI LeMUR, Twelve Labs). 1 000–100 000 часов — гибрид: управляемый ASR + кастомный RAG. Свыше 100 000 часов — self-hosted Whisper + кастомный RAG.
В3. Требования по комплаенсу? Стандартные — любой путь. HIPAA — HIPAA-совместимый STT + конечные точки Azure OpenAI + self-hosted векторное хранилище. EU AI Act high-risk — требования к документации добавляют 4–6 недель.
В4. Масштаб векторного хранилища? До 10 млн векторов — pgvector, если уже есть Postgres. 10 млн–1 млрд — Qdrant или Weaviate. Свыше 1 млрд — Milvus или распределённый Qdrant.
В5. Какой бюджет задержки? Меньше секунды на ответ — пропускаем реранкер, берём LLM поменьше, агрессивно кэшируем. Терпимо 2–3 секунды — полный конвейер (реранкинг + GPT-4) как дефолт.
Ловушки, которых лучше избежать
1. Пропуск реранкера. Топ-5 из первичной выдачи без реранкинга — шум. Всегда вкладывайтесь в cross-encoder-реранкер: он сокращает поисковые отказы на 30–50 %.
2. Нет таймкодов. Ответ без глубокой ссылки на исходное видео — игрушка, а не польза. Закладывайте таймкоды в чанки с первого дня.
3. Тюнинг LLM раньше поиска. Правило 73 %. Сначала чините поиск.
4. Нет фреймворка оценки. Без RAGAS или аналога на эталонном датасете каждое «улучшение» — анекдот. Регрессии вы не заметите.
5. Забыть про многоязычность. Дефолтные эмбеддинги OpenAI поддерживают 50+ языков, но качество гуляет. Для многоязычных архивов проверяйте качество эмбеддинга по каждому языку, для слабо поддерживаемых языков — рассмотрите специализированные модели.
KPI, которые стоит мерить
KPI качества. Precision поиска при k=5 (цель: >80 %). Recall поиска при k=20 (цель: >90 %). Обоснованность по RAGAS (цель: >0,85). Релевантность ответа (цель: >0,85).
Бизнес-KPI. Доля пользователей, попробовавших фичу (цель: 30 %+ за 30 дней среди активных). Доля «успешных» запросов (пользователь нашёл нужное за 3 уточнения). Прирост удержания среди тех, кто пользуется фичей.
KPI надёжности. p95 задержки запроса (цель: <3 с). Доля успешных ASR (цель: 99 %+). Лаг конвейера эмбеддинга (цель: новый контент попадает в поиск за 5 минут).
FAQ
Whisper или AssemblyAI для ASR?
Self-hosted Whisper-large — самое выгодное решение при объёмах больше 1 000 часов в месяц. AssemblyAI / Deepgram выигрывают по скорости старта и удобству управляемого сервиса при объёмах меньше 1 000 часов в месяц. Качество сопоставимое; для английского Whisper-large-v3 — в верхушке индустрии.
Pinecone или Qdrant?
Pinecone выигрывает по простоте эксплуатации (только управляемый). Qdrant выигрывает по стоимости (можно self-hosted), производительности (быстрее на том же железе) и набору фич (лучше гибридный поиск, фильтрация по payload). Для новых проектов с собственной командой эксплуатации выбираем Qdrant; без неё — Pinecone.
OpenAI text-embedding-3-large или BGE?
OpenAI text-embedding-3-large — для английского при удобстве управляемого сервиса. BGE-large-v1.5 (open-source) — для self-hosted; качество совпадает с OpenAI, маржинальная стоимость нулевая, как только инференс крутится у вас. Многоязычные сценарии: BGE-M3 выигрывает на не-английском.
Как оценить RAG до запуска?
Соберите эталонный датасет на 100–200 вопросов с доменными экспертами. Прогоняйте на нём RAGAS / Braintrust / LangSmith. Итерируйте поиск (чанкинг, реранкинг, гибрид), пока precision не превысит 80 %, а обоснованность — 0,85. Полную методологию мы описываем в нашем гайде по оценке LLM-приложений.
Можно ли сделать RAG поверх HIPAA-защищённого видео?
Да — с HIPAA-совместимым STT (Azure Speech / AWS Transcribe Medical), конечными точками Azure OpenAI с BAA, self-hosted векторным хранилищем внутри вашего VPC. Логи и промпты считаются «околосодержащими PHI», поэтому их нужно маскировать до того, как к ним получит доступ внешний сервис. Подробнее — в нашем гайде по HIPAA + SOC 2.
Сколько занимает разработка продакшен-видео-RAG?
С нуля на управляемых сервисах — 4–6 недель. Кастом поверх LangChain + Qdrant + Whisper — 8–12 недель. Вертикально-специфический (юридический e-discovery, медицина) с комплаенсом — 12–16 недель. С учётом наших наработок по BrainCert и VALT мы обычно укладываемся ближе к нижней границе.
А что насчёт VideoRAG (статья KDD 2026)?
Сильный академический бейзлайн для полного мультимодального видео-RAG. Open-source-реализация от HKUDS на GitHub. Полезно как ориентир и для исследований, но в продакшене всё ещё доминирует подход с приоритетом транскрипта — из-за стоимости и задержек.
Twelve Labs или кастом?
Twelve Labs — самый быстрый путь к мультимодальному видеопоиску, доплата к DIY на масштабе — в 3–5 раз. Берите его при объёмах до 1 000 часов и при срочных запусках, кастомьте при объёмах от 5 000 часов, где экономика разворачивается.
Что почитать дальше
Voice AI
Гайд по продакшену OpenAI Realtime
RAG через голосового агента: пользователь говорит, агент ищет.
AI-инфраструктура
MCP для видео-приложений
RAG как набор MCP-инструментов для любого агента.
Оценка
Оценка LLM-приложений
RAGAS + Braintrust для продакшен-RAG.
Агенты
AI-агенты на LiveKit
Голосовой агент, оборачивающий поиск RAG.
Комплаенс
HIPAA + SOC 2
Когда RAG касается PHI, важна архитектура с BAA.
Готовы запустить «чат с моими записями»?
67 % продакшен-LLM-приложений уже используют RAG. Универсальный RAG не работает на видео; победы приходят за счёт стратегии чанкинга, поиска с привязкой ко времени, гибридного поиска и реранкинга. Правило 73 % говорит: сначала вкладывайтесь в поиск, LLM редко становится узким местом.
Стоимость определяется ASR и инференсом LLM, а не векторным хранилищем. Выбирайте Qdrant или Pinecone по тому, есть ли у вашей команды мускулатура эксплуатации. Оценка через RAGAS на эталонном датасете обязательна. Глубокие ссылки по таймкодам делают ответ полезным, а не игрушкой — закладывайте их с первого дня.
Хотите план запуска видео-RAG за 6 недель?
Пришлите размер архива, тип контента и сценарий использования. Мы вернёмся с архитектурой, выбором подрядчика и планом на 6–12 недель через 48 часов. Бесплатно.

