
Главное
• Клонирование голоса вышло в массы. Рынок ИИ-генераторов голоса вырос с 262 млрд ₽ в 2024 году и, по прогнозам, достигнет 1 552 млрд ₽ к 2031-му при CAGR около 30%. Голосовые агенты, дубляж, доступность и аудиокниги — четыре направления, куда идут эти деньги.
• Качество перешагнуло порог правдоподобия. Топовые TTS-движки набирают 4,3–4,8 балла по MOS при человеческой норме 4,5; в слепых тестах около 38% слушателей не отличают синтетическую речь от живой.
• Теперь различает не естественность, а задержка. Cartesia Sonic Turbo выдаёт первое аудио за 40 мс, Deepgram Aura-2 — за 90 мс. Остальной стек голосового агента должен удержать полный round-trip ниже ~800 мс, иначе пользователь это почувствует.
• Регулирование пришло. NO FAKES Act (от 375 тыс. ₽ за нарушение), обязательные водяные знаки по EU AI Act с августа 2026 года, Tennessee ELVIS Act и правила раскрытия ИИ от FTC — всё это переформатирует то, что можно запускать без согласия и без подтверждения происхождения.
• Разрабатывать или лицензировать — вопрос объёма. До 1 млн символов в год — лицензируйте. От 10 млн символов в год или при необходимости собственного брендового голоса — разрабатывайте (или используйте гибрид). Подход Agent Engineering в Фора Софт сжимает оба календаря ниже отраслевых базовых сроков.
Почему Фора Софт написала это руководство
Синтез голоса — не побочный проект для нас. Около 40% нашей инженерной мощности занято видео, real-time и AI, и всё большая доля этой работы — голосовые агенты, пайплайны дубляжа, субтитры и перевод в реальном времени, продукты доступности, которым нужна правдоподобная синтетическая речь. Мы запустили EdTech-платформу BrainCert на 100 тыс. клиентов, корпоративную систему видеоконференций ProvideoMeeting и Vocal Views — исследовательский маркетплейс, который используют Google, McDonald’s, Netflix и Samsung. Все они опираются на речевой AI.
Это руководство мы передаём основателям, продакт-овнерам и CTO, когда они прорабатывают голосовые функции. Здесь движки и цены, расчёт между разработкой и покупкой, юридический ландшафт, решения по задержкам и архитектуре, а также реальная стоимость запуска. Мы используем Agent Engineering — внутренний процесс поставки с применением ИИ, — чтобы держать оценки ниже отраслевых базовых.
Прорабатываете голосовую функцию или голосового агента?
30-минутный звонок с нашими лидами по AI и голосу — и у вас на руках рекомендация по движку, бюджет задержек, план соответствия требованиям и реалистичные сроки.
Клонирование голоса vs. синтез голоса — определения, которые путают
Эти два термина лежат на одном континууме, но отвечают на разные коммерческие вопросы. Используйте рабочие определения ниже при оценке проекта.
| Подход | Нужный образец | Время | Качество | Когда применять |
|---|---|---|---|---|
| Стандартный TTS | Не нужен — готовые голоса | Мгновенный API-вызов | Высокое | IVR, голосовые агенты, аудиокниги со стоковыми голосами |
| Zero-shot клонирование | 3–10 секунд аудио | Мгновенно | Среднее–хорошее | Демо, прототипы, лёгкая персонализация |
| Few-shot дообученный клон | 1–5 минут | 5–30 минут | Очень хорошее | Контент креаторов, дубляж, средние объёмы продакшна |
| Профессиональное клонирование (PVC) | 30–60+ минут | 2–8 недель | Отличное | Брендовые голоса, авторы аудиокниг, вещание |
Выбирайте few-shot в 2026, если сценарий требует «звучит как наш бренд» без времени и бюджета на полноценный PVC. Разрыв в точности с PVC резко сократился в этом году, и около 5 минут чистого аудио хватает для большинства продакшн-задач.
Снимок рынка — цифры за разработкой
| Показатель | Значение | Почему это важно |
|---|---|---|
| Рынок ИИ-генераторов голоса в 2024 | ~262 млрд ₽ | Уже достаточно велик, чтобы прокормить несколько миллиардных специалистов. |
| Прогноз на 2031 | ~1 552 млрд ₽ при CAGR 30%+ | Накопительный попутный ветер для voice-first продуктов. |
| Разрыв качества с человеком | ~38% слушателей не отличают | Естественность больше не ров — теперь это задержка, язык и попадание в бренд. |
| Задержка первого аудио у топовых движков | 40–90 мс | Голосовые агенты в реальном времени теперь реальны end-to-end под ~800 мс. |
| Языки у топовых движков | 125–140+ | Локализация — уже не пункт в роадмапе, а ожидание по умолчанию. |
| Дедлайн EU AI Act | Август 2026 | Обязательные водяные знаки и раскрытие для любого синтетического аудио, отгружаемого в ЕС. |
Топовые движки синтеза голоса — цены, языки и качество
Ниже — обстановка на середину 2026 года. Цифры отражают публичные цены и бенчмарк времени до первого аудио; в продакшне они могут отличаться в зависимости от региона и тарифа.
| Движок | Сильная сторона | Языки | Первое аудио | Ориентировочная цена |
|---|---|---|---|---|
| ElevenLabs | Качество клонирования, выразительность | 32–74 | ~200–500 мс | 375 – 24 750 ₽/мес. на тарифах |
| Cartesia Sonic 3 / Turbo | Самая низкая задержка в категории | 14+ | 40–90 мс | ~1/5 от ElevenLabs на объёмах |
| Deepgram Aura-2 | Стриминг-ориентированные голосовые агенты | 14+ | ~90 мс | 2,25 ₽ за 1 тыс. знаков |
| Google Cloud TTS (Chirp 3 HD / Studio) | Самое широкое покрытие языков | 125+ | ~150–400 мс | 2 250 – 12 000 ₽ за 1 млн знаков |
| Microsoft Azure Neural / HD | Дружественен к HIPAA, корпоративный | 140+ | ~150–300 мс | 1 650 ₽ за 1 млн знаков (тарифы с обязательством от 562 ₽) |
| Amazon Polly Generative | Нативен для AWS, предсказуемые цены | 40+ | 100–500 мс | 2 250 ₽ за 1 млн знаков |
| OpenAI TTS-1 / TTS-1-HD | Простое выравнивание стека с GPT | 13 голосов | ~200–400 мс | 1 125 – 2 250 ₽ за 1 млн знаков |
| PlayHT, Resemble AI, Hume, Murf, Lovo | Клонирование + выразительные ниши | 15–40 | 200–500 мс | Гибриды из тарифов и оплаты по использованию |
Open-source модели голоса — XTTS, OpenVoice, F5-TTS, Bark, Coqui
Open-source догнал коммерческие движки во многих сегментах. Модели ниже — те, что мы достоверно разворачиваем on-prem, когда нужна резидентность данных, контроль расходов или клонирование без ограничений.
| Модель | Нужный образец | Языки | Лучше всего для |
|---|---|---|---|
| XTTS-v2 | 6–15 сек | 13 | Самый скачиваемый открытый клон, сбалансированное качество |
| OpenVoice v2 | 1–5 сек | Кросс-языковая | Лёгкий zero-shot, кандидат для on-device |
| F5-TTS | ~1 мин | Английский, китайский (расширяется) | SOTA-качество на поддерживаемых языках |
| Suno Bark | Не нужен (zero-shot) | 12+ | Выразительность, музыка, звуковые эффекты |
| Coqui TTS / Tortoise | Варьируется | 16+ | Сообщество, экосистема, исследования и пайплайны |
Переходите на self-hosted open-source, если годовой объём TTS превышает ~10 млн символов, заказчик требует on-prem или резидентность в ЕС, либо юристам нужен полный контроль над происхождением обучающих данных. Ниже этого порога API-движок ощутимо дешевле: вендор размазывает GPU и работу по водяным знакам по всем клиентам.
Бюджет задержек голосового агента — куда уходят миллисекунды
Голосовому агенту, который ощущается «человеческим», нужен полный round-trip ниже ~800 мс; паузы дольше ~1,5 с разваливают воспринимаемый интеллект. Ниже — реалистичная разбивка для пайплайна ASR + LLM + TTS.
| Этап | Реальная задержка | Рычаги |
|---|---|---|
| VAD + захват аудио | ~50 мс | Настройка эндпойнтинга, джиттер-буфер |
| Streaming ASR | ~150 мс | Deepgram, Whisper-streaming, AssemblyAI |
| LLM time-to-first-token | ~400 мс | Меньшие модели, кэширование промптов, пре-фильтр инструментов |
| Первый аудиочанк TTS | 90–200 мс | Cartesia / Deepgram / ElevenLabs Flash |
| Сетевые накладные | ~50 мс | WebRTC + ближайший регион; избегайте HLS для live |
LLM почти всегда доминирует по стоимости. Сжимайте его меньшими маршрутизирующими моделями, кэшируйте промпты и агрессивно пре-фильтруйте инструменты, прежде чем выгрызать следующие 50 мс из TTS или ASR.
Нужен план задержек для голосового агента?
За один звонок мы подберём движок, выставим бюджет задержек, спроектируем WebRTC-транспорт и оценим разработку — включая слой соответствия требованиям.
Архитектура стримингового TTS — WebRTC, WebSocket, REST
Доминируют три транспортных шаблона. Выбирайте по целевой задержке, а не по предпочтениям вендора.
1. WebRTC. Полный round-trip ниже 200 мс достижим. Аудиокадры идут чанками по 20–40 мс; джиттер-буфер 50–100 мс гасит сетевые колебания; двунаправленный — единственный достоверный выбор для живых голосовых агентов и разговорного AI.
2. WebSocket-стриминг. TTS-движок возвращает аудиочанки по мере синтеза. Первый чанк приходит за 90–200 мс; следующие — каждые 40–80 мс. Подходящий выбор для проигрывания в приложении и для дашбордов, где вы контролируете клиента.
3. REST batch. Синтез целой реплики возвращается одним файлом MP3/WAV/Opus. Подходит для генерации аудиокниг, IVR-промптов, пайплайнов дубляжа — и никогда для живого разговора.
Сценарии, ради которых стоит разрабатывать в 2026
Голосовые агенты в реальном времени
Клиентский сервис, продажи, поддержка и внутрипродуктовые копилоты. Стек Vapi + Deepgram + Cartesia обходится примерно в 7,5–11,2 ₽/мин с учётом всего — дешевле найма людей за считанные месяцы на высоконагруженных очередях.
Дубляж и локализация
Клонированный голос актёра с переведённым сценарием на 30+ языков. Выходит дешевле традиционного дубляжа в пять и более раз.
Озвучка аудиокниг в масштабе
Клон голоса автора, пакетная генерация по главам, мультиязычное размножение. Студийное время сжимается с недель до нескольких часов QA-проверки; цена — юридический и этический слой (согласие, водяные знаки), который придётся внедрить с первого дня.
Доступность и ассистивный голос
Сохранение голоса для пациентов с БАС или афазией (Resemble, Voiceitt, Google Euphonia) возвращает человеку его собственный голос по мере прогрессирования болезни. По выручке сценарий небольшой, но он сильно бьёт в миссию для покупателей из здравоохранения и EdTech.
Игры и интерактивные медиа
Голоса NPC генерируются динамически по веткам диалогов; эмоция инжектится по сцене; стриминговый TTS в реальном времени держит память и диск маленькими. Большая экономия по сравнению с предварительной записью каждой реплики.
Изучение языков
Воспроизведение произношения, тренировка акцента, симуляция диалогов с несколькими собеседниками. Естественно сочетается с многоязычным ASR для замкнутых практических циклов.
Этика, регулирование и водяные знаки — что спросит юрист
1. NO FAKES Act (США, повторно внесён в 2025). Федеральное право на охрану голоса и образа. Требуется явное и непрерывное согласие — в том числе посмертно. Минимум 375 тыс. ₽ за нарушение; до десятков миллионов рублей, если доказан репутационный ущерб.
2. EU AI Act (вступает в силу август 2026). Обязательная маркировка прозрачности, машиночитаемые водяные знаки для синтетического контента, раскрытие обучающих данных и принудительное соблюдение копирайт-опт-аута. Штрафы до 10 млн € или 2% мирового оборота.
3. Акты уровня штатов (Tennessee ELVIS, Калифорния, Нью-Йорк). Гражданская и уголовная ответственность за несанкционированное клонирование. До записи любого образца обязательны процедуры раскрытия и согласия.
4. Правила раскрытия ИИ от FTC. IVR и голосовые агенты должны сразу сообщать: «Вы говорите с ИИ-агентом». Иначе — недобросовестная торговая практика.
5. Водяные знаки и происхождение. Google SynthID Audio (неслышимое встраивание в спектрограмму), AudioSeal от Meta (реальное время, на уровне кадров) и аудио-манифест C2PA (криптографическое подтверждение происхождения) закрывают основные варианты. Выберите хотя бы один и применяйте на каждом пути синтеза.
Разрабатывать или лицензировать — правило объёма
Удивительное число заказчиков по умолчанию начинают разрабатывать, потому что «голос — это ядро». Честная математика опирается на объём.
| Годовой объём TTS | Рекомендация | Почему |
|---|---|---|
| < 1 млн знаков / год | Лицензия (ElevenLabs / Google / Azure) | API-расходы превышают затраты на GPU и эксплуатацию; вендор берёт на себя соответствие требованиям. |
| 1–10 млн знаков / год | Гибрид — API + few-shot кастомные голоса | Брендовый голос через PVC-тариф; базовый объём — на более дешёвых тарифах. |
| > 10 млн знаков / год | Разрабатывать на open-source (XTTS, F5, Bark) | Стоимость одного знака падает в 3–6 раз, когда GPU размазан по объёму. |
| Регулируемая отрасль / on-prem | Self-host open-source | Резидентность данных и аудит-трейл проще, когда стек принадлежит вам. |
Модель стоимости — во что обходится MVP и продакшн-продукт
Цифры ниже отражают проекты Фора Софт с применением Agent Engineering. Они консервативные; в большинстве случаев мы укладываемся лучше.
| Объём | Входит | Ориентировочный бюджет | Календарь |
|---|---|---|---|
| Голосовой MVP (на API) | Стоковый TTS, простое воспроизведение по WebSocket, базовый UI | 1,1–2,2 млн ₽ | 3–5 недель |
| Голосовой агент в реальном времени | ASR + LLM + TTS по WebRTC, телефонный мост, дашборды | 3,7–9 млн ₽ | 8–14 недель |
| Кастомный клон голоса (PVC) + брендовый пакет | Обучение PVC, водяные знаки, оценка, лицензионный workflow | 1,8–4,5 млн ₽ | 6–10 недель |
| Self-hosted open-source стек | Деплой XTTS / F5-TTS, автоскейлинг GPU, тюнинг задержек | 4,5–10,5 млн ₽ | 10–14 недель |
| Пакет соответствия и водяных знаков | Поток согласия, SynthID/AudioSeal, аудит-лог, готовность к EU AI Act | 1,1–2,6 млн ₽ | 2–4 недели |
Фреймворк решения — выбираем голосовой путь за пять вопросов
1. Какова целевая задержка? Ниже 200 мс суммарно → Cartesia / Deepgram + WebRTC. Ниже 1 с → ElevenLabs / OpenAI / Google по WebSocket. Batch → любой движок по REST.
2. На каких языках вы запускаетесь? > 50 языков → Google или Azure. 14–40 языков → Cartesia, Deepgram, ElevenLabs. Только английский → подойдёт OpenAI TTS.
3. Клонированные или стоковые голоса? Стоковые → самый дешёвый и быстрый путь. Few-shot клон → брендовый голос без бюджета на PVC. PVC → качество для вещания или аудиокниг.
4. Где живут данные? Облака США или ЕС подходят для большинства продуктов. On-prem или air-gapped → self-hosted XTTS / F5 / Bark с отдельно прикрученными водяными знаками.
5. Каков юридический минимум? Потребительский или корпоративный выход на ЕС → SynthID / AudioSeal + маркировка EU AI Act, заложенные с первого спринта.
Подводные камни, в которые попадают голосовые команды
1. Оптимизация не того этапа. LLM почти всегда доминирует по задержке. Сжимайте модель, кэшируйте промпты и пре-фильтруйте инструменты, прежде чем выгрызать 50 мс из TTS.
2. Восприятие клонирования как «просто голоса». Клонирование без согласия с первого дня открывает экспозицию по NO FAKES Act и EU AI Act. Зашивайте поток согласия в онбординг ещё до того, как сгенерируете первую секунду аудио.
3. Игнорирование водяных знаков. SynthID, AudioSeal и C2PA легко доделать постфактум, но защититься без них — дорого. Выберите одно и применяйте на каждом пути синтеза.
4. Преждевременный self-host. Ниже ~10 млн знаков в год GPU и эксплуатация перебивают экономию на API. Переходите на open-source, когда объём оправдает команду.
5. Пропуск мультивендорной абстракции. Привязав каждый вызов к SDK одного движка, вы гарантируете болезненную миграцию в день, когда поменяются цены или качество. Заворачивайте вызов синтеза в тонкий внутренний API с первого дня.
KPI — что измерять и что планировать в бюджете
KPI качества. MOS > 4,3; разборчивость на отложенном тестовом наборе > 95%; доля ошибок произношения < 0,5% на 1 тыс. слов; принятие просодии внутренней панелью.
Бизнес-KPI. Стоимость минуты или 1 тыс. знаков, прирост конверсии в голосовых сценариях, доля удержания голосовым агентом (без передачи человеку), expansion-выручка с премиальных голосовых тарифов.
KPI надёжности. p95 задержки первого аудио ниже 250 мс, end-to-end round-trip голосового агента ниже 800 мс, покрытие водяными знаками 100% синтезированных секунд, полнота аудит-лога по событиям согласия и синтеза.
Когда НЕ запускать голосовую функцию
Пропустите голос, если (а) в основном цикле продукта нет аудио-поверхности, и навешивание голоса добавляет онбординг-трение; (б) пользователи заказчика находятся в регулируемых юрисдикциях без инфраструктуры согласия; или (в) бюджет ниже ~1,1 млн ₽ и любой vendor lock-in неприемлем. Голос — усилитель, а не значение по умолчанию.
Хотите план голосовой функции на бумаге?
30-минутный звонок — и у вас рекомендация по движку, вердикт «разрабатывать или лицензировать», план соответствия и реалистичный бюджет на следующий спринт.
FAQ
Какой самый дешёвый достойный голосовой движок в 2026?
Cartesia Sonic и Deepgram Aura-2 находятся в самом дешёвом достойном сегменте для стриминговых голосовых агентов (~1/5 от ElevenLabs на объёмах). Для дубляжа или аудиокниг batch-качества ElevenLabs и Microsoft Azure HD обычно выигрывают по воспринимаемой выразительности.
Сколько минут аудио нужно, чтобы клонировать голос?
Zero-shot нужны 3–10 секунд. Few-shot дообучение требует 1–5 минут для очень хороших результатов. Профессиональному клонированию (PVC) нужно 30–60+ минут чистого студийного аудио для вещательного качества.
Клонировать голос — это законно?
Клонировать собственный голос или голос, на который вы получили явное согласие, законно в большинстве юрисдикций — с обязательствами по раскрытию. Клонирование третьего лица без согласия теперь — федеральное нарушение в США по NO FAKES Act и попадает под EU AI Act и законы уровня штатов (Tennessee ELVIS, Калифорния). С первого спринта запускайте согласие и водяные знаки.
Какой полный round-trip нужен голосовому агенту реального времени?
Ниже 800 мс — ощущается по-человечески; выше 1,5 с — рушит восприятие интеллекта. Цель по первому аудио TTS — < 200 мс; стриминговый ASR — < 200 мс; TTFT у LLM — доминирующая статья на ~400 мс.
Стоит ли self-host open-source TTS-модели?
Выше ~10 млн знаков в год — да: стоимость одного знака падает в 3–6 раз, когда GPU размазан. Ниже этого порога API-движок ощутимо дешевле, потому что вендор размазывает GPU, водяные знаки и инфраструктуру согласия по всем клиентам.
Как соответствовать EU AI Act для синтетического аудио?
Три вещи: машиночитаемые водяные знаки на каждой синтезированной секунде (SynthID, AudioSeal или C2PA), внутри-приложенческая маркировка, что аудио сгенерировано ИИ, и раскрытие обучающих данных, если вы дообучали модель. Зашейте все три в пайплайн синтеза до того, как пойдёт трафик из ЕС.
Может ли клонирование звучать точно как оригинальный диктор?
Топовые движки достигают 4,3–4,8 по 5-балльной шкале MOS — настолько близко, что около 38% слушателей не отличают синтетическое от человеческого в слепых тестах. PVC с 30+ минутами чистого аудио подходит ближе всего; few-shot остаётся на заметный, но небольшой шаг позади.
Запускала ли Фора Софт продукты на голосовом AI?
Да — голосовые агенты, субтитры в реальном времени, пайплайны AI-перевода и продукты доступности.
Что почитать дальше
Голосовые агенты
AI-ассистенты для звонков — руководство по API
Углублённый разбор стеков голосовых агентов, включая выбор TTS-движка.
Перевод
AI-синхронный перевод
Где синтез голоса встречается с межъязыковыми пайплайнами — компромиссы и архитектура.
Real-time AI
Перевод видео в реальном времени
Шаблон пайплайна, когда ASR, MT и TTS должны уложиться в бюджет одной секунды.
AI-агенты
Как работают видео-AI-агенты
Более широкая карта мультимодальных AI-агентов, объединяющих зрение, голос и язык.
Готовы запустить голос, звучащий как ваш бренд?
Клонирование и синтез голоса больше не узкое место. Движки достоверные, задержка реального времени реальна, а путь open-source жизнеспособен от ~10 млн знаков в год. Узкое место сместилось выше по стеку — к согласию, водяным знакам, бюджету задержек и подбору движка под языковой микс.
Если вы прорабатываете голосового агента, пайплайн дубляжа, продукт доступности или движок для аудиокниг, самый быстрый следующий шаг — 30-минутный звонок. Мы подберём движок, выставим бюджет задержек, набросаем пакет соответствия и оценим разработку — включая то, какие шаги можно пропустить на первом спринте.
Поговорите с нашими лидами по голосовому AI
Закажите 30-минутный звонок. За одну сессию мы обозначим движок, рабочий процесс клонирования, цель по задержке и план соответствия требованиям.

