AI-ассистенты звонков в 2026 году: гид покупателя по голосовым API, платформам и комплаенсу

Блог: AI-ассистенты звонков — практическое руководство по сторонним API для бизнес-софта

AI-ассистент звонков — это голосовой агент, который принимает или совершает телефонные вызовы: слушает поток с телефонной линии, прокручивает короткую реплику языковой модели и отвечает голосом — всё это за время менее секунды. К 2026 году рынок консолидировался вокруг нескольких серьёзных платформ, экономики ниже 18,7 ₽/минуту и уже работающего регуляторного режима (правила FCC по TCPA для AI-голосов и обязательства по раскрытию из статьи 50 EU AI Act, вступающие в силу 2 августа 2026 года). Это руководство — playbook для покупателя: что выбрать, как собрать архитектуру, что ломается в продакшене, сколько это стоит и где нужен человек в контуре.

Фора Софт выпускала голосовых ассистентов и чат-ботов для LMS, финтеха, здравоохранения и телекома с самой первой волны GPT-3.5. Мы интегрировали Deepgram, ElevenLabs, OpenAI, Dialogflow, LiveKit, Twilio и Azure Communication Services в продакшен-софт и собрали свой playbook вокруг тех подводных камней, о которых обычные блог-посты молчат: эхо на PSTN, галлюцинированные брони, аттестация STIR/SHAKEN и бюджет задержки в 300 мс, который вы сжигаете, как только добавляете один лишний вызов инструмента. Прочитайте текст до конца — и вы будете знать, какой API включить в шорт-лист, как спроектировать архитектуру и где специализированная инженерная команда всё ещё окупает себя.

Главное

• Стек модульный, а не монолитный. Телефония, STT, LLM, TTS и оркестрация — это отдельные слои; «платформа», которую вы выбираете, в основном определяет, какие из них зашиты намертво.

• Критерий покупки в 2026 году — задержка, а не качество. Время «голос-в-голос» должно укладываться в 800 мс, чтобы разговор ощущался естественно. Всё остальное — донастройка.

• Полная стоимость — 9,7–24,7 ₽ за минуту. Заявленные «3,7 ₽/мин» от вендоров за оркестрацию не включают STT, LLM и TTS. Считайте бюджет из расчёта 15 ₽/мин.

• Compliance — это скрытая переделка проекта. Решение FCC от февраля 2024 года по TCPA делает AI-голоса вне закона при робозвонках без согласия абонента; раскрытие по статье 50 EU AI Act становится обязательным 2 августа 2026 года; HIPAA и законы штатов о двустороннем согласии добавляют региональные слои.

• Платформу выбирайте в последнюю очередь. Сначала — сценарий использования, объём, языки и контур комплаенса; уже из них органично вырастает выбор: Vapi, Retell, Deepgram Voice Agent, LiveKit с собственным стеком или enterprise-путь (Twilio, Azure, Google CCaaS).

Зачем Фора Софт написала этот playbook

Мы выпускали голосовой AI в трёх средах с маленьким запасом на ошибку: телемедицинские консультации (с аудитом по HIPAA), колл-центры финансовых сервисов (штаты с обязательным двусторонним согласием) и многоязычные службы поддержки (с переключением между RU, EN и DE прямо посреди звонка). По всем этим проектам мы вели рабочий журнал того, что реально ломается в продакшене: срыв barge-in на G.711, потерянные DTMF-сигналы между транскодерами, вызовы инструментов LLM, блокирующие TTS, и европейские регуляторы, которые через полгода после деплоя просят показать запись с раскрытием.

Этот гид — выжимка из того журнала. Мы предполагаем, что вы уже знаете свой бизнес-кейс (входящая поддержка, исходящая квалификация лидов, замена IVR, запись на приём или агент-ассист в режиме копилота) и хотите получить техническую карту покупателя — какой стек выбрать, чтобы он всё ещё собирался через 18 месяцев. Если вам ближе сразу обсудить архитектуру, минуя сравнения, напишите нам — наш руководитель направления голосовых AI-агентов запросит запись звонка и проведёт технический разбор.

Нужен независимый второй взгляд на Vapi, Retell или собственный стек?

За 30 минут разберём ваш сценарий звонка, бюджет задержки и контур комплаенса и скажем, какой стек подходит. Без продающих презентаций.

Позвоните нам → Напишите нам →

Что такое AI-ассистент звонков в 2026 году

AI-ассистент звонков — это диалоговый агент реального времени, который завершает или инициирует PSTN/SIP-аудиосессию, прогоняет аудио через speech-to-text, отдаёт нарастающий транскрипт в LLM с инструментами, озвучивает ответ модели через text-to-speech и возвращает звук вызывающему — и всё это укладывается примерно в 800 мс end-to-end. Новое поколение (OpenAI Realtime, Gemini Live, Azure Voice Live) сжимает STT, рассуждение и TTS в одну speech-to-speech модель со временем до первого байта около 300 мс с американских узлов, перенося задержку из вашего оркестрационного кода в инфраструктуру модельного провайдера.

На практике покупатели смотрят на три формата продукта. Входящие агенты-ответчики снимают нагрузку с поддержки и делают тёплый перевод на человека при эскалации. Исходящие кампанийные агенты квалифицируют лиды, бронируют встречи или ведут сбор задолженности — категория, которую FCC переписала своим решением по TCPA в феврале 2024 года: AI-сгенерированные голоса теперь классифицированы как «искусственные или предварительно записанные» и запрещены для робозвонков без согласия. Агент-ассист в режиме копилота слушает звонок живого оператора и подсказывает шёпотом — это сценарий с минимальным риском и частая стартовая площадка для деплоя.

Если вы знакомы только с категорией IVR-ботов 2023 года, разница драматическая: задержка реплики снизилась в 5–10 раз, word error rate ASR на шумной телефонной линии у Deepgram Nova-3 уже ниже 6%, а эмоционально окрашенные TTS (ElevenLabs v3, Hume EVI) перешагнули uncanny valley на коротких репликах. Покупатели, которые строили на стеках 2023 года и переезжают на 2026, обычно выбрасывают половину оркестрационного кода как побочный эффект апгрейда.

Срез рынка: размер, рост и реальные деплои

По данным Precedence Research, рынок AI для контакт-центров в 2024 году оценивался в 242 млрд ₽, в 2025-м — 298 млрд ₽ и движется к 1,9 трлн ₽ к 2034 году с CAGR 23,11%. Gartner прогнозирует, что разговорный AI в контакт-центрах сэкономит 6 трлн ₽ на труде к 2026 году. Это «крупнокалиберные» прогнозы, поэтому полезны прежде всего как проверка здравого смысла: вы не делаете ставку на умирающую категорию — наоборот.

Цифра, на которую мы обращаем внимание покупателей, — публикация Klarna в начале 2024 года: их AI-ассистент за первый месяц обработал 2,3 миллиона обращений в поддержку — около двух третей всего объёма; время решения упало с 11 минут до менее 2, повторные обращения сократились на 25%. Klarna оценила эффект агента примерно в 700 FTE и 4,5 млрд ₽ годовой экономии. Это та форма деплоя, которая работает у среднего и крупного бизнеса, и поэтому каждый шорт-лист, который мы собираем в 2026 году, начинается с вопроса: «потянет ли этот стек 70% объёма звонков с равным или лучшим CSAT».

Если смотреть только на голосовую часть, сегмент «платформа» (Vapi, Retell, Bland, Synthflow, ElevenLabs Conversational AI) забрал нишу шаблонов и прототипов. Голос на стороне модельного провайдера (OpenAI Realtime, Gemini Live, Azure Voice Live) растёт у команд, которые и так живут в этих облаках. А enterprise-стек CCaaS (Twilio + Autopilot, Amazon Connect + Lex, Google Dialogflow CX + Gemini, Microsoft Azure Communication Services) по-прежнему держит регулируемые отрасли, где SLA и понятный путь через закупки важнее последних 150 мс задержки.

Шорт-лист API на 2026 год

В 2026 году значимы двенадцать API и платформ. Ниже — шорт-лист, с которым мы заходим в скоупинг проекта.

Платформы голосовых агентов (оркестрация + телефония в одном пакете)

1. Vapi. Платформа с упором на оркестрацию: визуальный конструктор сценариев, возможность подключить свой STT/LLM/TTS и сильный barge-in. Тариф «3,7 ₽/мин» — только за оркестрацию; полная стоимость с компонентами — 9,7–23,2 ₽/мин. Хороший дефолт, если нужна гибкость и вы готовы сами собирать компоненты.

2. Retell AI. Более плотный «коробочный» бандл — около 5,2 ₽/мин all-in (3,7 ₽ для enterprise), с собственным слоем маршрутизации LLM и сильными шаблонами под исходящие сценарии. Если Vapi кажется слишком DIY — Retell следующий шаг.

3. Bland AI. Платформа-бандл около 6,7 ₽/мин плюс ежемесячные минимумы, заточенная под объёмные исходящие в США. Сильная очередь звонков; европейские голоса слабее.

4. Synthflow. No-code конструктор для тех, кто не пишет код. Мы используем его для внутренних инструментов и разовых пилотов; не наш выбор для продакшен-объёмов.

5. ElevenLabs Conversational AI. End-to-end продукт, обёрнутый вокруг голосов ElevenLabs. Цена — 6–18 ₽/мин в зависимости от уровня голоса. Берите, когда качество голоса — единственная критичная характеристика (брендовый голос, замена IVR в премиум-консьюмере).

Speech-to-speech API от модельных провайдеров

6. OpenAI Realtime API. Голос GPT-4o / GPT-5 со временем до первого байта около 500 мс с американских узлов; медианная задержка реплики на 30-репликовых звонках в независимых бенчмарках — около 2,2 с. Тарификация по аудио-токенам; телефония не входит — её придётся подключить через LiveKit или Twilio Media Streams.

7. Google Gemini Live. Мультимодальная speech-to-speech модель в Google Cloud. Нативно вшита в Dialogflow CX для CCaaS-сценариев; сильна в мультиязычных задачах.

8. Deepgram Voice Agent API. Бандл ASR + LLM + TTS на собственных Deepgram Nova-3 (5,26% batch WER) и Aura TTS — без скрытых наценок за проброс. Любимец enterprise, когда нужна предсказуемая тарификация.

9. Azure Voice Live. Speech-to-speech от Microsoft, плотно интегрированный с Azure Communication Services и Azure OpenAI. Логичный выбор, если вы уже на закупках Microsoft или нужна интеграция с Teams.

Enterprise-платформы для контакт-центров

10. Twilio (Voice + Autopilot / Conversational Intelligence). Полный телефонный стек: зрелый SIP, STIR/SHAKEN и операторские SLA. Эффективная полная стоимость на сценариях AI-агента — около 10,5 ₽/мин при нагрузке 10 тыс. минут.

11. Amazon Connect + Lex + Bedrock. Нативный CCaaS на AWS: оплата за минуту PSTN плюс сервисная комиссия. Сильно подходит командам, уже сидящим на AWS с регулируемыми данными.

12. PolyAI и Cognigy. Чисто enterprise-платформы разговорного AI с собственными design-командами. Когда закупки хотят одного вендора, который держит SLA от и до.

Берите платформу (Vapi / Retell), когда: хотите запуститься за 4–8 недель, готовы жить с одной точкой интеграции и объём звонков ниже 1 млн минут в месяц.

Берите speech-to-speech от модельного провайдера (OpenAI / Gemini / Azure Voice Live), когда: задержка — главная метрика, нужно меньше сетевых хопов и вы уже работаете в облаке этого провайдера.

Берите enterprise-CCaaS (Twilio / Amazon Connect / Azure ACS), когда: вы в регулируемой отрасли, вам нужны операторские SLA и аттестация STIR/SHAKEN, а закупки не подпишут контракт со стартапом.

Соберите свой стек (LiveKit + Deepgram + OpenAI + ElevenLabs), когда: ни одна из платформ не укладывается в ваш бюджет задержки или поверхность кастомных инструментов — обычно это здравоохранение, оборонка, финансы или любой проект с требованием on-prem.

Матрица сравнения — что вы реально платите и выпускаете

Все цифры ниже — эффективная полная стоимость, которую мы видим в реальных деплоях (телефония + STT + LLM + TTS + оркестрация), а не заявленный тариф вендора. Задержка «голос-в-голос» — медиана на тёплом подключении из США.

Платформа	Полная стоимость, ₽/мин	Задержка	Лучше всего для	На что смотреть
Vapi	9,7–23,2 ₽	~900 мс	Свой стек, быстрые прототипы	Цена зависит от компонентов
Retell AI	5,2 ₽ (enterprise — 3,7 ₽)	~800 мс	Исходящие, плотный готовый сценарий	Менее гибкий, чем Vapi
ElevenLabs Conversational AI	6–18 ₽	~850 мс	Брендовый голос, потребительский IVR	Стоимость голоса на премиум-уровне
OpenAI Realtime	11,2–30 ₽	~500 мс TTFB	Низкая задержка, много вызовов инструментов	Нужно подключать свою телефонию
Deepgram Voice Agent	9–16,5 ₽	~700 мс	Предсказуемая тарификация, точный STT	Меньше выбор голосов TTS
Twilio Voice + Autopilot	~10,5 ₽	~1100 мс	Операторский SLA, STIR/SHAKEN	Медленный цикл итераций
Свой стек на LiveKit	11,2–18,7 ₽	~600 мс	On-prem, кастомные инструменты, HIPAA	Самые высокие инженерные затраты

Эталонная архитектура (шесть слоёв, один бюджет задержки)

Каждый продакшен AI-ассистент звонков, который мы выпускали, идёт по одному и тому же пайплайну, какой бы вендор ни был выбран:

Caller PSTN/SIP → Tier-1 carrier (Twilio / Telnyx / Vonage / SignalWire)
                → Media server (LiveKit Cloud / FreeSWITCH / Asterisk)
                → STT stream (Deepgram Nova-3 / Whisper-v3 / AssemblyAI Universal-2)
                → LLM turn (GPT-5 / Gemini 2.5 / Claude 4.5 + tool-calling)
                → TTS stream (ElevenLabs v3 / Cartesia Sonic / OpenAI TTS / Aura-2)
                → Back to PSTN/SIP

Latency budget (voice-to-voice target = 800 ms):
  STT first-partial          120 ms
  LLM turn (with tools)      450 ms
  TTS first chunk            130 ms
  Network / media server     100 ms
                             =====
                             ~800 ms

В этой архитектуре доминируют два проектных решения. Первое — стримим всё, не буферизуем: не ждите целой реплики перед отправкой, гоните частичные результаты STT в LLM и токены LLM в TTS по мере появления. Второе — один медиасервер: не плодите два WebRTC-пира и не транскодируйте дважды; каждый дополнительный хоп — это 40–80 мс и шанс получить аудио-артефакт.

Если нужна референсная реализация, в которой SIP-транкинг, jitter buffer и barge-in уже работают «из коробки», — наша команда выпускает решения на LiveKit с 2024 года. В нашем гиде по сборке мультимодальных AI-агентов на LiveKit разобрана та же архитектура для агентов, которые помимо голоса работают с видео и шарингом экрана.

Бюджет задержки — куда уходит 800 миллисекунд

1. Speech-to-text (~120 мс). На стриминговом Deepgram Nova-3 первые частичные результаты приходят за 100–140 мс. Whisper-v3 медленнее (200–300 мс), зато точнее на чистой речи. Nova-3 multilingual вытягивает code-switching между десятью языками внутри одного звонка — реальное требование для европейских и азиатско-тихоокеанских деплоев.

2. Реплика LLM (~450 мс). Бо́льшая часть бюджета. Однотерновый промпт без вызова инструментов возвращает ответ за 250–400 мс на GPT-4o или Gemini 2.5. Один вызов инструмента добавляет 150–300 мс. Два вызова — бюджет уже превышен; проектируйте под один вызов или подгружайте контекст ещё до того, как пользователь договорил.

3. Text-to-speech (~130 мс). ElevenLabs v3 в стриминге отдаёт первый чанк за 120–160 мс; Cartesia Sonic — за 90–120; OpenAI TTS — около 200. Ещё 50 мс выигрываются предзагрузкой первого слова до того, как LLM закончит реплику.

4. Сеть, медиасервер, jitter buffer (~100 мс). Налог на real-time аудио. LiveKit Cloud в большинстве регионов укладывается в 100 мс; собственный FreeSWITCH в одной VPC с приложением — в 60.

5. Детект barge-in. Не входит в бюджет ответа, но именно это отделяет естественный звонок от робота. Нужен VAD (детектор голосовой активности) на входящем аудио, способный обрезать TTS прямо посреди фразы, как только заговорил собеседник. У LiveKit он есть; Vapi, Retell и Deepgram Voice Agent тянут это на уровне платформы.

Задержка выше 1,2 секунды? Найдём 400 мс, которые вы оставляете на столе.

Пришлите запись звонка и трассировку — наша команда голосовой инженерии за 48 часов вернёт письменный диагноз.

Позвоните нам → Напишите нам →

Лидеры STT и арифметика word error rate

Deepgram опубликовала бенчмарк на 2 703 файла из девяти доменов (подкасты, встречи, телефон, финансы, медицина, drive-thru, авиадиспетчеры, голосовая почта), где Nova-3 показывает 5,26% batch WER и на 54% более низкий streaming WER, чем предыдущий лучший открытый бенчмарк. На телефонной речи — а это и есть наш реальный кейс — Nova-3 multilingual снижает batch WER на 34% и streaming WER на 21% относительно Nova-2 и поддерживает code-switching между 10 языками внутри одного звонка.

OpenAI Whisper-v3 не уступает на чистой американской английской речи, но заметно проседает на акцентированном или шумном телефонном звуке. AssemblyAI Universal-2 на английском в той же лиге, что Nova-3, и отстаёт по мультиязычности. Soniox — нишевый выбор под сильно акцентированную или шумную телефонию.

Наше правило большого пальца: если среди ваших звонящих есть носители английского как второго языка или региональные акценты — переключайтесь на Nova-3 multilingual. Разница в WER на акцентированном телефонном аудио достаточна, чтобы заметно сдвинуть CSAT, а в цене разница маргинальная.

Лидеры TTS и тест на uncanny valley

ElevenLabs v3 возглавляет публичные бенчмарки точности произношения (около 82%) и просодии (около 65%), поддерживает 70+ языков. На коротких репликах поддержки большинство слушателей не замечают разницы с человеком. Минус — стоимость: премиум-голоса сами по себе обходятся в 11,2–18 ₽/мин.

Cartesia Sonic быстрее (первый чанк за 90–120 мс) и слегка уступает по эмоциональной подаче. Лучший выбор, если бюджет задержки очень жёсткий.

OpenAI TTS (gpt-4o-mini-tts / голос gpt-realtime) — дефолт, если вы уже на OpenAI Realtime: достаточно хорош для большинства сценариев поддержки, но на эмоциональных репликах звучит заметно более плоско, чем ElevenLabs.

Deepgram Aura-2 и PlayHT замыкают шорт-лист. Aura-2 выигрывает на предсказуемой бандл-тарификации. У PlayHT сильные эмоциональные и нейтральные варианты голосов — хороший выбор, когда важен брендовый голос и нужен контроль на уровне отдельных тембров.

Если вы строите в регулируемой вертикали с обязательным раскрытием (а к 2 августа 2026 года это весь Евросоюз) — оставляйте голос узнаваемо синтетическим. Статья 50 EU AI Act требует уведомить пользователя, что он общается с AI-системой; узнаваемый, но приятный голос упрощает раскрытие и снижает риск исков.

Выбор LLM — задержка, вызовы инструментов и grounding

Голосовые агенты живут или умирают на трёх возможностях LLM: задержка реплики, надёжность вызова инструментов и grounding на коротких retrieval-чанках. На апрель 2026 года наш дефолтный кластер — GPT-5 (OpenAI), Gemini 2.5 Flash/Pro и Claude 4.5. У каждой свой профиль стоимости и свой стиль вызова инструментов.

GPT-5 быстрее всех на сценариях с большим числом инструментов (параллельные function calls) и обладает лучшим инструментарием для разработчика. Это и самая дорогая модель в пересчёте на минуту; для объёмных исходящих мы спускаемся на GPT-4o-mini или Gemini 2.5 Flash.

Gemini 2.5 Flash — лидер по соотношению цена/производительность для простых входящих сценариев и мультиязычной поддержки. Если вы и так на Google Cloud (хоть в CCaaS, хоть нет) — берите по умолчанию.

Claude 4.5 меньше галлюцинирует на нетривиальных вопросах из бизнес-логики «длинного хвоста» — мы используем её, когда агент создаёт или подтверждает нетипичные брони, корректирует биллинг или меняет медицинское расписание. Чуть медленнее; зато безопаснее.

Телефония — SIP-транки, STIR/SHAKEN и почему это важно

Телефонный слой — место, где чаще всего падают самосборные проекты. Проблемы почти всегда одни и те же: на транке выбран неверный кодек (это даёт эхо), на исходящих неправильный caller-ID (и низкий answer rate) или вовсе отсутствует аттестация STIR/SHAKEN (и звонки помечаются «возможно, спам» ещё до подключения).

STIR/SHAKEN — американский стандарт аутентификации звонящего, который FCC сейчас требует для любого PSTN-исхода. Если ваш провайдер транка не может аттестовать caller-ID, ваш answer rate падает на 30–60%. Tier-1 операторы (Twilio, Telnyx, Vonage, SignalWire) аттестуют по умолчанию; универсальные VoIP-перепродавцы — часто нет. Эта техническая мелочь сводит больше исходящих проектов в ноль, чем любой выбор модели.

По кодеку: дефолт на американском PSTN — G.711 μ-law с частотой 8 кГц. Широкая полоса (Opus/G.722, 16 кГц) заметно повышает точность STT, но работает только если оба плеча звонка широкополосные — на практике это только SIP-в-SIP.

Compliance — TCPA, EU AI Act, HIPAA, двустороннее согласие

США — TCPA и STIR/SHAKEN. Декларативное решение FCC от февраля 2024 года классифицировало AI-сгенерированные голоса как «искусственные или предварительно записанные» по TCPA. Перевод: клонировать голос для исходящих робозвонков без явного предварительного письменного согласия — незаконно, со штрафом за каждый звонок. В playbook кампании обязаны входить доказательства согласия и ограничения частоты. STIR/SHAKEN обязателен для аттестации исходящего dial tone.

ЕС — статья 50 AI Act. Обязательна с 2 августа 2026 года. Если звонок касается гражданина ЕС, в начале разговора вызывающий должен быть уведомлён, что общается с AI-системой. Штрафы — до €20 млн или 4% глобального годового оборота, в зависимости от того, что больше. Зашейте раскрытие в стартовый промпт и логируйте запись.

Здравоохранение — HIPAA. Нужен подписанный BAA с вендором платформы, шифрование в транспорте и в покое для записей и транскриптов, аудируемые контроли доступа и задокументированные потоки данных в EHR-системы (Epic / Cerner). Retell, Deepgram Voice Agent, Twilio и AWS Connect все умеют BAA; Vapi и Tier-1 LLM-провайдеры требуют отдельных переговоров.

Штаты США — двустороннее согласие на запись. Одиннадцать штатов (CA, CT, FL, IL, MD, MA, MT, NV, NH, PA, WA) требуют согласия всех сторон на запись. Практический дефолт: на старте каждого звонка раскрывайте и получайте согласие — независимо от штата — и логируйте таймкод аудиосегмента с согласием.

GDPR. Голос — это персональные данные. Минимизируйте срок хранения сырого аудио (мы обычно удаляем в течение 30 дней, если не оговорено иное), храните транскрипты и PII с отдельной классификацией и предусмотрите DSR-эндпоинт (data-subject-request) в админке с самого первого дня.

Модель стоимости — сколько реально стоят 30 000 минут в месяц

Типичный mid-market деплой — 10 000 звонков × средние 3 минуты = 30 000 минут в месяц. На стандартном самосборном стеке (LiveKit + Deepgram Nova-3 + GPT-5 + ElevenLabs v3) покомпонентная стоимость минуты выглядит так:

Компонент	₽/мин	Месяц при 30 тыс. мин
PSTN / SIP (Twilio)	0,75 ₽	22 500 ₽
LiveKit (медиа)	0,37 ₽	11 200 ₽
Deepgram STT	0,97 ₽	29 200 ₽
Реплика GPT-5	4,5 ₽	135 000 ₽
ElevenLabs TTS	6,7 ₽	202 500 ₽
Итого all-in	13,3 ₽	400 500 ₽

На enterprise-тарифе Retell в 3,7 ₽ тот же объём обойдётся примерно в 157 500 ₽ в месяц — экономия около 60% ценой гибкости стека. Vapi на all-in 10,8 ₽ выходит на 324 000 ₽. Сценарии типа Twilio Autopilot на 10,5 ₽ — около 315 000 ₽. Разница между самым дешёвым и самым дорогим путём — порядка 225 000 ₽ в месяц на каждые 30 тыс. минут — почти всегда исчезает в момент, когда дорогой путь экономит вам две инженерные недели на оркестрации.

Мини-кейс — телемедицина с HIPAA, план на 12 недель, до и после

Ситуация. Американская телемедицинская платформа со 120 клиницистами обрабатывала напоминания о приёме и сбор предварительной информации через колл-центр на людях. Стоимость одного исходящего напоминания — 90 ₽, при этом 38% звонков не доводились до конца, потому что пациенты вешали трубку на IVR. Клиенту нужен был AI-ассистент, который сам ведёт напоминания, переносит запись по просьбе пациента и эскалирует к человеку всё, что касается клиники.

План на 12 недель. Недели 1–2: подписан BAA с Deepgram Voice Agent и Twilio, очерчен скоуп аудита HIPAA. Недели 3–6: интеграция с Epic через FHIR, сценарии напоминания, подтверждения и переноса, эскалация на существующий стол операторов. Недели 7–9: пилот на 5% объёма, итерации по ASR на акцентированных голосах и таймингу barge-in. Недели 10–12: выкатка на 100%, раскрытие согласия двух сторон в начале каждого звонка, редактирование PHI в сохранённых транскриптах.

Результат. Стоимость одного напоминания упала с 90 ₽ до 25 ₽ (на 72% меньше). Доля доведённых до конца звонков выросла с 62% до 87%, потому что AI-агент мог ответить на «о чём этот звонок?» — а наследный IVR не мог. Доля повторных записей выросла на 19 п.п. Ноль замечаний по HIPAA на первом аудите. Хотите получить аналогичную оценку под ваш стек? Напишите нам — соберём 30-минутный разбор.

Фреймворк решения — выбираем стек за пять вопросов

Вопрос 1. Какой у вас объём звонков? До 100 тыс. минут в месяц вас уверенно тянет платформа (Vapi, Retell, Synthflow). Выше — инженерная стоимость самосборного стека быстро отбивается.

Вопрос 2. Входящие, исходящие или агент-ассист? Объёмные исходящие — это автоматически STIR/SHAKEN, доказательства согласия и риски по TCPA. Агент-ассист обходит почти всё это. Входящие — золотая середина.

Вопрос 3. Языки и акценты? Если вы обслуживаете не-носителей или code-switching, по умолчанию — Deepgram Nova-3 Multilingual; Whisper-v3 годится для чистых high-resource языков. Моноязычный английский даёт максимальную свободу выбора.

Вопрос 4. Регулирование? HIPAA, PCI, GDPR, EU AI Act, законы штатов о двустороннем согласии — каждое ограничивает выбор вендоров. Вендоров с BAA — небольшое подмножество. Сначала задокументируйте требования, потом выбирайте платформу.

Вопрос 5. Speech-to-speech или классический пайплайн? Speech-to-speech (OpenAI Realtime, Gemini Live, Azure Voice Live) быстрее, но менее наблюдаем. Пайплайн (STT → LLM → TTS) проще отлаживать, менять компоненты и логировать — у нас это до сих пор дефолт для регулируемого продакшена.

Пять ловушек, которые убивают деплои AI-звонков

1. Эхо на PSTN. G.711 μ-law возвращает дальний звук в ближний микрофонный путь. Без активного эхоподавления LLM слышит сама себя и зацикливается. Решение: включите AEC на медиасервере и проверяйте на каждом новом SIP-транке — не доверяйте дефолтам вендора.

2. Галлюцинированные брони. Агент подтверждает «вторник, 15:00», которого в календаре нет. Решение: никогда не давайте LLM завершить транзакцию из своей реплики. Всегда делайте вызов инструмента, дожидайтесь 2xx и читайте звонящему уже реальное подтверждение.

3. Таймауты вызовов инструментов. Внешние API (CRM, календарь, биллинг) подтормаживают; LLM блокируется, TTS останавливается. Решение: жёсткий таймаут 700 мс на каждый инструмент и заранее заготовленная реплика-наполнитель («секундочку, проверяю»), которую агент проговаривает, пока ждёт.

4. Плохая передача на эскалации. Живой оператор подключается «холодным», без контекста. Решение: на эскалации генерируйте однопредложенческий саммари, передавайте его вместе с переводом и проигрывайте оператору запись последней реплики клиента в его софтфоне.

5. Отсутствующее согласие и раскрытие. Первый иск по статье 50 EU AI Act будет именно за приветствие, в котором не упомянут AI. Решение: вшейте раскрытие в первую TTS-реплику, логируйте транскрипт с таймкодом и храните столько, сколько требует ваш регулятор.

KPI — что измерять с первого дня

KPI качества. Word error rate на корпусе ваших звонков (цель — < 8%), доля удержанных звонков (% решённых без человека), CSAT по SMS-опросу после звонка (цель — ≥ 4,3 / 5), доля галлюцинаций в забронированных действиях (цель — 0%). Раз в неделю прогоняйте 200 случайных звонков с ручной разметкой.

Бизнес-KPI. Стоимость решённого звонка (сравнение с человеческим бейзлайном), доля брошенных vs. наследный IVR (цель — −30%), конверсия на исходящих (бенчмарк — живые операторы), доля апсейла на входящих (на mid-market AI часто обыгрывает человека).

KPI надёжности. p50 и p95 задержки «голос-в-голос» (цели — ≤ 800 мс и ≤ 1,4 с), p95 задержки вызовов инструментов, лаг детектирования barge-in (цель — ≤ 150 мс), частота ошибок PSTN (SIP 5xx). Это те самые метрики, из-за которых вас будят в 3 ночи.

Build vs buy — единственный полезный чек-лист

Берите платформу (Vapi, Retell, Synthflow, ElevenLabs Conversational AI, Bland), когда сценарий звонка типичный для отрасли, объём — до ~500 тыс. минут в месяц, до первого продакшен-трафика осталось меньше четырёх недель, вы готовы жить с вендорным локом на оркестрации, а контур комплаенса узкий (без HIPAA, PCI и on-prem).

Стройте сами (LiveKit + Deepgram + OpenAI/Claude/Gemini + ElevenLabs/Cartesia), когда вы выше этого порога, в регулируемой отрасли, нужны кастомные инструменты против внутренних систем (EHR, ядро банка, диспетчерская), нужны собственные observability и заменяемый слой моделей или ваш бюджет задержки «голос-в-голос» — менее 700 мс.

Берите enterprise-CCaaS (Twilio + Autopilot, Amazon Connect + Lex, Dialogflow CX + Gemini, Azure Communication Services + OpenAI), когда закупки требуют единого вендора Tier-1, вы уже на их облаке или ваша корпоративная служба поддержки уже работает на их платформе и AI-слой нужно «прикрутить», а не строить заново.

Когда AI-ассистента звонков лучше не разворачивать

Не ставьте AI там, где звонок — самое ценное взаимодействие с клиентом. Hi-touch B2B-продажи, клиническая диагностика, психологическая помощь и работа с крупными клиентами по-прежнему уделывают AI по retention и NPS, а репутационная цена ошибки сильно перевешивает экономию. Под такие нагрузки правильный уровень — копилот в режиме агент-ассист.

Не ставьте AI там, где не сможете его измерить. Если еженедельно вы не контролируете долю удержанных звонков, CSAT и галлюцинации — агент тихо «уплывёт», и вы узнаете об этом из жалобы клиента в твиттере шесть недель спустя. Сначала observability, потом деплой.

Не ставьте AI там, где регулятор ещё не определился. В некоторых юрисдикциях правила для голосового AI всё ещё пишутся; если ваш комплаенс не может ткнуть в конкретную статью или гайдлайн — пилотируйте сначала агент-ассист и подождите с клиентоориентированным деплоем.

Планируете запуск голосового агента в регулируемой отрасли?

Фора Софт делала голосовые деплои с соответствием HIPAA, GDPR и TCPA с 2023 года. За один созвон разложим ваш контур комплаенса и стек.

Позвоните нам → Напишите нам →

Отрасли, где AI-ассистенты звонков приносят ценность в 2026 году

Здравоохранение. Напоминания о приёме, предварительный сбор информации, постпосещенческий follow-up, проверка страхового покрытия. Только вендоры с аудитом по HIPAA; BAA — без вариантов. Телемедицинские платформы видят 60–70% снижения стоимости звонка.

Финансовые сервисы. Входящие запросы по статусу счёта, сбор задолженности (жёстко регулируемый), сбор данных по ипотеке, первое уведомление об убытке в страховании. Правила записи, PCI на карточные данные, дополнительные слои защиты потребителя на уровне штата.

EdTech и LMS. Запись на обучение, академические консультации, расписание экзаменов, посещаемость. Низкая регуляторная нагрузка, высокий запрос на мультиязычность. Хорошо ложится на Vapi или Retell при умеренных объёмах.

Логистика и выездное обслуживание. Подтверждение диспетчеризации, окна выезда, переносы, отмены. Большое число вызовов инструментов против диспетчерских систем; календарь в реальном времени — критическая интеграция.

Недвижимость. Квалификация лидов, запись на показы, скрининг арендаторов. Много исходящих, поэтому риски по TCPA важнее, чем в большинстве других вертикалей.

Ритейл и e-commerce. Статус заказа, возвраты, апсейл после покупки. Часто доставляется как омниканал (голос + SMS + чат) — поэтому платформы с многоканальной поверхностью (Twilio, Intercom Fin, AI-агенты Zendesk) выигрывают этот сегмент.

Playbook деплоя на 12 недель

Недели 1–2. Скоупинг комплаенса (HIPAA, GDPR, TCPA, согласия штатов), подписание BAA / DPA с вендором, выбор одного сценария звонка, согласование KPI с бизнесом.

Недели 3–5. Интеграция с одной бэкенд-системой (CRM или календарь), приветственное раскрытие на всех языках, финализированная схема вызовов инструментов, настроенный barge-in.

Недели 6–8. Пилот на 5–10% объёма, ежедневная калибровка против 50 размеченных вручную звонков, замер p95 задержки, отлаженная передача на эскалации.

Недели 9–11. Масштабирование до 50% объёма, добавление второго сценария звонка, редактирование PII в сохранённых транскриптах, первый «сухой» комплаенс-прогон.

Неделя 12. Раскат на 100%, KPI-дашборд в проде, установлена еженедельная калибровка, постмортем по пилоту, дорожная карта на следующие два сценария.

FAQ

Что такое AI-ассистент звонков в 2026 году?

Голосовой агент реального времени, который принимает PSTN/SIP-звонок, транскрибирует аудио speech-to-text моделью, рассуждает в LLM (часто с вызовом инструментов) и проговаривает ответ через text-to-speech — всё за время менее 800 мс end-to-end. Современные системы также умеют barge-in, эскалацию на живого оператора и code-switching между несколькими языками внутри одного звонка.

Какой API выбрать — Vapi, Retell или OpenAI Realtime?

Vapi — для гибкости и собственного стека. Retell — для более плотного готового сценария исходящих с меньшей полной стоимостью. OpenAI Realtime — для самой низкой задержки, если вы готовы сами подключать телефонию (LiveKit или Twilio Media Streams). Для регулируемых отраслей или больших объёмов мы по умолчанию собираем стек LiveKit + Deepgram + Claude 4.5 + ElevenLabs.

Сколько реально стоит AI-ассистент звонков в пересчёте на минуту?

Заявленные тарифы вендоров — 3,7–7,5 ₽/минуту, но это только за оркестрацию. Полная стоимость (с STT, LLM, TTS и телефонией) реально лежит в диапазоне 9,7–24,7 ₽/мин в зависимости от выбора моделей. Наша стандартная сборка (LiveKit + Nova-3 + GPT-5 + ElevenLabs v3) выходит на ~13,5 ₽/мин.

Можно ли использовать AI-голоса на исходящих звонках в США?

После декларативного решения FCC от февраля 2024 года AI-сгенерированные голоса считаются «искусственными или предварительно записанными» по TCPA. Это значит, что для исходящих AI-звонков потребителям нужно явное предварительное письменное согласие плюс аттестация STIR/SHAKEN на транке. Без этого вы открыты для штрафов за каждый звонок.

Распространяется ли EU AI Act на мой голосовой бот?

Если звонок касается гражданина ЕС — да. Статья 50 вступает в силу 2 августа 2026 года и требует чёткого уведомления, что пользователь общается с AI-системой. Штрафы — до €20 млн или 4% глобального годового оборота. Уведомляйте в приветствии, логируйте транскрипт и сохраняйте запись.

Как AI-ассистенты звонков работают с несколькими языками?

Deepgram Nova-3 Multilingual тянет code-switching между 10 языками внутри одного звонка с примерно на 34% более низким batch WER, чем предыдущее поколение. Whisper-v3 поддерживает больше языков, но медленнее и менее точен на телефонном аудио. Большинство LLM (GPT-5, Gemini 2.5, Claude 4.5) корректно отвечают на распознанном языке без дополнительной настройки.

Может ли AI-ассистент звонков перевести разговор на живого оператора?

Да, и тёплый перевод — дефолт. AI передаёт оператору однопредложенческий саммари контекста и запись последней реплики клиента в его софтфон ещё до завершения перевода. Это сохраняет состояние и снимает проблему «расскажите всё заново», которая убивает CSAT на наследном IVR.

Сколько занимает проект по AI-ассистенту звонков?

Базовый платформенный пилот выпускается за 2–4 недели. Продакшен-сборка на собственном стеке с интеграцией одной бизнес-системы и одним языком — 8–12 недель. Многоязычные деплои в регулируемых отраслях с несколькими сценариями эскалации идут 3–5 месяцев.

Читать дальше

Архитектура

Сборка мультимодальных AI-агентов на LiveKit

Эталонная архитектура для голосовых и видеоагентов, которую мы выпускаем в 2026 году.

STT

Точность распознавания речи в шумной среде

Как выжать WER ниже 8% из телефонного аудио в реальных проектах.

AI Видео

Разработка приложений для AI-видеостриминга в 2026 году

Протоколы, кодеки и рекомендательные движки для стриминга на AI.

Услуги

Разработка AI-чат-ботов и голосовых ассистентов

Как Фора Софт строит голосовых и текстовых агентов end-to-end — обзор услуг.

Готовы выпустить AI-ассистента звонков, который реально конвертит?

Стек 2026 года зрелый: задержка ниже 800 мс достижима на любой серьёзной платформе, мультиязычный ASR на Deepgram Nova-3 справляется с реальным телефонным шумом, а пути по комплаенсу для HIPAA, TCPA, GDPR и EU AI Act хорошо протоптаны. Реально остались четыре решения: сценарий использования, объём, регулируемый контур и что вам выгоднее в бизнесе — скорость до прода или контроль над стеком.

Если в этом квартале вы выпускаете платформенный пилот — берите Vapi или Retell, подключайте Deepgram Nova-3 для ASR и ElevenLabs v3 для голоса, ставьте цель по задержке p50 в 800 мс и запускайте 5%-й пилот против человеческого бейзлайна. Если вы заходите в регулируемую отрасль или идёте за миллион минут в месяц — закладывайте 10–12 недель сборки на LiveKit с собственным выбором STT/LLM/TTS и нормальным observability с первого дня. Оба пути приводят в продакшен; разница в том, арендуете вы инфраструктуру через 18 месяцев или владеете ей.

В любом случае Фора Софт уже выпускала тот паттерн, который вы собираетесь строить. Принесите запись звонка, схему сценария и контур комплаенса; мы вернёмся с шорт-листом стека, моделью стоимости и 12-недельным планом доставки.

Спроектируем ваш AI-ассистент звонков end-to-end.

30 минут с руководителем направления голосовой инженерии: стек, комплаенс, модель стоимости и 12-недельный план поставки.

Позвоните нам → Напишите нам →

Услуги
Разработка
Технологии

Стадия	Агрессивный бюджет	Реалистичный бюджет	Как удержать
Захват и форк	50 мс	100 мс	Медиасервер и AI-сайдкар рядом; кадры Opus по 20 мс
Streaming ASR	150 мс	300 мс	Промежуточные гипотезы, endpointing, тюнинг VAD
Streaming MT	150 мс	400 мс	Инкрементальный декодер; кэш контекста на сессию
Streaming TTS	200 мс	500 мс	Синтез чанками; буферы коротких предложений
Возврат слушателю	50 мс	150 мс	Медиа в том же регионе; микс через SFU
Итого от рта до уха	~600 мс	~1,5 с	Архитектура + вендоры + регионы

Стадия	Лучшее качество	Лучшая цена	Open-source / self-host	На что обратить внимание
Streaming ASR	Deepgram, AssemblyAI, Speechmatics	Azure, Google, Amazon Transcribe	Whisper, NVIDIA Parakeet / Canary	Качество телефонного звука сильно варьируется
MT	DeepL, GPT-4o / Claude / Gemini	Google Translate, Azure, Amazon	NLLB-200, M2M-100, MADLAD-400	Задержка LLM при росте нагрузки
TTS	ElevenLabs, Cartesia, OpenAI	Amazon Polly Neural, Azure Neural	Coqui TTS, Piper, XTTS v2	Задержка первого аудио на холодном старте
Медиасервер	LiveKit Cloud, Vonage Video, Daily	FreeSWITCH, Asterisk, Janus	Все перечисленные open-source	SIP-interop и тюнинг обхода NAT
SIP-прокси	Kamailio, OpenSIPS	Kamailio, Drachtio	Kamailio, OpenSIPS	Сложность маршрутизации растёт с числом транков

Статья	За минуту, коммерческий API	За минуту, self-hosted	Заметки
Streaming ASR	0,9–1,8 ₽	0,2–0,6 ₽	Deepgram и Google в нижней части диапазона
Машинный перевод	0,3–3 ₽	0,1–0,7 ₽	LLM-пайплайны в верхней части
Нейросетевой TTS	2,2–9 ₽	0,6–1,8 ₽	Премиум-ElevenLabs наверху
Медиасервер + egress	0,3–0,7 ₽	0,07–0,2 ₽	LiveKit Cloud vs self-hosted
Итого за минуту	3,7–15 ₽	1–3,4 ₽	Self-hosted примерно в 3–5 раз дешевле

Инструмент	Модель	Цена	Срок	Для кого	Главное ограничение
Photomatix Pro 7	Десктоп	7 425 ₽ единоразово	30–60 мин на 100 фото	Одиночный фотограф, детерминированный результат	Нет подмены неба, устаревший UI
Luminar Neo	Десктоп + кроссплатформа	7 425–11 925 ₽	5–15 мин на фото	Пресеты под недвижимость, подмена неба	Дефолтный пресет может пересатурировать
AutoHDR	Облачный AI	30–41 ₽ / кадр	20–30 мин	Агентства, объёмы MLS	Меньше контроля над стилем
Imagen AI	Облако + Lightroom	2–5 ₽ / кадр	Минуты, пакетно	Фотографы со своим стилем	Нужен каталог для обучения
Aftershoot	Облачная подписка	750–4 500 ₽ / месяц	Безлимит по объёму	Студии большого объёма, плоский тариф	Меньше пресетов под недвижимость
BoxBrownie (Pixa)	Управляемый аутсорсинг	120 ₽ / кадр	~24 часа	Агентства «всё под ключ»	Самый медленный, самая высокая цена
Кастомная разработка (SaaS)	Свой API + облако	Себестоимость 15–37 ₽ / кадр	Настраиваемый (5–30 мин)	Proptech, вертикальные обёртки	12–20 недель до MVP

AI-ассистенты звонков в 2026 году: гид покупателя по голосовым API, платформам и комплаенсу

Зачем Фора Софт написала этот playbook

Что такое AI-ассистент звонков в 2026 году

Срез рынка: размер, рост и реальные деплои

Шорт-лист API на 2026 год

Платформы голосовых агентов (оркестрация + телефония в одном пакете)

Speech-to-speech API от модельных провайдеров

Enterprise-платформы для контакт-центров

Матрица сравнения — что вы реально платите и выпускаете

Эталонная архитектура (шесть слоёв, один бюджет задержки)

Бюджет задержки — куда уходит 800 миллисекунд

Лидеры STT и арифметика word error rate

Лидеры TTS и тест на uncanny valley

Выбор LLM — задержка, вызовы инструментов и grounding

Телефония — SIP-транки, STIR/SHAKEN и почему это важно

Compliance — TCPA, EU AI Act, HIPAA, двустороннее согласие

Модель стоимости — сколько реально стоят 30 000 минут в месяц

Мини-кейс — телемедицина с HIPAA, план на 12 недель, до и после

Фреймворк решения — выбираем стек за пять вопросов

Пять ловушек, которые убивают деплои AI-звонков

KPI — что измерять с первого дня

Build vs buy — единственный полезный чек-лист

Когда AI-ассистента звонков лучше не разворачивать

Отрасли, где AI-ассистенты звонков приносят ценность в 2026 году

Playbook деплоя на 12 недель

FAQ

Читать дальше

Готовы выпустить AI-ассистента звонков, который реально конвертит?

Похожие статьи

Хотите обсудить ваш проект?