Блог: AI-ассистенты звонков — практическое руководство по сторонним API для бизнес-софта

AI-ассистент звонков — это голосовой агент, который принимает или совершает телефонные вызовы: слушает поток с телефонной линии, прокручивает короткую реплику языковой модели и отвечает голосом — всё это за время менее секунды. К 2026 году рынок консолидировался вокруг нескольких серьёзных платформ, экономики ниже 18,7 ₽/минуту и уже работающего регуляторного режима (правила FCC по TCPA для AI-голосов и обязательства по раскрытию из статьи 50 EU AI Act, вступающие в силу 2 августа 2026 года). Это руководство — playbook для покупателя: что выбрать, как собрать архитектуру, что ломается в продакшене, сколько это стоит и где нужен человек в контуре.

Фора Софт выпускала голосовых ассистентов и чат-ботов для LMS, финтеха, здравоохранения и телекома с самой первой волны GPT-3.5. Мы интегрировали Deepgram, ElevenLabs, OpenAI, Dialogflow, LiveKit, Twilio и Azure Communication Services в продакшен-софт и собрали свой playbook вокруг тех подводных камней, о которых обычные блог-посты молчат: эхо на PSTN, галлюцинированные брони, аттестация STIR/SHAKEN и бюджет задержки в 300 мс, который вы сжигаете, как только добавляете один лишний вызов инструмента. Прочитайте текст до конца — и вы будете знать, какой API включить в шорт-лист, как спроектировать архитектуру и где специализированная инженерная команда всё ещё окупает себя.

Главное

Стек модульный, а не монолитный. Телефония, STT, LLM, TTS и оркестрация — это отдельные слои; «платформа», которую вы выбираете, в основном определяет, какие из них зашиты намертво.

Критерий покупки в 2026 году — задержка, а не качество. Время «голос-в-голос» должно укладываться в 800 мс, чтобы разговор ощущался естественно. Всё остальное — донастройка.

Полная стоимость — 9,7–24,7 ₽ за минуту. Заявленные «3,7 ₽/мин» от вендоров за оркестрацию не включают STT, LLM и TTS. Считайте бюджет из расчёта 15 ₽/мин.

Compliance — это скрытая переделка проекта. Решение FCC от февраля 2024 года по TCPA делает AI-голоса вне закона при робозвонках без согласия абонента; раскрытие по статье 50 EU AI Act становится обязательным 2 августа 2026 года; HIPAA и законы штатов о двустороннем согласии добавляют региональные слои.

Платформу выбирайте в последнюю очередь. Сначала — сценарий использования, объём, языки и контур комплаенса; уже из них органично вырастает выбор: Vapi, Retell, Deepgram Voice Agent, LiveKit с собственным стеком или enterprise-путь (Twilio, Azure, Google CCaaS).

Зачем Фора Софт написала этот playbook

Мы выпускали голосовой AI в трёх средах с маленьким запасом на ошибку: телемедицинские консультации (с аудитом по HIPAA), колл-центры финансовых сервисов (штаты с обязательным двусторонним согласием) и многоязычные службы поддержки (с переключением между RU, EN и DE прямо посреди звонка). По всем этим проектам мы вели рабочий журнал того, что реально ломается в продакшене: срыв barge-in на G.711, потерянные DTMF-сигналы между транскодерами, вызовы инструментов LLM, блокирующие TTS, и европейские регуляторы, которые через полгода после деплоя просят показать запись с раскрытием.

Этот гид — выжимка из того журнала. Мы предполагаем, что вы уже знаете свой бизнес-кейс (входящая поддержка, исходящая квалификация лидов, замена IVR, запись на приём или агент-ассист в режиме копилота) и хотите получить техническую карту покупателя — какой стек выбрать, чтобы он всё ещё собирался через 18 месяцев. Если вам ближе сразу обсудить архитектуру, минуя сравнения, напишите нам — наш руководитель направления голосовых AI-агентов запросит запись звонка и проведёт технический разбор.

Нужен независимый второй взгляд на Vapi, Retell или собственный стек?

За 30 минут разберём ваш сценарий звонка, бюджет задержки и контур комплаенса и скажем, какой стек подходит. Без продающих презентаций.

Позвоните нам → Напишите нам →

Что такое AI-ассистент звонков в 2026 году

AI-ассистент звонков — это диалоговый агент реального времени, который завершает или инициирует PSTN/SIP-аудиосессию, прогоняет аудио через speech-to-text, отдаёт нарастающий транскрипт в LLM с инструментами, озвучивает ответ модели через text-to-speech и возвращает звук вызывающему — и всё это укладывается примерно в 800 мс end-to-end. Новое поколение (OpenAI Realtime, Gemini Live, Azure Voice Live) сжимает STT, рассуждение и TTS в одну speech-to-speech модель со временем до первого байта около 300 мс с американских узлов, перенося задержку из вашего оркестрационного кода в инфраструктуру модельного провайдера.

На практике покупатели смотрят на три формата продукта. Входящие агенты-ответчики снимают нагрузку с поддержки и делают тёплый перевод на человека при эскалации. Исходящие кампанийные агенты квалифицируют лиды, бронируют встречи или ведут сбор задолженности — категория, которую FCC переписала своим решением по TCPA в феврале 2024 года: AI-сгенерированные голоса теперь классифицированы как «искусственные или предварительно записанные» и запрещены для робозвонков без согласия. Агент-ассист в режиме копилота слушает звонок живого оператора и подсказывает шёпотом — это сценарий с минимальным риском и частая стартовая площадка для деплоя.

Если вы знакомы только с категорией IVR-ботов 2023 года, разница драматическая: задержка реплики снизилась в 5–10 раз, word error rate ASR на шумной телефонной линии у Deepgram Nova-3 уже ниже 6%, а эмоционально окрашенные TTS (ElevenLabs v3, Hume EVI) перешагнули uncanny valley на коротких репликах. Покупатели, которые строили на стеках 2023 года и переезжают на 2026, обычно выбрасывают половину оркестрационного кода как побочный эффект апгрейда.

Срез рынка: размер, рост и реальные деплои

По данным Precedence Research, рынок AI для контакт-центров в 2024 году оценивался в 242 млрд ₽, в 2025-м — 298 млрд ₽ и движется к 1,9 трлн ₽ к 2034 году с CAGR 23,11%. Gartner прогнозирует, что разговорный AI в контакт-центрах сэкономит 6 трлн ₽ на труде к 2026 году. Это «крупнокалиберные» прогнозы, поэтому полезны прежде всего как проверка здравого смысла: вы не делаете ставку на умирающую категорию — наоборот.

Цифра, на которую мы обращаем внимание покупателей, — публикация Klarna в начале 2024 года: их AI-ассистент за первый месяц обработал 2,3 миллиона обращений в поддержку — около двух третей всего объёма; время решения упало с 11 минут до менее 2, повторные обращения сократились на 25%. Klarna оценила эффект агента примерно в 700 FTE и 4,5 млрд ₽ годовой экономии. Это та форма деплоя, которая работает у среднего и крупного бизнеса, и поэтому каждый шорт-лист, который мы собираем в 2026 году, начинается с вопроса: «потянет ли этот стек 70% объёма звонков с равным или лучшим CSAT».

Если смотреть только на голосовую часть, сегмент «платформа» (Vapi, Retell, Bland, Synthflow, ElevenLabs Conversational AI) забрал нишу шаблонов и прототипов. Голос на стороне модельного провайдера (OpenAI Realtime, Gemini Live, Azure Voice Live) растёт у команд, которые и так живут в этих облаках. А enterprise-стек CCaaS (Twilio + Autopilot, Amazon Connect + Lex, Google Dialogflow CX + Gemini, Microsoft Azure Communication Services) по-прежнему держит регулируемые отрасли, где SLA и понятный путь через закупки важнее последних 150 мс задержки.

Шорт-лист API на 2026 год

В 2026 году значимы двенадцать API и платформ. Ниже — шорт-лист, с которым мы заходим в скоупинг проекта.

Платформы голосовых агентов (оркестрация + телефония в одном пакете)

1. Vapi. Платформа с упором на оркестрацию: визуальный конструктор сценариев, возможность подключить свой STT/LLM/TTS и сильный barge-in. Тариф «3,7 ₽/мин» — только за оркестрацию; полная стоимость с компонентами — 9,7–23,2 ₽/мин. Хороший дефолт, если нужна гибкость и вы готовы сами собирать компоненты.

2. Retell AI. Более плотный «коробочный» бандл — около 5,2 ₽/мин all-in (3,7 ₽ для enterprise), с собственным слоем маршрутизации LLM и сильными шаблонами под исходящие сценарии. Если Vapi кажется слишком DIY — Retell следующий шаг.

3. Bland AI. Платформа-бандл около 6,7 ₽/мин плюс ежемесячные минимумы, заточенная под объёмные исходящие в США. Сильная очередь звонков; европейские голоса слабее.

4. Synthflow. No-code конструктор для тех, кто не пишет код. Мы используем его для внутренних инструментов и разовых пилотов; не наш выбор для продакшен-объёмов.

5. ElevenLabs Conversational AI. End-to-end продукт, обёрнутый вокруг голосов ElevenLabs. Цена — 6–18 ₽/мин в зависимости от уровня голоса. Берите, когда качество голоса — единственная критичная характеристика (брендовый голос, замена IVR в премиум-консьюмере).

Speech-to-speech API от модельных провайдеров

6. OpenAI Realtime API. Голос GPT-4o / GPT-5 со временем до первого байта около 500 мс с американских узлов; медианная задержка реплики на 30-репликовых звонках в независимых бенчмарках — около 2,2 с. Тарификация по аудио-токенам; телефония не входит — её придётся подключить через LiveKit или Twilio Media Streams.

7. Google Gemini Live. Мультимодальная speech-to-speech модель в Google Cloud. Нативно вшита в Dialogflow CX для CCaaS-сценариев; сильна в мультиязычных задачах.

8. Deepgram Voice Agent API. Бандл ASR + LLM + TTS на собственных Deepgram Nova-3 (5,26% batch WER) и Aura TTS — без скрытых наценок за проброс. Любимец enterprise, когда нужна предсказуемая тарификация.

9. Azure Voice Live. Speech-to-speech от Microsoft, плотно интегрированный с Azure Communication Services и Azure OpenAI. Логичный выбор, если вы уже на закупках Microsoft или нужна интеграция с Teams.

Enterprise-платформы для контакт-центров

10. Twilio (Voice + Autopilot / Conversational Intelligence). Полный телефонный стек: зрелый SIP, STIR/SHAKEN и операторские SLA. Эффективная полная стоимость на сценариях AI-агента — около 10,5 ₽/мин при нагрузке 10 тыс. минут.

11. Amazon Connect + Lex + Bedrock. Нативный CCaaS на AWS: оплата за минуту PSTN плюс сервисная комиссия. Сильно подходит командам, уже сидящим на AWS с регулируемыми данными.

12. PolyAI и Cognigy. Чисто enterprise-платформы разговорного AI с собственными design-командами. Когда закупки хотят одного вендора, который держит SLA от и до.

Берите платформу (Vapi / Retell), когда: хотите запуститься за 4–8 недель, готовы жить с одной точкой интеграции и объём звонков ниже 1 млн минут в месяц.

Берите speech-to-speech от модельного провайдера (OpenAI / Gemini / Azure Voice Live), когда: задержка — главная метрика, нужно меньше сетевых хопов и вы уже работаете в облаке этого провайдера.

Берите enterprise-CCaaS (Twilio / Amazon Connect / Azure ACS), когда: вы в регулируемой отрасли, вам нужны операторские SLA и аттестация STIR/SHAKEN, а закупки не подпишут контракт со стартапом.

Соберите свой стек (LiveKit + Deepgram + OpenAI + ElevenLabs), когда: ни одна из платформ не укладывается в ваш бюджет задержки или поверхность кастомных инструментов — обычно это здравоохранение, оборонка, финансы или любой проект с требованием on-prem.

Матрица сравнения — что вы реально платите и выпускаете

Все цифры ниже — эффективная полная стоимость, которую мы видим в реальных деплоях (телефония + STT + LLM + TTS + оркестрация), а не заявленный тариф вендора. Задержка «голос-в-голос» — медиана на тёплом подключении из США.

Платформа Полная стоимость, ₽/мин Задержка Лучше всего для На что смотреть
Vapi 9,7–23,2 ₽ ~900 мс Свой стек, быстрые прототипы Цена зависит от компонентов
Retell AI 5,2 ₽ (enterprise — 3,7 ₽) ~800 мс Исходящие, плотный готовый сценарий Менее гибкий, чем Vapi
ElevenLabs Conversational AI 6–18 ₽ ~850 мс Брендовый голос, потребительский IVR Стоимость голоса на премиум-уровне
OpenAI Realtime 11,2–30 ₽ ~500 мс TTFB Низкая задержка, много вызовов инструментов Нужно подключать свою телефонию
Deepgram Voice Agent 9–16,5 ₽ ~700 мс Предсказуемая тарификация, точный STT Меньше выбор голосов TTS
Twilio Voice + Autopilot ~10,5 ₽ ~1100 мс Операторский SLA, STIR/SHAKEN Медленный цикл итераций
Свой стек на LiveKit 11,2–18,7 ₽ ~600 мс On-prem, кастомные инструменты, HIPAA Самые высокие инженерные затраты

Эталонная архитектура (шесть слоёв, один бюджет задержки)

Каждый продакшен AI-ассистент звонков, который мы выпускали, идёт по одному и тому же пайплайну, какой бы вендор ни был выбран:

Caller PSTN/SIP → Tier-1 carrier (Twilio / Telnyx / Vonage / SignalWire)
                → Media server (LiveKit Cloud / FreeSWITCH / Asterisk)
                → STT stream (Deepgram Nova-3 / Whisper-v3 / AssemblyAI Universal-2)
                → LLM turn (GPT-5 / Gemini 2.5 / Claude 4.5 + tool-calling)
                → TTS stream (ElevenLabs v3 / Cartesia Sonic / OpenAI TTS / Aura-2)
                → Back to PSTN/SIP

Latency budget (voice-to-voice target = 800 ms):
  STT first-partial          120 ms
  LLM turn (with tools)      450 ms
  TTS first chunk            130 ms
  Network / media server     100 ms
                             =====
                             ~800 ms

В этой архитектуре доминируют два проектных решения. Первое — стримим всё, не буферизуем: не ждите целой реплики перед отправкой, гоните частичные результаты STT в LLM и токены LLM в TTS по мере появления. Второе — один медиасервер: не плодите два WebRTC-пира и не транскодируйте дважды; каждый дополнительный хоп — это 40–80 мс и шанс получить аудио-артефакт.

Если нужна референсная реализация, в которой SIP-транкинг, jitter buffer и barge-in уже работают «из коробки», — наша команда выпускает решения на LiveKit с 2024 года. В нашем гиде по сборке мультимодальных AI-агентов на LiveKit разобрана та же архитектура для агентов, которые помимо голоса работают с видео и шарингом экрана.

Бюджет задержки — куда уходит 800 миллисекунд

1. Speech-to-text (~120 мс). На стриминговом Deepgram Nova-3 первые частичные результаты приходят за 100–140 мс. Whisper-v3 медленнее (200–300 мс), зато точнее на чистой речи. Nova-3 multilingual вытягивает code-switching между десятью языками внутри одного звонка — реальное требование для европейских и азиатско-тихоокеанских деплоев.

2. Реплика LLM (~450 мс). Бо́льшая часть бюджета. Однотерновый промпт без вызова инструментов возвращает ответ за 250–400 мс на GPT-4o или Gemini 2.5. Один вызов инструмента добавляет 150–300 мс. Два вызова — бюджет уже превышен; проектируйте под один вызов или подгружайте контекст ещё до того, как пользователь договорил.

3. Text-to-speech (~130 мс). ElevenLabs v3 в стриминге отдаёт первый чанк за 120–160 мс; Cartesia Sonic — за 90–120; OpenAI TTS — около 200. Ещё 50 мс выигрываются предзагрузкой первого слова до того, как LLM закончит реплику.

4. Сеть, медиасервер, jitter buffer (~100 мс). Налог на real-time аудио. LiveKit Cloud в большинстве регионов укладывается в 100 мс; собственный FreeSWITCH в одной VPC с приложением — в 60.

5. Детект barge-in. Не входит в бюджет ответа, но именно это отделяет естественный звонок от робота. Нужен VAD (детектор голосовой активности) на входящем аудио, способный обрезать TTS прямо посреди фразы, как только заговорил собеседник. У LiveKit он есть; Vapi, Retell и Deepgram Voice Agent тянут это на уровне платформы.

Задержка выше 1,2 секунды? Найдём 400 мс, которые вы оставляете на столе.

Пришлите запись звонка и трассировку — наша команда голосовой инженерии за 48 часов вернёт письменный диагноз.

Позвоните нам → Напишите нам →

Лидеры STT и арифметика word error rate

Deepgram опубликовала бенчмарк на 2 703 файла из девяти доменов (подкасты, встречи, телефон, финансы, медицина, drive-thru, авиадиспетчеры, голосовая почта), где Nova-3 показывает 5,26% batch WER и на 54% более низкий streaming WER, чем предыдущий лучший открытый бенчмарк. На телефонной речи — а это и есть наш реальный кейс — Nova-3 multilingual снижает batch WER на 34% и streaming WER на 21% относительно Nova-2 и поддерживает code-switching между 10 языками внутри одного звонка.

OpenAI Whisper-v3 не уступает на чистой американской английской речи, но заметно проседает на акцентированном или шумном телефонном звуке. AssemblyAI Universal-2 на английском в той же лиге, что Nova-3, и отстаёт по мультиязычности. Soniox — нишевый выбор под сильно акцентированную или шумную телефонию.

Наше правило большого пальца: если среди ваших звонящих есть носители английского как второго языка или региональные акценты — переключайтесь на Nova-3 multilingual. Разница в WER на акцентированном телефонном аудио достаточна, чтобы заметно сдвинуть CSAT, а в цене разница маргинальная.

Лидеры TTS и тест на uncanny valley

ElevenLabs v3 возглавляет публичные бенчмарки точности произношения (около 82%) и просодии (около 65%), поддерживает 70+ языков. На коротких репликах поддержки большинство слушателей не замечают разницы с человеком. Минус — стоимость: премиум-голоса сами по себе обходятся в 11,2–18 ₽/мин.

Cartesia Sonic быстрее (первый чанк за 90–120 мс) и слегка уступает по эмоциональной подаче. Лучший выбор, если бюджет задержки очень жёсткий.

OpenAI TTS (gpt-4o-mini-tts / голос gpt-realtime) — дефолт, если вы уже на OpenAI Realtime: достаточно хорош для большинства сценариев поддержки, но на эмоциональных репликах звучит заметно более плоско, чем ElevenLabs.

Deepgram Aura-2 и PlayHT замыкают шорт-лист. Aura-2 выигрывает на предсказуемой бандл-тарификации. У PlayHT сильные эмоциональные и нейтральные варианты голосов — хороший выбор, когда важен брендовый голос и нужен контроль на уровне отдельных тембров.

Если вы строите в регулируемой вертикали с обязательным раскрытием (а к 2 августа 2026 года это весь Евросоюз) — оставляйте голос узнаваемо синтетическим. Статья 50 EU AI Act требует уведомить пользователя, что он общается с AI-системой; узнаваемый, но приятный голос упрощает раскрытие и снижает риск исков.

Выбор LLM — задержка, вызовы инструментов и grounding

Голосовые агенты живут или умирают на трёх возможностях LLM: задержка реплики, надёжность вызова инструментов и grounding на коротких retrieval-чанках. На апрель 2026 года наш дефолтный кластер — GPT-5 (OpenAI), Gemini 2.5 Flash/Pro и Claude 4.5. У каждой свой профиль стоимости и свой стиль вызова инструментов.

GPT-5 быстрее всех на сценариях с большим числом инструментов (параллельные function calls) и обладает лучшим инструментарием для разработчика. Это и самая дорогая модель в пересчёте на минуту; для объёмных исходящих мы спускаемся на GPT-4o-mini или Gemini 2.5 Flash.

Gemini 2.5 Flash — лидер по соотношению цена/производительность для простых входящих сценариев и мультиязычной поддержки. Если вы и так на Google Cloud (хоть в CCaaS, хоть нет) — берите по умолчанию.

Claude 4.5 меньше галлюцинирует на нетривиальных вопросах из бизнес-логики «длинного хвоста» — мы используем её, когда агент создаёт или подтверждает нетипичные брони, корректирует биллинг или меняет медицинское расписание. Чуть медленнее; зато безопаснее.

Телефония — SIP-транки, STIR/SHAKEN и почему это важно

Телефонный слой — место, где чаще всего падают самосборные проекты. Проблемы почти всегда одни и те же: на транке выбран неверный кодек (это даёт эхо), на исходящих неправильный caller-ID (и низкий answer rate) или вовсе отсутствует аттестация STIR/SHAKEN (и звонки помечаются «возможно, спам» ещё до подключения).

STIR/SHAKEN — американский стандарт аутентификации звонящего, который FCC сейчас требует для любого PSTN-исхода. Если ваш провайдер транка не может аттестовать caller-ID, ваш answer rate падает на 30–60%. Tier-1 операторы (Twilio, Telnyx, Vonage, SignalWire) аттестуют по умолчанию; универсальные VoIP-перепродавцы — часто нет. Эта техническая мелочь сводит больше исходящих проектов в ноль, чем любой выбор модели.

По кодеку: дефолт на американском PSTN — G.711 μ-law с частотой 8 кГц. Широкая полоса (Opus/G.722, 16 кГц) заметно повышает точность STT, но работает только если оба плеча звонка широкополосные — на практике это только SIP-в-SIP.

Compliance — TCPA, EU AI Act, HIPAA, двустороннее согласие

США — TCPA и STIR/SHAKEN. Декларативное решение FCC от февраля 2024 года классифицировало AI-сгенерированные голоса как «искусственные или предварительно записанные» по TCPA. Перевод: клонировать голос для исходящих робозвонков без явного предварительного письменного согласия — незаконно, со штрафом за каждый звонок. В playbook кампании обязаны входить доказательства согласия и ограничения частоты. STIR/SHAKEN обязателен для аттестации исходящего dial tone.

ЕС — статья 50 AI Act. Обязательна с 2 августа 2026 года. Если звонок касается гражданина ЕС, в начале разговора вызывающий должен быть уведомлён, что общается с AI-системой. Штрафы — до €20 млн или 4% глобального годового оборота, в зависимости от того, что больше. Зашейте раскрытие в стартовый промпт и логируйте запись.

Здравоохранение — HIPAA. Нужен подписанный BAA с вендором платформы, шифрование в транспорте и в покое для записей и транскриптов, аудируемые контроли доступа и задокументированные потоки данных в EHR-системы (Epic / Cerner). Retell, Deepgram Voice Agent, Twilio и AWS Connect все умеют BAA; Vapi и Tier-1 LLM-провайдеры требуют отдельных переговоров.

Штаты США — двустороннее согласие на запись. Одиннадцать штатов (CA, CT, FL, IL, MD, MA, MT, NV, NH, PA, WA) требуют согласия всех сторон на запись. Практический дефолт: на старте каждого звонка раскрывайте и получайте согласие — независимо от штата — и логируйте таймкод аудиосегмента с согласием.

GDPR. Голос — это персональные данные. Минимизируйте срок хранения сырого аудио (мы обычно удаляем в течение 30 дней, если не оговорено иное), храните транскрипты и PII с отдельной классификацией и предусмотрите DSR-эндпоинт (data-subject-request) в админке с самого первого дня.

Модель стоимости — сколько реально стоят 30 000 минут в месяц

Типичный mid-market деплой — 10 000 звонков × средние 3 минуты = 30 000 минут в месяц. На стандартном самосборном стеке (LiveKit + Deepgram Nova-3 + GPT-5 + ElevenLabs v3) покомпонентная стоимость минуты выглядит так:

Компонент ₽/мин Месяц при 30 тыс. мин
PSTN / SIP (Twilio) 0,75 ₽ 22 500 ₽
LiveKit (медиа) 0,37 ₽ 11 200 ₽
Deepgram STT 0,97 ₽ 29 200 ₽
Реплика GPT-5 4,5 ₽ 135 000 ₽
ElevenLabs TTS 6,7 ₽ 202 500 ₽
Итого all-in 13,3 ₽ 400 500 ₽

На enterprise-тарифе Retell в 3,7 ₽ тот же объём обойдётся примерно в 157 500 ₽ в месяц — экономия около 60% ценой гибкости стека. Vapi на all-in 10,8 ₽ выходит на 324 000 ₽. Сценарии типа Twilio Autopilot на 10,5 ₽ — около 315 000 ₽. Разница между самым дешёвым и самым дорогим путём — порядка 225 000 ₽ в месяц на каждые 30 тыс. минут — почти всегда исчезает в момент, когда дорогой путь экономит вам две инженерные недели на оркестрации.

Мини-кейс — телемедицина с HIPAA, план на 12 недель, до и после

Ситуация. Американская телемедицинская платформа со 120 клиницистами обрабатывала напоминания о приёме и сбор предварительной информации через колл-центр на людях. Стоимость одного исходящего напоминания — 90 ₽, при этом 38% звонков не доводились до конца, потому что пациенты вешали трубку на IVR. Клиенту нужен был AI-ассистент, который сам ведёт напоминания, переносит запись по просьбе пациента и эскалирует к человеку всё, что касается клиники.

План на 12 недель. Недели 1–2: подписан BAA с Deepgram Voice Agent и Twilio, очерчен скоуп аудита HIPAA. Недели 3–6: интеграция с Epic через FHIR, сценарии напоминания, подтверждения и переноса, эскалация на существующий стол операторов. Недели 7–9: пилот на 5% объёма, итерации по ASR на акцентированных голосах и таймингу barge-in. Недели 10–12: выкатка на 100%, раскрытие согласия двух сторон в начале каждого звонка, редактирование PHI в сохранённых транскриптах.

Результат. Стоимость одного напоминания упала с 90 ₽ до 25 ₽ (на 72% меньше). Доля доведённых до конца звонков выросла с 62% до 87%, потому что AI-агент мог ответить на «о чём этот звонок?» — а наследный IVR не мог. Доля повторных записей выросла на 19 п.п. Ноль замечаний по HIPAA на первом аудите. Хотите получить аналогичную оценку под ваш стек? Напишите нам — соберём 30-минутный разбор.

Фреймворк решения — выбираем стек за пять вопросов

Вопрос 1. Какой у вас объём звонков? До 100 тыс. минут в месяц вас уверенно тянет платформа (Vapi, Retell, Synthflow). Выше — инженерная стоимость самосборного стека быстро отбивается.

Вопрос 2. Входящие, исходящие или агент-ассист? Объёмные исходящие — это автоматически STIR/SHAKEN, доказательства согласия и риски по TCPA. Агент-ассист обходит почти всё это. Входящие — золотая середина.

Вопрос 3. Языки и акценты? Если вы обслуживаете не-носителей или code-switching, по умолчанию — Deepgram Nova-3 Multilingual; Whisper-v3 годится для чистых high-resource языков. Моноязычный английский даёт максимальную свободу выбора.

Вопрос 4. Регулирование? HIPAA, PCI, GDPR, EU AI Act, законы штатов о двустороннем согласии — каждое ограничивает выбор вендоров. Вендоров с BAA — небольшое подмножество. Сначала задокументируйте требования, потом выбирайте платформу.

Вопрос 5. Speech-to-speech или классический пайплайн? Speech-to-speech (OpenAI Realtime, Gemini Live, Azure Voice Live) быстрее, но менее наблюдаем. Пайплайн (STT → LLM → TTS) проще отлаживать, менять компоненты и логировать — у нас это до сих пор дефолт для регулируемого продакшена.

Пять ловушек, которые убивают деплои AI-звонков

1. Эхо на PSTN. G.711 μ-law возвращает дальний звук в ближний микрофонный путь. Без активного эхоподавления LLM слышит сама себя и зацикливается. Решение: включите AEC на медиасервере и проверяйте на каждом новом SIP-транке — не доверяйте дефолтам вендора.

2. Галлюцинированные брони. Агент подтверждает «вторник, 15:00», которого в календаре нет. Решение: никогда не давайте LLM завершить транзакцию из своей реплики. Всегда делайте вызов инструмента, дожидайтесь 2xx и читайте звонящему уже реальное подтверждение.

3. Таймауты вызовов инструментов. Внешние API (CRM, календарь, биллинг) подтормаживают; LLM блокируется, TTS останавливается. Решение: жёсткий таймаут 700 мс на каждый инструмент и заранее заготовленная реплика-наполнитель («секундочку, проверяю»), которую агент проговаривает, пока ждёт.

4. Плохая передача на эскалации. Живой оператор подключается «холодным», без контекста. Решение: на эскалации генерируйте однопредложенческий саммари, передавайте его вместе с переводом и проигрывайте оператору запись последней реплики клиента в его софтфоне.

5. Отсутствующее согласие и раскрытие. Первый иск по статье 50 EU AI Act будет именно за приветствие, в котором не упомянут AI. Решение: вшейте раскрытие в первую TTS-реплику, логируйте транскрипт с таймкодом и храните столько, сколько требует ваш регулятор.

KPI — что измерять с первого дня

KPI качества. Word error rate на корпусе ваших звонков (цель — < 8%), доля удержанных звонков (% решённых без человека), CSAT по SMS-опросу после звонка (цель — ≥ 4,3 / 5), доля галлюцинаций в забронированных действиях (цель — 0%). Раз в неделю прогоняйте 200 случайных звонков с ручной разметкой.

Бизнес-KPI. Стоимость решённого звонка (сравнение с человеческим бейзлайном), доля брошенных vs. наследный IVR (цель — −30%), конверсия на исходящих (бенчмарк — живые операторы), доля апсейла на входящих (на mid-market AI часто обыгрывает человека).

KPI надёжности. p50 и p95 задержки «голос-в-голос» (цели — ≤ 800 мс и ≤ 1,4 с), p95 задержки вызовов инструментов, лаг детектирования barge-in (цель — ≤ 150 мс), частота ошибок PSTN (SIP 5xx). Это те самые метрики, из-за которых вас будят в 3 ночи.

Build vs buy — единственный полезный чек-лист

Берите платформу (Vapi, Retell, Synthflow, ElevenLabs Conversational AI, Bland), когда сценарий звонка типичный для отрасли, объём — до ~500 тыс. минут в месяц, до первого продакшен-трафика осталось меньше четырёх недель, вы готовы жить с вендорным локом на оркестрации, а контур комплаенса узкий (без HIPAA, PCI и on-prem).

Стройте сами (LiveKit + Deepgram + OpenAI/Claude/Gemini + ElevenLabs/Cartesia), когда вы выше этого порога, в регулируемой отрасли, нужны кастомные инструменты против внутренних систем (EHR, ядро банка, диспетчерская), нужны собственные observability и заменяемый слой моделей или ваш бюджет задержки «голос-в-голос» — менее 700 мс.

Берите enterprise-CCaaS (Twilio + Autopilot, Amazon Connect + Lex, Dialogflow CX + Gemini, Azure Communication Services + OpenAI), когда закупки требуют единого вендора Tier-1, вы уже на их облаке или ваша корпоративная служба поддержки уже работает на их платформе и AI-слой нужно «прикрутить», а не строить заново.

Когда AI-ассистента звонков лучше не разворачивать

Не ставьте AI там, где звонок — самое ценное взаимодействие с клиентом. Hi-touch B2B-продажи, клиническая диагностика, психологическая помощь и работа с крупными клиентами по-прежнему уделывают AI по retention и NPS, а репутационная цена ошибки сильно перевешивает экономию. Под такие нагрузки правильный уровень — копилот в режиме агент-ассист.

Не ставьте AI там, где не сможете его измерить. Если еженедельно вы не контролируете долю удержанных звонков, CSAT и галлюцинации — агент тихо «уплывёт», и вы узнаете об этом из жалобы клиента в твиттере шесть недель спустя. Сначала observability, потом деплой.

Не ставьте AI там, где регулятор ещё не определился. В некоторых юрисдикциях правила для голосового AI всё ещё пишутся; если ваш комплаенс не может ткнуть в конкретную статью или гайдлайн — пилотируйте сначала агент-ассист и подождите с клиентоориентированным деплоем.

Планируете запуск голосового агента в регулируемой отрасли?

Фора Софт делала голосовые деплои с соответствием HIPAA, GDPR и TCPA с 2023 года. За один созвон разложим ваш контур комплаенса и стек.

Позвоните нам → Напишите нам →

Отрасли, где AI-ассистенты звонков приносят ценность в 2026 году

Здравоохранение. Напоминания о приёме, предварительный сбор информации, постпосещенческий follow-up, проверка страхового покрытия. Только вендоры с аудитом по HIPAA; BAA — без вариантов. Телемедицинские платформы видят 60–70% снижения стоимости звонка.

Финансовые сервисы. Входящие запросы по статусу счёта, сбор задолженности (жёстко регулируемый), сбор данных по ипотеке, первое уведомление об убытке в страховании. Правила записи, PCI на карточные данные, дополнительные слои защиты потребителя на уровне штата.

EdTech и LMS. Запись на обучение, академические консультации, расписание экзаменов, посещаемость. Низкая регуляторная нагрузка, высокий запрос на мультиязычность. Хорошо ложится на Vapi или Retell при умеренных объёмах.

Логистика и выездное обслуживание. Подтверждение диспетчеризации, окна выезда, переносы, отмены. Большое число вызовов инструментов против диспетчерских систем; календарь в реальном времени — критическая интеграция.

Недвижимость. Квалификация лидов, запись на показы, скрининг арендаторов. Много исходящих, поэтому риски по TCPA важнее, чем в большинстве других вертикалей.

Ритейл и e-commerce. Статус заказа, возвраты, апсейл после покупки. Часто доставляется как омниканал (голос + SMS + чат) — поэтому платформы с многоканальной поверхностью (Twilio, Intercom Fin, AI-агенты Zendesk) выигрывают этот сегмент.

Playbook деплоя на 12 недель

Недели 1–2. Скоупинг комплаенса (HIPAA, GDPR, TCPA, согласия штатов), подписание BAA / DPA с вендором, выбор одного сценария звонка, согласование KPI с бизнесом.

Недели 3–5. Интеграция с одной бэкенд-системой (CRM или календарь), приветственное раскрытие на всех языках, финализированная схема вызовов инструментов, настроенный barge-in.

Недели 6–8. Пилот на 5–10% объёма, ежедневная калибровка против 50 размеченных вручную звонков, замер p95 задержки, отлаженная передача на эскалации.

Недели 9–11. Масштабирование до 50% объёма, добавление второго сценария звонка, редактирование PII в сохранённых транскриптах, первый «сухой» комплаенс-прогон.

Неделя 12. Раскат на 100%, KPI-дашборд в проде, установлена еженедельная калибровка, постмортем по пилоту, дорожная карта на следующие два сценария.

FAQ

Что такое AI-ассистент звонков в 2026 году?

Голосовой агент реального времени, который принимает PSTN/SIP-звонок, транскрибирует аудио speech-to-text моделью, рассуждает в LLM (часто с вызовом инструментов) и проговаривает ответ через text-to-speech — всё за время менее 800 мс end-to-end. Современные системы также умеют barge-in, эскалацию на живого оператора и code-switching между несколькими языками внутри одного звонка.

Какой API выбрать — Vapi, Retell или OpenAI Realtime?

Vapi — для гибкости и собственного стека. Retell — для более плотного готового сценария исходящих с меньшей полной стоимостью. OpenAI Realtime — для самой низкой задержки, если вы готовы сами подключать телефонию (LiveKit или Twilio Media Streams). Для регулируемых отраслей или больших объёмов мы по умолчанию собираем стек LiveKit + Deepgram + Claude 4.5 + ElevenLabs.

Сколько реально стоит AI-ассистент звонков в пересчёте на минуту?

Заявленные тарифы вендоров — 3,7–7,5 ₽/минуту, но это только за оркестрацию. Полная стоимость (с STT, LLM, TTS и телефонией) реально лежит в диапазоне 9,7–24,7 ₽/мин в зависимости от выбора моделей. Наша стандартная сборка (LiveKit + Nova-3 + GPT-5 + ElevenLabs v3) выходит на ~13,5 ₽/мин.

Можно ли использовать AI-голоса на исходящих звонках в США?

После декларативного решения FCC от февраля 2024 года AI-сгенерированные голоса считаются «искусственными или предварительно записанными» по TCPA. Это значит, что для исходящих AI-звонков потребителям нужно явное предварительное письменное согласие плюс аттестация STIR/SHAKEN на транке. Без этого вы открыты для штрафов за каждый звонок.

Распространяется ли EU AI Act на мой голосовой бот?

Если звонок касается гражданина ЕС — да. Статья 50 вступает в силу 2 августа 2026 года и требует чёткого уведомления, что пользователь общается с AI-системой. Штрафы — до €20 млн или 4% глобального годового оборота. Уведомляйте в приветствии, логируйте транскрипт и сохраняйте запись.

Как AI-ассистенты звонков работают с несколькими языками?

Deepgram Nova-3 Multilingual тянет code-switching между 10 языками внутри одного звонка с примерно на 34% более низким batch WER, чем предыдущее поколение. Whisper-v3 поддерживает больше языков, но медленнее и менее точен на телефонном аудио. Большинство LLM (GPT-5, Gemini 2.5, Claude 4.5) корректно отвечают на распознанном языке без дополнительной настройки.

Может ли AI-ассистент звонков перевести разговор на живого оператора?

Да, и тёплый перевод — дефолт. AI передаёт оператору однопредложенческий саммари контекста и запись последней реплики клиента в его софтфон ещё до завершения перевода. Это сохраняет состояние и снимает проблему «расскажите всё заново», которая убивает CSAT на наследном IVR.

Сколько занимает проект по AI-ассистенту звонков?

Базовый платформенный пилот выпускается за 2–4 недели. Продакшен-сборка на собственном стеке с интеграцией одной бизнес-системы и одним языком — 8–12 недель. Многоязычные деплои в регулируемых отраслях с несколькими сценариями эскалации идут 3–5 месяцев.

Архитектура

Сборка мультимодальных AI-агентов на LiveKit

Эталонная архитектура для голосовых и видеоагентов, которую мы выпускаем в 2026 году.

STT

Точность распознавания речи в шумной среде

Как выжать WER ниже 8% из телефонного аудио в реальных проектах.

AI Видео

Разработка приложений для AI-видеостриминга в 2026 году

Протоколы, кодеки и рекомендательные движки для стриминга на AI.

Услуги

Разработка AI-чат-ботов и голосовых ассистентов

Как Фора Софт строит голосовых и текстовых агентов end-to-end — обзор услуг.

Готовы выпустить AI-ассистента звонков, который реально конвертит?

Стек 2026 года зрелый: задержка ниже 800 мс достижима на любой серьёзной платформе, мультиязычный ASR на Deepgram Nova-3 справляется с реальным телефонным шумом, а пути по комплаенсу для HIPAA, TCPA, GDPR и EU AI Act хорошо протоптаны. Реально остались четыре решения: сценарий использования, объём, регулируемый контур и что вам выгоднее в бизнесе — скорость до прода или контроль над стеком.

Если в этом квартале вы выпускаете платформенный пилот — берите Vapi или Retell, подключайте Deepgram Nova-3 для ASR и ElevenLabs v3 для голоса, ставьте цель по задержке p50 в 800 мс и запускайте 5%-й пилот против человеческого бейзлайна. Если вы заходите в регулируемую отрасль или идёте за миллион минут в месяц — закладывайте 10–12 недель сборки на LiveKit с собственным выбором STT/LLM/TTS и нормальным observability с первого дня. Оба пути приводят в продакшен; разница в том, арендуете вы инфраструктуру через 18 месяцев или владеете ей.

В любом случае Фора Софт уже выпускала тот паттерн, который вы собираетесь строить. Принесите запись звонка, схему сценария и контур комплаенса; мы вернёмся с шорт-листом стека, моделью стоимости и 12-недельным планом доставки.

Спроектируем ваш AI-ассистент звонков end-to-end.

30 минут с руководителем направления голосовой инженерии: стек, комплаенс, модель стоимости и 12-недельный план поставки.

Позвоните нам → Напишите нам →

  • Услуги
    Разработка
    Технологии