iOS-приложение для видеоперевода на CoreML и Apple Translation Framework

Главное

Видеоперевод на iOS — это конвейер из трёх стадий: STT → MT → TTS. Apple Translation Framework и Speech.framework закрывают 16 языковых пар на устройстве и бесплатно; Deepgram, OpenAI Realtime, ElevenLabs и Cartesia берут остальное в облаке за 0,37–13,5 ₽ за минуту.

Живой звонок живёт или умирает на отметке <1,5 с задержки glass-to-glass. Бюджет: 200–400 мс на STT, 100–300 мс на NMT, 90–300 мс на TTS, 100–250 мс на ingress/egress по WebRTC. Соберите не тот стек — и вы перевалите за 2 с ещё до первого произнесённого слова.

VOD-дубляж — совсем другая история. HeyGen, Synthesia и Akool делают дубляж с синхронизацией губ на 160+ языков за 37,5–150 ₽ за минуту видео. Часовое видео на 5 языков: 4–6 часов работы и 19 тыс.–37 тыс. ₽.

On-device выигрывает по приватности и юнит-экономике; облако — по охвату языков и качеству. Для HIPAA, GDPR и звонков с NDA по умолчанию берите on-device-стек от Apple. Для 50+ языков или премиального клонирования голоса — облако.

MVP iOS-приложения для перевода выходит за 6–10 недель и 2,2–4,5 млн ₽. Полноценная платформа с WebRTC SFU, клонированием голоса и многопользовательскими звонками — проект на 4–6 месяцев за 11–22 млн ₽. Инфраструктура потом обходится в 375 тыс.–2,2 млн ₽ в месяц на типичном SaaS-масштабе.

Подробнее по теме: читайте наш полный гид — 7 лучших инструментов для перевода видеозвонков (сравнение 2026 года).

Почему Фора Софт написала этот плейбук

Мы строим системы видеосвязи и перевода в реальном времени уже 20 лет. Самый показательный кейс — VOLO, наша платформа AI-перевода в реальном времени: на конференции Black Hat Briefings 2025 она обслужила 22 000 участников с задержкой ниже 200 мс по WebRTC, без установки приложения — весь опыт работает в браузере по QR-коду, со стриминговым ASR от Speechmatics и собственным NMT-пайплайном.

Для корпоративной многоязычной связи у нас есть Nucleus — on-prem-платформа на WebRTC и SIP, которая обслуживает более 5 000 бизнесов и обрабатывает 600 миллионов минут звонков в месяц с соответствием SOC II, GDPR и HIPAA. Для прямых трансляций с задержкой ниже секунды мы построили Worldcast: он отдаёт 1,5 Гбит/с HD-видео с нескольких камер с задержкой 0,4–0,5 с на 10 000 одновременных зрителей. У нас также есть подробные статьи о работе OpenAI Realtime API и о гибридной модели «AI + человек» в переводах с разбором стоимости.

Этот гид — то же дерево решений, по которому мы проводим новых клиентов на этапе скоупинга: какой стек, какой провайдер, какая цель по задержке, какой бюджет. Прочитайте целиком, если выбираете подрядчика; перейдите сразу к матрице инструментов, если нужно просто выбрать между Apple Translation, OpenAI Realtime, Deepgram и остальными.

Создаёте iOS-приложение для видеоперевода?

30 минут с ведущим инженером, который запускал перевод в реальном времени на 22 000 одновременных пользователей. Разберём ваш бюджет задержек, порекомендуем стек и подготовим оценку проекта.

Позвоните нам → Напишите нам →

Состояние видеоперевода на iOS в 2026 году

С 2024 по 2026 год четыре сдвига переформатировали, что вообще возможно сделать на iPhone в сфере видеоперевода.

1. Apple Translation Framework стал production-ready. Начиная с iOS 17.4 можно вызывать TranslationSession прямо из Swift, получать сессионный перевод на 16 языковых пар с порогами уверенности и выпускать полностью локальный переводчик без счетов за облако. Apple сама занимается загрузкой моделей, языковыми пакетами и обновлениями.

2. Apple Foundation Models приехали на устройство. На WWDC 2025 представили локальные foundation-модели на ~3 млрд параметров, которые работают на A17 Pro и M4. Они стоят за собственными функциями перевода, суммаризации и переписывания у Apple, а теперь доступны разработчикам через ограниченные API. Результат: inference с приоритетом приватности для чувствительных сценариев перевода — медицинских, юридических, финансовых — без отправки звука за пределы устройства.

3. Облачные STT и TTS пробили нижнюю границу задержки. Deepgram Nova-3 стримит ASR со сквозной задержкой меньше 1 с и точностью 95+ процентов на чистой речи. Cartesia Sonic-3 отдаёт TTS быстрее 100 мс на чанк. ElevenLabs клонирует голос по 30 секундам сэмпла. OpenAI Realtime API объединяет STT, LLM и TTS за 12–13,5 ₽ в минуту с задержкой первого байта 200–400 мс.

4. Дубляж видео с синхронизацией губ стал доступным. HeyGen и Synthesia теперь генерируют дубляж видео с lip-sync на 160+ языков за 37,5–150 ₽ за минуту — в 5–10 раз дешевле, чем два года назад. Типичное часовое корпоративное видео, дублированное на пять языков, занимает 4–6 часов и 19 тыс.–37 тыс. ₽.

Пять сценариев, ради которых стоит строить

1. Перевод живых встреч. Меньше 1,5 с glass-to-glass для 2–20 участников. Сценарии: международные продажи по звонку, многоязычные стендапы, питчи инвесторам через границу, ключевые доклады на конференциях. Это либо приносит выручку (закрывает сделки), либо экономит расходы (заменяет переводчиков по 15 000–45 000 ₽ в час).

2. Дубляж и субтитры для VOD. Пакетная обработка с SLA в 4–48 часов. Сценарии: образовательные платформы, корпоративное обучение, маркетинговое видео, видеоподкасты. Типичная экономика: 19 тыс.–37 тыс. ₽ за час видео с полноценным дубляжом и синхронизацией губ на 5 языков против 375 тыс.–1,5 млн ₽ при традиционной работе с актёрами озвучивания.

3. Субтитры к прямым трансляциям. Допустимая задержка — 1–3 с. Сценарии: концерты, спортивные стримы, новости. Worldcast отдаёт звук концерта и субтитры на 10 000 зрителей с субсекундной задержкой; если поверх добавить ASR от Deepgram для живых субтитров, прибавится ещё 500 мс.

4. Изучение языков и доступность. Локально, без интернета, с низкой задержкой. Apple Speech.framework + Apple Translation Framework + AVSpeechSynthesizer дают вам законченный конвейер, который работает офлайн, не стоит ничего за минуту и по умолчанию соответствует COPPA и GDPR.

5. Многоязычная видеоподдержка клиентов. Гибрид пакетной и реальной обработки: записываете сервисное видео с автосубтитрами на 5+ языков; если пользователь запрашивает живого агента — переключаетесь на перевод в реальном времени. История Sprii c её 72 000+ live-шоппинг-эфирами показывает, как «живое + многоязычное» масштабируется коммерчески.

Архитектура — конвейер STT → MT → TTS

Любое приложение видеоперевода — и в реальном времени, и пакетное — проходит одни и те же три логические стадии: распознавание речи (STT), машинный перевод (MT), синтез речи (TTS). Различаются они тем, где именно живёт каждая стадия (на устройстве или в облаке), насколько агрессивно она стримится и что вы делаете со звуком на выходе.

Стадия Бюджет в реальном времени Вариант on-device Облачный вариант Цена в облаке
STT (речь → текст) 200–400 мс Speech.framework, Whisper.cpp Deepgram Nova-3, Speechmatics, AssemblyAI 0,37–0,75 ₽/мин
MT (текст → текст) 100–300 мс Apple Translation Framework, Foundation Models DeepL, Google Translate, OpenAI GPT-4o 0,07–1,5 ₽ за ~500 слов
TTS (текст → речь) 90–300 мс AVSpeechSynthesizer ElevenLabs, Cartesia, OpenAI TTS 3,7–22,5 ₽/мин
Опционально: синхронизация губ Только пакетно SadTalker (медленно) HeyGen, Synthesia, Akool, Sieve 37,5–150 ₽/мин

Для пайплайнов реального времени нужен ещё транспортный слой. Здесь доминирует WebRTC: LiveKit (open-source SFU), Twilio Programmable Video, Daily.co или собственная установка на Janus/mediasoup. Добавьте по 50–150 мс на ingress и egress. Реалистичный итоговый бюджет для звонка один-на-один: 600–1 200 мс; для трансляции «один-ко-многим» можно позволить себе 1–3 с и пакетный перевод окнами по 5–10 с — как делает VOLO.

Матрица инструментов — STT, MT и TTS-провайдеры лицом к лицу

Инструмент Стадия Языки Задержка Цена Сильная сторона Когда выбирать
Apple Translation Framework MT 16 пар 50–200 мс Бесплатно, on-device Приватность в приоритете, нет счетов за облако, нет прогрева Приложения только для iOS в пределах 16 поддерживаемых пар
Speech.framework + Whisper.cpp STT 60–99 (Whisper) 1–5 с Бесплатно, on-device Офлайн, без оплаты за использование Изучение языков, доступность, регулируемые данные
Deepgram Nova-3 STT 55+ 200–400 мс 0,57 ₽/мин Минимальная стриминговая задержка, медицинская модель Субтитры на встречах в реальном времени в масштабе
Speechmatics STT 55+ <1 с По корпоративному запросу Точность по именованным сущностям, политика no-log, ISO 27001 + GDPR + HIPAA Регулируемые отрасли, крупные корпоративные клиенты
OpenAI Realtime API STT + MT + TTS 50+ 200–400 мс 12–13,5 ₽/мин Всё-в-одном, встроенный диалоговый AI Диалоговый перевод, AI-усиленный диалог
DeepL MT 35+ 100–300 мс 411 ₽/мес + 1 500 ₽ за 1 млн символов Самый высокий BLEU на европейских языках Премиальное качество на парах европейских языков
Cartesia Sonic-3 TTS 40+ <100 мс ~11 ₽/мин Самая низкая TTS-задержка на рынке; клонирование голоса по 10 с Перевод в прямом эфире с субсекундной задержкой
ElevenLabs TTS + клонирование голоса 32 150–300 мс 22 ₽ за 1 тыс. символов Лучшие эмоциональные клоны голоса VOD-дубляж, выразительный TTS
HeyGen Видеодубляж + lip-sync 175+ 4–6 ч на 1 ч видео 37,5–150 ₽/мин Полный конвейер синхронизации губ VOD-дубляж, многоязычные маркетинговые видео
Synthesia Видеодубляж + аватары 160+ В среднем 90 мин По индивидуальному запросу 240+ аватаров, 50 000+ корпоративных команд Корпоративное обучение, e-learning

Apple Translation Framework — on-device по умолчанию

Для большинства iOS-сценариев в пределах 16 поддерживаемых языков встроенный фреймворк от Apple — правильная стартовая точка. Он бесплатный, работает локально, соответствует GDPR, HIPAA и COPPA без отдельной бумажной волокиты и поставляется вместе с системой. Session API стал production-ready начиная с iOS 17.4 и теперь поддерживает настраиваемые пороги уверенности и проверку доступности языковых пар.

Минимальная сессия перевода на SwiftUI

import SwiftUI
import Translation

struct TranslateView: View {
  @State private var input = "Hello, how are you today?"
  @State private var output = ""
  @State private var configuration: TranslationSession.Configuration?

  var body: some View {
    VStack(spacing: 16) {
      TextField("Source text", text: $input)
      Text(output).foregroundStyle(.secondary)
      Button("Translate to French") {
        configuration = .init(source: .init(identifier: "en-US"),
                              target: .init(identifier: "fr-FR"))
      }
    }
    .translationTask(configuration) { session in
      let result = try await session.translate(input)
      output = result.targetText
    }
  }
}

Берите Apple Translation Framework, когда: ваши языковые пары укладываются в 16 поддерживаемых, вы выпускаете приложение только для iOS или ориентируетесь прежде всего на Apple, и приватность или цена за минуту исключают облачные API.

Конвейер реального времени — бюджет задержки

Система живого перевода ощущается сломанной выше отметки ~1,5 с задержки glass-to-glass. Ниже ~700 мс она ощущается как настоящий переводчик. Каждая команда, не попадающая в эту цель, допускает одну из трёх ошибок: недооценивает одну из стадий, дважды считает один и тот же буфер или забывает про прогрев.

Стадия Лучший случай Реалистично Примечания
Ingress по WebRTC (микрофон → SFU) 50 мс 100 мс LiveKit, Janus, Twilio
Аудиобуфер 20 мс 40 мс Opus, 24 кГц
Стриминговый STT 200 мс 400 мс Deepgram Nova-3, Speechmatics
Стриминговый MT 100 мс 300 мс Apple, DeepL, OpenAI
Первый байт TTS 90 мс 300 мс Cartesia <100 мс; ElevenLabs ~250 мс
Egress по WebRTC (SFU → ухо) 50 мс 150 мс Доминирует сетевой джиттер

Лучший случай: 510 мс. Реалистичный: 1 290 мс. Прибавьте 200–500 мс на холодный прогрев модели на первом запросе — и становится понятно, почему демо «AI-перевода в реальном времени» так часто разочаровывают в продакшене. Всегда прогревайте модели на старте приложения, всегда профилируйте сквозную задержку на целевом устройстве и никогда не верьте маркетинговому «sub-second», пока не измерите это сами под реальной сетью.

Нужен живой перевод на iOS с задержкой меньше секунды?

Мы запускали AI-перевод с задержкой ниже 200 мс на 22 000 одновременных участников, 600 млн+ многоязычных минут связи в месяц и 0,4 с по WebRTC на концертном масштабе. 30 минут хватит, чтобы предметно поговорить про вашу архитектуру реального времени.

Позвоните нам → Напишите нам →

Клонирование голоса и синхронизация губ для дубляжа видео

В VOD-дубляже сырая речь, синтезированная другим голосом, ломает иллюзию. Современные конвейеры дубляжа клонируют голос исходного спикера на целевом языке и заново анимируют губы под него.

Запись голоса для клонирования. Cartesia клонирует по 10 секундам аудио, ElevenLabs — по 30 секундам, ResembleAI — по 1–5 минутам с более высоким качеством. Клон сохраняет тембр, акцент и просодию через границы языков: спикер с американским английским, клонированный на французский, звучит как тот же самый человек, говорящий по-французски, а не как обезличенный французский TTS.

Синхронизация губ. HeyGen, Synthesia и Akool гоняют аудио-обусловленную модель лицевой анимации, которая переводит последовательность фонем в форму рта. Расхождение звука и видео меньше 150 мс для большинства зрителей незаметно; современные сервисы стабильно укладываются в эту планку. Самохостящиеся альтернативы (SadTalker, Wav2Lip) работают, но обходятся дороже по инженерному времени и проигрывают по качеству.

Планка качества. MCD (Mel-Cepstral Distortion) ниже 3,5 — это уровень человеческого голоса для клонирования. MOS (Mean Opinion Score) выше 4,2 означает, что слушатели считают голос естественным. До запуска проведите A/B-тест с 50+ зрителями на язык: культурное восприятие сильно варьируется от рынка к рынку.

Приватность on-device и Apple Foundation Models

Некоторые сценарии перевода в принципе не допускают облачной обработки звука: медицинский перевод (HIPAA), судебные заседания (адвокатская тайна), оборонные задачи, финансовый консалтинг и B2B-продажи под NDA. Для них on-device — не обсуждается.

Что доступно on-device сегодня. Apple Translation Framework (16 языковых пар, ~100 МБ на пару, 50–200 мс на предложение). Speech.framework для STT (60+ языков, 1–5 с, ~95% точности на чистой речи). AVSpeechSynthesizer для TTS (функционально работает, но звучит роботизированно по сравнению с ElevenLabs и Cartesia). Порты Whisper.cpp для офлайн-STT на 99 языках со скоростью 5–30 с на минуту аудио.

Apple Foundation Models. Локальные LLM от Apple на ~3 млрд параметров стоят за Apple Intelligence и постепенно открываются разработчикам через частные API в 2025–2026 годах. Они выполняют суммаризацию, переписывание и ограниченный перевод локально. Для чувствительных сценариев, где вы можете требовать iOS 18+ на Apple Silicon, планируйте использовать их по умолчанию и уходить в облако только за неподдерживаемыми языками.

Выигрыш по комплаенсу. Если звук не покидает устройство, требования GDPR, HIPAA, COPPA и большинство локальных правил по резидентству данных сводятся к «неприменимо». Это сильно сокращает юридическую проверку для приложений в здравоохранении, образовании и финансовых сервисах.

Модель стоимости — во сколько на самом деле обходится iOS-приложение для перевода

Цифры ниже консервативные: мы используем Agent Engineering, чтобы быстро ставить плумбинг WebRTC, систему оплаты и аналитику. Классические студии обычно называют на 30–50% больше.

Профиль приложения Стоимость разработки Сроки Инфраструктура в месяц Стек
MVP-переводчик на устройстве (16 пар) 1,1–2,2 млн ₽ 4–6 недель 0–15 000 ₽ Apple Translation + Speech + AVSpeechSynthesizer
Живые субтитры (звонки 1:1) 2,2–3,7 млн ₽ 6–8 недель 15 000–112 500 ₽ WebRTC + Deepgram STT + Apple MT + наложение субтитров
Речь-в-речь в реальном времени (multi-party) 6–11 млн ₽ 12–16 недель 150 тыс.–1,1 млн ₽ LiveKit + Deepgram + Apple/DeepL + Cartesia
Полная платформа (live + VOD-дубляж + клон голоса) 11–22 млн ₽ 4–6 месяцев 750 тыс.–2,2 млн ₽ Стек реального времени + HeyGen API + ElevenLabs + аналитика
Корпоративный уровень (SOC2 / HIPAA / on-prem) 22–45 млн ₽ 6–9 месяцев 1,1–4,5 млн ₽ Собственный SFU + on-device в первую очередь + аудированное облако как запасной вариант

Разобранный пример: конференция в реальном времени на 100 участников, 1 час. Deepgram STT — 34 ₽, Apple Translation — 0 ₽, Cartesia TTS — 337 ₽ (один спикер, 100 слушателей получают клонированный голос), LiveKit SFU — 1 800 ₽. Итого ~2 100 ₽ за час. Если масштабироваться до 22 000 участников, счёт по SFU начнёт доминировать — фокус в том, чтобы вещать один переведённый аудиопоток через CDN, а не открывать unicast каждому зрителю. Именно это позволило VOLO снизить счёт с теоретических восьмизначных до пары сотен тысяч рублей за сессию.

Дерево решений — выберите стек для iOS-перевода за пять вопросов

1. Аудио чувствительное? Да (медицина, юриспруденция, финансы, NDA) → сначала on-device: Apple Translation + Speech + Foundation Models. Нет → облачные API дают больше языков и качества.

2. Какая задержка критична? <700 мс (ощущение синхронного перевода) → Cartesia TTS + Deepgram или Speechmatics STT + Apple MT. ~1,5 с (допустимо для встреч) → пакет OpenAI Realtime. Пакетная обработка (VOD) → Whisper / AssemblyAI + DeepL + ElevenLabs / HeyGen.

3. Сколько языковых пар? ≤16, в основном европейские или с английским как опорным → Apple Translation справится. 50+ языков → облачный MT (DeepL, Google, OpenAI). Редкие языки → модель уровня OpenAI GPT-4o для zero-shot.

4. Прямой эфир или VOD? Прямой эфир → WebRTC + стриминговые STT/MT/TTS, LiveKit / Twilio / Janus. VOD → HeyGen или Synthesia для полноценного lip-sync; ElevenLabs + AVPlayer, если нужен только голос.

5. Масштабируетесь до тысяч одновременных слушателей? Да → вещайте переведённый звук через HLS / LL-HLS, как VOLO; не отдавайте TTS unicast каждому зрителю. Нет (1:1, малая группа) → SFU на каждого зрителя — допустимый вариант.

Правила App Store и StoreKit 2

Раскрытие приватности. Если звук покидает устройство ради облачного STT, MT или TTS, укажите это в App Store privacy report как «Audio Data — Linked to User» (или «Not Linked», если вы не привязываете аудио к личности пользователя). Apple отмечает отсутствие раскрытия на ревью.

Монетизация через StoreKit 2. Автопродлеваемые подписки (премиум-тариф с облачным переводом, клонированием голоса и видеодубляжом); pay-per-use через расходуемые внутренние покупки. Apple забирает 30% выручки первого года, 15% второго и в рамках Small Business Program (для команд с глобальной выручкой менее 75 млн ₽ в год).

Фоновое аудио. Чтобы перевод в реальном времени продолжал работать, когда приложение свёрнуто, настройте корректную категорию AVAudioSession, объявите фоновый режим audio в Info.plist и добавьте виджет Now Playing, чтобы iOS не убивал сессию.

Детские приложения. COPPA запрещает сбор персональных данных у пользователей младше 13 лет. On-device-перевод без логирования по умолчанию COPPA-безопасен; облачные API требуют флоу родительского согласия и соглашений об обработке данных.

KPI, которые должно мерить каждое iOS-приложение для перевода

KPI по качеству. Word Error Rate (цель: <5% на чистой речи, <15% на шумной). BLEU на переводе (25–35 — базовая планка, 50+ приближается к человеческому уровню). MOS (Mean Opinion Score) на TTS (выше 4,2 — слушатели считают речь естественной). Расхождение звука и видео в дубляже (<150 мс — незаметно).

KPI по бизнесу. Сквозная задержка glass-to-glass (цель: <1 500 мс для живых звонков). Доля доведённых до конца сессий (цель: >85% для живых звонков — сломанные сессии пользователи бросают мгновенно). Конверсия из trial в платящих (цель 25–40% для SaaS-ценника). Среднее число языков на пользователя (прокси на вовлечённость).

KPI по надёжности. Частота отказов STT/MT/TTS API (<0,5%). Время холодного запуска модели (<500 мс через предзагрузку). Доля пользователей без сбоев (>99,9%; базовый уровень 99,5%, элитный 99,93%+ — об этом подробно в нашем плейбуке по оптимизации iOS).

Мини-кейс — как мы запустили перевод в реальном времени на 22 000 участников

Ситуация. Организатору конференции понадобился AI-перевод в реальном времени для Black Hat Briefings 2025. Ограничения: без установки приложения (участник сканирует QR — открывается страница в браузере), 22 000 одновременных пользователей на пике, ощущение задержки ниже секунды, 5+ языковых пар.

План на 14 недель. Спринты 1–3: подняли WebRTC-ingest с микрофона спикера через LiveKit и интегрировали стриминговый ASR от Speechmatics. Спринты 4–6: добавили on-device-перевод в стиле Apple как основной путь с облачным MT в качестве резервного для неподдерживаемых языков и собрали кастомный fan-out на socket.io, чтобы каждая вкладка браузера подписывалась на низколатентный поток субтитров вместо персональной SFU-сессии. Спринты 7–9: добавили TTS с клоном голоса через Cartesia для «дублированной» аудиодорожки спикера и нагрузили систему 25 тыс. синтетических клиентов.

Результат. Воспринимаемая задержка ниже 200 мс на субтитрах, ниже 1,5 с на дублированном звуке, ноль простоев за всю конференцию, 22 000+ одновременных пользователей на пике. Полный кейс VOLO лежит в нашем портфолио. Хотите похожую оценку — позвоните или напишите нам.

Пять ловушек, которые губят iOS-приложения для перевода

1. Накопление задержек. Сложение теоретических цифр с маркетинговых страниц вендоров даёт «sub-second» на бумаге и 2,5 с в продакшене. Всегда мерьте сквозную задержку на целевом устройстве, на реальной LTE-связи, с холодного старта модели. И только потом тюньте.

2. Несовпадение голоса между языками. Если для американского английского спикера в TTS использовать обезличенный французский голос, иллюзия ломается. Клонируйте голос спикера (Cartesia — 10 с, ElevenLabs — 30 с), чтобы один и тот же человек звучал собой на каждом языке.

3. Дрейф lip-sync на длинном видео. Идеальный трёхсекундный фрагмент за 10 минут может уехать на 200–300 мс. Тестируйте длинные дубляжи с 50+ зрителями на язык; отбраковывайте дубли, где расхождение перевалило за 150 мс.

4. Холодный прогрев модели. Первый запрос после запуска приложения может ждать 2–5 с, пока загружается модель. Грузите модели в фоне на старте, показывайте индикатор «готово», прежде чем разрешать пользователю начать сессию.

5. Провалы культурной локализации. Дословный MT идиом, шуток, брендов и культурно нагруженных отсылок читается как бессмыслица — или хуже. Для маркетинга, продаж и развлекательного контента сочетайте MT с лёгкой человеческой вычиткой (MTPE) на самых ценных фрагментах. Математику стоимости такой гибридной модели мы разбирали в гиде по гибридному переводу AI + человек.

AI в видеопереводе на iOS — фронтир 2026 года

Многоязычные frontier-LLM. Модели класса GPT-4o, изначально обученные на 100+ языках, делают zero-shot перевод даже для редких пар (валлийский ↔ тамильский, кхмерский ↔ эстонский) — на том качестве, которое раньше требовало отдельной донастройки. Цена: 0,07–1,5 ₽ за ~500 слов.

Мгновенное клонирование голоса. Cartesia клонирует голос за 10 секунд. ElevenLabs — за 30. На практике это значит, что пользователь загружает одно голосовое сообщение и через пять минут получает клон собственного голоса, говорящего на 30+ языках.

On-device-инференс. Apple Foundation Models, Qualcomm AI Engine, NVIDIA Jetson — все они выталкивают модели на 3–7 млрд параметров на edge-устройства. К концу 2026 года ждём STT уровня Whisper и MT на ~7 млрд параметров, работающие полностью на iPhone — а значит, ноль облачных затрат для многих сценариев.

Стриминговые примитивы инференса. Sonic-3, Deepgram Nova-3, стриминговый Whisper и OpenAI Realtime срезают сквозную задержку в 3–5 раз против пакетных API. В сумме это даёт перевод речь-в-речь за <700 мс для звонка 1:1 — то есть порог, после которого пользователи перестают замечать AI.

Хотите фикс-прайс на ваше iOS-приложение для перевода?

Расскажите концепцию и целевую задержку. Мы вернёмся с рекомендацией по стеку, планом по майлстоунам и ценой — обычно на 30–40% ниже, чем у классических студий, потому что плумбинг WebRTC, биллинг и интеграцию STT/TTS у нас собирает Agent Engineering.

Позвоните нам → Напишите нам →

Когда НЕ стоит строить собственное iOS-приложение для перевода

Если вам нужен только английский↔испанский на iOS и у пользователей iOS 17.4+. Apple Translate закрывает это нативно как системную функцию. Обёртка вокруг неё редко окупается.

Если у вас <500 MAU. На таком объёме инженерные и инфраструктурные расходы перекрывают выручку. Сначала валидируйте спрос на no-code MVP (Zapier + LLM + хостируемый SFU).

Если перевод нужен разово. Одна конференция, один лонч-ролик, одно обучающее видео — платите HeyGen или Synthesia за минуту. Не стройте инфраструктуру ради одного раза.

Если вы не готовы заниматься этим постоянно. Инфраструктура перевода в реальном времени требует регулярного тюнинга цен у вендоров, доступности языковых пар и качества. Если ваша команда не закладывает на это квартальный обзор, выпускайте на управляемой платформе.

FAQ

Сколько стоит создать iOS-приложение для видеоперевода?

On-device MVP для 16 языковых пар, поддерживаемых Apple, укладывается в 1,1–2,2 млн ₽ за 4–6 недель. Многопользовательское приложение перевода в реальном времени с WebRTC и облачными STT/MT/TTS — 6–11 млн ₽ за 12–16 недель. Полноценная платформа с VOD-дубляжом, клонированием голоса и поддержкой прямых трансляций — 11–22 млн ₽ за 4–6 месяцев. Корпоративный уровень (SOC2 / HIPAA / on-prem) стартует с 22 млн ₽.

Какая задержка у Apple Translation Framework?

50–200 мс на предложение на iPhone 12 и новее. Фреймворк полностью локальный, бесплатный и поддерживает 16 языковых пар на iOS 18. Первая загрузка языка занимает несколько секунд; последующие вызовы идут с прогретого кэша.

Сколько стоит OpenAI Realtime API за минуту?

12 ₽/мин на mini-модели и около 13,5 ₽/мин на полной модели в 2026 году. Realtime API объединяет STT, LLM и TTS в одном двунаправленном потоке WebRTC со сквозной задержкой 200–400 мс до аудиобуферизации на стороне приложения.

On-device или облако — как выбрать?

On-device выигрывает по приватности (HIPAA, GDPR, COPPA сводятся к «неприменимо»), по цене (нет оплаты за минуту) и по работе офлайн. Облако выигрывает по охвату языков (50+ против 16), по качеству голоса (ElevenLabs против AVSpeechSynthesizer) и по BLEU перевода (DeepL/GPT-4o против Apple). Большинство продакшен-приложений используют оба варианта: сначала on-device, в облако уходят для неподдерживаемых языков или премиальных голосов.

Сколько времени уйдёт на дубляж часа видео на пять языков?

4–6 часов автоматической обработки на HeyGen или Synthesia, включая lip-sync. Цена: 19 тыс.–37 тыс. ₽. Ручной дубляж актёрами при том же объёме — 2–4 недели и 375 тыс.–1,5 млн ₽. Гибридные пайплайны (AI-дубляж плюс ручная вычитка верхних 10% сегментов) занимают промежуточную нишу: ~112 тыс.–225 тыс. ₽.

Можно ли делать перевод в реальном времени полностью офлайн на iPhone?

Да — для 16 поддерживаемых Apple языковых пар. Используйте Speech.framework для STT (1–5 с локально), Apple Translation Framework для MT (50–200 мс) и AVSpeechSynthesizer для TTS. Полная сквозная задержка получится около 2–6 с — не уровень синхрониста, но рабочий вариант для тревел-приложений, изучения языков и сценариев доступности.

Как клонировать голос пользователя для перевода?

Cartesia клонирует по 10 секундам аудио; ElevenLabs — по 30 секундам. Оба сервиса делают клонов, сохраняющих тембр и акцент между языками. Самохостящиеся альтернативы (Coqui XTTS, OpenVoice) работают, но требуют больше инженерных усилий и дают более низкое качество. Всегда требуйте явного согласия и удаляйте исходный сэмпл после записи голоса — для соответствия GDPR.

Какой транспорт использовать — WebRTC, WebSocket или HTTP?

WebRTC — для двунаправленного звука с задержкой меньше секунды (живые звонки, синхронный перевод). WebSocket — для стриминга субтитров и текстовых наложений с низкой задержкой без медиа. HTTP — для пакетных задач дубляжа, офлайн-обработки VOD и одиночных запросов на перевод. Большинство продакшен-приложений используют все три транспорта вместе.

AI в реальном времени

OpenAI Realtime API c WebRTC, SIP и WebSockets

Конвейеры голос+видео с задержкой ниже 200 мс, связывающие браузеры, телефонию и AI-агентов на iOS.

Перевод

Гибридный перевод: AI + человек

Когда хватает MT, когда окупается MTPE и стоимостная математика на 500 тыс. слов в месяц по пяти языковым парам.

iOS streaming

Разработка iOS-приложений для видеостриминга в 2026 году

AVPlayer, Mux, Cloudflare Stream, AWS IVS, FairPlay, ABR-лестницы — полный стек для OTT-приложения на iOS.

AI в стриминге

AI-powered видеостриминг — ML, рекомендации, модерация

Экономия на per-title-кодировании, рост вовлечённости от рекомендаций и модерация контента для современных OTT-приложений.

Производительность iOS

Оптимизация iOS-приложений — лучшие практики 2026 года

Доля без сбоев, время холодного старта, пиковая память — метрики, которые определяют ваше место в App Store.

Готовы выпустить приложение для перевода, которому пользователи действительно доверяют?

В 2026 году правильный стек iOS-видеоперевода — это конвейер из трёх стадий, подстроенный под ваш конкретный сценарий: Apple Translation Framework на устройстве для 16 поддерживаемых пар и приватных задач; Deepgram или Speechmatics + Apple MT + Cartesia или ElevenLabs для живых звонков с задержкой ниже 1,5 с; HeyGen или Synthesia + ElevenLabs для VOD-дубляжа с синхронизацией губ. Удержите цели <1,5 с glass-to-glass, <5% WER и >4,2 MOS — и остальное в продукте сложится.

Если вы рассматриваете запуск iOS-приложения для перевода — живой перевод на конференциях, многоязычная видеоподдержка клиентов, изучение языков, доступность или VOD-дубляж — мы делали это на конференциях, в энтерпрайзе и для массовых продуктов. Лучше за 30 минут показать, как куски собираются вместе, чем писать ещё один абзац.

Обсудим ваш проект iOS-перевода

30-минутный звонок с ведущим инженером, который запускал перевод с задержкой ниже секунды на 22 000 одновременных пользователей. Приходите с концепцией и целевой задержкой — мы вернёмся со стеком, майлстоунами и ценой.

Позвоните нам → Напишите нам →

  • Технологии