
Главное
• AI в мобильном приложении — это рычаг выручки, а не значок «у нас есть ИИ». Приложения, которые используют AI для персонализации, дают примерно на 12–35% больше конверсии и на 10–20% меньше оттока, чем аналоги без AI, — но только когда модель с первого дня привязана к измеримому KPI.
• Большинству приложений нужна гибридная схема, а не только облако. Запускайте модели на устройстве (Core ML, LiteRT, MediaPipe, Gemini Nano, Apple Foundation Models) для задач, критичных к задержке и к приватности; обращайтесь к облачной LLM только тогда, когда глубина рассуждения оправдывает лишние 1–3 с и стоимость за токен.
• Закладывайте реалистичный бюджет. MVP мобильного приложения с AI обходится примерно в 2–6 млн ₽ при работе в режиме Agent Engineering, полноценная гибридная сборка под продакшн — в 6–22,5 млн ₽, а ежемесячный инференс — в 22,5 тыс.–1,3 млн ₽ в зависимости от DAU и того, насколько дисциплинированы ваши промпты.
• Пять ошибок губят большинство проектов. Дыры в защите данных, предвзятые модели, p95-задержка выше трёх секунд, разряд батареи на старых устройствах и привязка к одному поставщику LLM — каждой из них можно избежать по чек-листу из раздела 15.
• Не добавляйте AI везде подряд. Если у вас нет базовой линии для A/B-сравнения, нет размеченных данных или есть чисто офлайновое требование менее 100 мс с моделью, которая не поместится на устройстве, — отложите функцию и сначала выпустите версию без AI.
Это руководство объясняет, как добавить AI в мобильное приложение так, как это в 2026 году действительно сделала бы продакшн-команда разработки — с реальными цифрами, конкретной схемой принятия решений и компромиссами, которые имеют значение. Оно написано для продуктовых руководителей, CTO и основателей, которые взвешивают, стоит ли встраивать AI в приложение под iOS, Android или кроссплатформенное, сколько это будет стоить и какой архитектурный паттерн выбрать. Каждый раздел отвечает на вопрос, на исследование которого вы иначе потратили бы неделю.
Если коротко: AI в мобильном приложении больше не опция. Только генеративные мобильные приложения с AI принесли 225 млрд ₽ выручки в 2025 году с ростом на 273% год к году, пользователи провели в них 48 миллиардов часов, а 63% мобильных разработчиков теперь выпускают хотя бы одну функцию с AI. Приложения, использующие AI для персонализации, показывают на 62% выше вовлечённость и на 80% лучше конверсию, чем аналоги без AI. Вопрос не в том, добавлять ли AI, — а в том, что именно, где и в каком объёме.
Почему это руководство написала Фора Софт
Фора Софт выпускает мобильные и кроссплатформенные продукты с AI уже 17 лет и реализовала 625+ проектов. Мы построили первый виртуальный класс на WebRTC и HTML5 для BrainCert, сеть видеоперевода с AI из 700+ сертифицированных переводчиков на 169 языках для Video Interpretations, конвейер AI-обработки HDR-изображений, который превращает три исходных снимка в скорректированный нейросетевой рендер, для LAYRS, и платформу AI-видеонаблюдения с распознаванием аномалий в реальном времени для MindBox.
Мы работаем в режиме Agent Engineering — то есть наши старшие инженеры пишут код вместе с AI-агентами, которые берут на себя шаблонный код, генерируют тесты и ускоряют рефакторинг. Именно поэтому наши сроки и стоимостные диапазоны в этой статье выходят на 15–30% ниже средних по рынку: гибридный мобильный MVP с AI мы делаем за 4–8 недель, а не за 10–16, как обычно указывают в других местах. Мы также не раздуваем оценки, поэтому приведённые ниже суммы в рублях консервативны и обоснованны.
Прорабатываете AI-функции для своего мобильного приложения?
Свяжитесь с нами — мы сопоставим ваш сценарий с планом на устройстве, в облаке или гибридным и дадим точную оценку в рублях. Без продающих речей.
Состояние AI в мобильных приложениях в 2026 году — цифры, которые важны
Прежде чем выбирать фреймворк, привяжите разговор к тому, что реально вышло в прошлом году. Эти шесть цифр задают точку отсчёта для каждого решения по AI-функциям, которое вы примете в 2026 году.
| Показатель | Цифра за 2025 | Что это значит для вас |
|---|---|---|
| Выручка мобильных приложений с генеративным AI | 225 млрд ₽, +273% год к году | Самостоятельное AI-приложение теперь полноценный продукт, а не просто функция. |
| Время в приложениях с генеративным AI | 48 млрд часов (×3,6 к 2024) | Привычка у пользователей сформировалась — ассистенты теперь борются с вашим приложением за время сессии. |
| Внедрение разработчиками | 63% выпускают ≥ 1 AI-функцию | Не выпускать AI в 2026 году — это уже конкурентное отставание, а не нейтральный выбор. |
| Прирост вовлечённости от персонализации | +62% вовлечённости, +80% конверсии | Одни только AI-рекомендации двигают финансовый результат. |
| Пользователи мобильных AI-ассистентов (США) | 200 млн+ (110 млн только на мобильных) | Пользователи ждут, что голосовой и текстовый AI работает везде. |
| Прогноз Gartner | Использование мобильных приложений −25% к 2027 (из-за AI-ассистентов) | Приложения без встроенного AI будут терять сессии в пользу системных ассистентов. |
Прочитайте строку про Gartner внимательно. Приложения, которые не внедрят AI, не просто остановятся в развитии — к 2027 году они потеряют 25% сессий в пользу Apple Intelligence, Gemini и Copilot. Встраивание AI в приложение — это в той же мере оборонительный ход, что и наступательный.
Пять категорий AI-функций, которые действительно дают результат
Девяносто процентов успешных мобильных AI-функций попадают в одну из пяти корзин. Выберите корзину прежде, чем выбирать фреймворк.
Персонализация и рекомендации
Netflix сообщает, что 80% просмотренных тайтлов приходят из AI-рекомендаций. Модель адаптивного обучения Duolingo обеспечила 51% роста аудитории и прирост удержания на второй день на 12%. Движок Deep Brew у Starbucks анализирует 100 млн транзакций в неделю и добавляет 15% к продажам и 12% к среднему чеку. Рекомендательные движки по-прежнему — AI-функция с самой высокой отдачей, которую вы можете выпустить в 2026 году.
Берите персонализацию, когда: у вас уже есть поведенческие данные по ≥ 10 000 пользователей в месяц и хотя бы одно измеримое конверсионное событие (покупка, завершение урока, продление подписки).
Разговорный AI и LLM-агенты
Чат-боты на GPT-5, Claude Opus 4.6 или Gemini Pro заменяют сценарии с формами на естественный диалог, снижают нагрузку на поддержку на 30–70% и могут работать как участники звонков в реальном времени (см. наше руководство по видео-AI-агентам). Ловушка — стоимость: чат-бот при 1 млн DAU сожжёт 2,25–4,5 млн ₽ в месяц на токенах, если вы не кэшируете промпты и не направляете простые запросы на более дешёвые тарифы.
Берите LLM-агента, когда: задача связана со свободным текстом, многошаговым рассуждением или резюмированием — и вы можете смириться с p95-задержкой 1–3 с и стоимостью 0,075–0,75 ₽ за одно взаимодействие.
Компьютерное зрение
Обнаружение объектов, OCR, сканирование штрихкодов, разметка лиц, оценка позы, сегментация и AR-наложения. Google Lens, Apple Visual Look Up, эффекты TikTok и фильтры Snap — все они работают на вариациях этих моделей. Современные мобильные NPU (Apple Neural Engine, Qualcomm Hexagon) обрабатывают кадр 640×640 менее чем за 20 мс, поэтому камерные функции в реальном времени по задержке фактически бесплатны, если вы используете MediaPipe или Core ML.
Берите компьютерное зрение на устройстве, когда: функция завязана на камеру, чувствительна к приватности или должна работать офлайн — для всего остального облачные API вроде AWS Rekognition быстрее в запуске, но стоят 0,075–0,9 ₽ за изображение.
Голос, звук и эмоции
Распознавание речи в реальном времени (Whisper, Apple SpeechAnalyzer, Android SpeechRecognizer), синтез речи, выделение ключевых слов и распознавание эмоций в реальном времени. Whisper работает на устройстве со скоростью реального времени на iPhone 14 Pro и новее; классификация эмоций по голосу выполняется менее чем за 100 мс на любом флагмане 2023 года и новее. В связке с приложением для видеоконференций вы можете автоматически резюмировать звонки, отмечать раздражение клиента или переводить с 30+ языков без обращения к серверу.
Берите голосовой AI, когда: руки заняты, важна доступность для людей с ограничениями или ввод пользователя длинный и печатать неудобно.
Предиктивная аналитика и обнаружение мошенничества
Прогноз оттока, склонность к покупке, прогноз завершения сессии, динамическое ценообразование, скоринг мошенничества и обнаружение аномалий. American Express предотвращает 150 млрд ₽ потерь от мошенничества в год за счёт скоринга транзакций в реальном времени; Mastercard анализирует 200+ переменных на каждую авторизацию по 1,3 млрд транзакций в день и вдвое снизила долю ложных отклонений. Такие модели обычно небольшие, дешёвые в обучении и работают на стороне сервера, а мобильное приложение лишь показывает вердикт.
Берите предиктивную аналитику, когда: у вас есть ≥ 50 000 исторических событий, размеченных целевым исходом, и решение, которое подсказывает модель, имеет понятное финансовое последствие.
На устройстве, в облаке или гибридно? Решение, которое нельзя перепоручать
Это самый значимый архитектурный выбор в мобильном приложении с AI. Ошибётесь — и либо разнесёте облачный бюджет, либо выпустите функцию, которая сажает батарею, либо будете перестраивать стек на второй год.
AI на устройстве
Модель поставляется внутри сборки приложения (или скачивается при первом запуске) и работает локально на NPU устройства. Инференс занимает 10–200 мс, по построению приватен, работает офлайн и бесплатен в расчёте на один запуск. Потолок — это размер и возможности модели: менее 50 МБ для большинства приложений; до 7–8 ГБ для базовых моделей на устройстве вроде Apple Foundation Models (iOS 18+) или Gemini Nano (Pixel 9+, Galaxy S26+).
Облачный AI (через API)
Вы обращаетесь к OpenAI, Anthropic, Google, AWS или Azure со своего бэкенда и передаёте результат в приложение. Вы получаете возможности уровня state-of-the-art и мгновенные обновления моделей, но платите за токен или за запрос, добавляете 1–3 с к p95-задержке и передаёте персональные данные третьей стороне, если не шифруете и не оформляете договоры аккуратно. Грубая прикидка: LLM-функция среднего размера при 100 тыс. DAU с пятью обращениями на пользователя в день обходится примерно в 375 тыс. ₽ в месяц по ценам GPT-5.
Гибрид — правильный выбор по умолчанию на 2026 год
Большинство продакшн-приложений должны быть гибридными: на устройстве — для сценариев с низкой задержкой, чувствительных к приватности и офлайновых; в облаке — для тяжёлых рассуждений и извлечения знаний. Банковское приложение помечает подозрительные транзакции на устройстве менее чем за 50 мс, а затем эскалирует их в облачную модель мошенничества для полного разбора. Приложение для e-commerce распознаёт товар по фото на устройстве, а затем запрашивает облачный рекомендатель, чтобы ранжировать связанные товары.
Сравнительная таблица фреймворков и API
Двенадцать серьёзных вариантов, две страницы компромиссов. Это шпаргалка, которую мы используем внутри Фора Софт при проработке новой мобильной AI-функции.
| Фреймворк / API | Платформа | Лучше всего для | Типичная задержка | Структура затрат |
|---|---|---|---|---|
| Core ML | iOS, macOS, watchOS | Зрение и NLP на устройстве с Apple Neural Engine | < 100 мс | Разовая, внутри приложения |
| Apple Foundation Models | iOS 18+, macOS 15+ | LLM на устройстве, резюмирование, инструменты письма | < 500 мс | Бесплатно (в составе ОС) |
| TensorFlow Lite / LiteRT | Android, iOS, Web | Кроссплатформенное ML на устройстве | < 200 мс | Разовая, внутри приложения |
| MediaPipe | Android, iOS, Web | Поза, руки, лицо, жесты, сегментация | < 100 мс | Разовая, внутри приложения |
| ML Kit (Google) | Android, iOS | Распознавание текста, штрихкоды, перевод, обнаружение лиц | 50 мс–2 с | Бесплатный тариф + за запрос |
| Gemini Nano (AICore) | Android (Pixel 9+, S26+) | LLM на устройстве, резюмирование, подсказки ответов | < 1 с | Бесплатно (в составе ОС) |
| ONNX Runtime Mobile | Android, iOS, Web | Переносимые модели между фреймворками | < 300 мс | Разовая, внутри приложения |
| OpenAI API (GPT-5) | Облако | Рассуждения, код и зрение уровня state-of-the-art | 1–3 с | 93,75–750 ₽ / 1 млн токенов |
| Anthropic Claude API | Облако | Рассуждения с длинным контекстом, анализ, код | 1–3 с | 75–1 875 ₽ / 1 млн токенов (−50% в батче) |
| Google Gemini API | Облако | Мультимодальность, экономичные текст и зрение | 1–2 с | 6–375 ₽ / 1 млн токенов |
| AWS Rekognition | Облако | Анализ изображений и видео, модерация | 500 мс–2 с | 0,075–0,9 ₽ / изображение |
| Azure Cognitive Services | Облако | Корпоративное зрение, речь, язык | 500 мс–2 с | За запрос + подписка |
Правило большого пальца: начинайте с самого «мнения» фреймворка, который подходит вашей платформе (Core ML на iOS, ML Kit на Android), и переходите к TensorFlow Lite или ONNX только тогда, когда нужна модель, которую больше нигде не взять. Поднимайтесь до облачного API лишь когда задача действительно требует передовых рассуждений.
Эталонная архитектура гибридного мобильного приложения с AI
Каждое мобильное приложение с AI, которое мы выпускаем, следует одному и тому же пятислойному паттерну. Слои не зависят от технологий — вы можете заменить Swift на Kotlin, Core ML на LiteRT или GPT-5 на Claude, не меняя саму структуру.
1. Слой ввода. Камера, микрофон, текстовое поле, датчики. Делайте локальную предобработку здесь — обрезайте до 640×640, удаляйте EXIF, понижайте звук до 16 кГц. Никогда не отправляйте сырые данные в облако.
2. Слой инференса на устройстве. Core ML, LiteRT, MediaPipe, Foundation Models, Gemini Nano. Берёт на себя всё, что критично к задержке или к приватности. Выдаёт структурированный результат (JSON) и оценку уверенности.
3. Слой оркестрации. Тонкий маршрутизатор на устройстве, который решает: принять локальный результат, эскалировать в облако или попросить пользователя уточнить. Используйте пороги уверенности (например, при оценке < 0,85 — эскалировать).
4. Слой облачного инференса. Ваш бэкенд обращается к LLM или API зрения. Всегда кэшируйте. Всегда ограничивайте частоту запросов. Всегда деградируйте плавно, когда поставщик недоступен, — держите запасной вариант с меньшей и более дешёвой моделью.
5. Слой обратной связи. Логируйте правки пользователей, лайки и дизлайки, явные оценки и неявные сигналы (оставили ли они предложенный результат?). Это и есть эталонные данные, на которых вы будете дообучать модель.
Нужно второе мнение про «на устройстве или в облаке»?
Опишите нам свой сценарий — мы ответим в течение рабочего дня рекомендацией по фреймворку, бюджетом по задержке и архитектурной схемой в три строки.
Модель затрат — сколько на самом деле стоит мобильное приложение с AI в 2026 году
Бюджеты — то, на чём спотыкается большинство мобильных AI-проектов. Есть две статьи расходов: сама сборка и ежемесячный счёт за инференс. Считайте их раздельно.
Разовая стоимость сборки (по нашим ставкам Agent Engineering)
| Объём | Пример функции | Сроки | Ориентировочная стоимость |
|---|---|---|---|
| Одна функция на устройстве | Сканирование документа + OCR | 4–8 недель | 2–6 млн ₽ |
| Гибрид среднего размера | Зрение на устройстве + облачный LLM-чат | 8–14 недель | 6–13,5 млн ₽ |
| Полноценный гибрид под продакшн | Оркестрация нескольких моделей, RAG, мониторинг | 14–22 недели | 11,2–22,5 млн ₽ |
| Корпоративная платформа | Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA | 22+ недели | от 22,5 млн ₽ |
Ежемесячная стоимость инференса — разобранный пример
Допустим, приложение со 100 000 DAU. Каждый пользователь делает пять обращений к LLM в день. Средний ввод — 800 токенов. Средний вывод — 400 токенов. Это 500 млн входных токенов и 250 млн выходных в месяц.
На GPT-5 (93,75 ₽ за ввод, 750 ₽ за вывод на 1 млн токенов) ежемесячный счёт составит 46 875 + 187 500 = 234 375 ₽ в месяц. При 50% кэширования промптов ввод падает до 23 475 ₽ — 210 975 ₽ в месяц. С маршрутизацией моделей (70% простых запросов на более дешёвый тариф) — примерно 120 000 ₽ в месяц.
На Gemini Flash та же нагрузка обходится ближе к 8 625 ₽ в месяц — но Flash слабее в многошаговых рассуждениях, поэтому обычно его подмешивают через маршрутизатор, а не заменяют им GPT-5 полностью.
Чисто на устройстве (Foundation Models или Gemini Nano): 0 ₽ за инференс. Вы платите только за хостинг, телеметрию и конвейер обновления моделей — обычно 22,5 тыс.–112 500 ₽ в месяц.
Мини-кейс — масштабирование Video Interpretations до 700+ переводчиков
Американская компания, занимающаяся переводом, пришла к нам с инструментом бронирования только для веба и хрупким уровнем звонков на WebRTC. Клиенты из здравоохранения требовали соответствия HIPAA; юридические клиенты нуждались в подключении менее чем за секунду; переводчики хотели работать со своих телефонов.
Наш план на 12 недель: пересобрать мобильное приложение на WebRTC с распознаванием речи на устройстве, добавить облачный LLM-конвейер под соглашением BAA для генерации резюме звонков и наложить движок маршрутизации на базе AI, который за миллисекунды подбирает к языку звонящего ближайшего доступного сертифицированного переводчика.
Результат: платформа теперь поддерживает 700+ сертифицированных переводчиков на 169 языках, включая американский язык жестов, с HIPAA-совместимым видео, автоматическими расшифровками сессий и распределённой командой, которая работает полностью с мобильных. Средняя стоимость одного перевода снизилась; покрытие редких языков выросло. Хотите похожую оценку для своего приложения? Позвоните или напишите нам.
Как внедрить AI в мобильное приложение, шаг за шагом
Относитесь к AI как к программе поставки из четырёх фаз, а не как к спринту. У каждой фазы есть чёткий выходной критерий.
Фаза 1 — Исследование (1–2 недели)
Выберите одну точку трения пользователя. Замерьте базовую линию (среднее время на задачу, долю отвалов, объём обращений в поддержку). Запишите целевой KPI и минимальный обнаружимый эффект. Если вы не можете ответить на эти три вопроса — проект не готов.
Фаза 2 — Proof of concept (2–4 недели)
Соберите простейший возможный конвейер из готовых API. Протестируйте на данных 50–100 реальных пользователей. Замерьте точность, задержку (p50/p95), стоимость одного инференса и субъективную удовлетворённость. Решите: продолжать, развернуться или закрыть.
Фаза 3 — Пилот (4–8 недель)
Выпустите на 5–10% пользователей за фича-флагом. Проведите A/B-тест против контрольной группы без AI. Следите за p95-задержкой, частотой сбоев, стоимостью инференса и основным KPI. Держите запасной путь, который отключает AI, если какой-либо порог нарушен.
Фаза 4 — Масштабирование и поддержка (постоянно)
Доведите до 100% за 2–4 недели. Поднимите мониторинг дрейфа модели, оповещения и конвейер дообучения. Установите ограничения по стоимости. Пересматривайте KPI ежемесячно, дообучайте ежеквартально и проверяйте на предвзятость дважды в год.
Оптимизация моделей под мобильные — квантизация, прунинг, дистилляция
AI на устройстве живёт и умирает размером модели. Три техники уменьшают исследовательскую модель на 200 МБ до тех 5–20 МБ, которые реально поместить в сборку приложения.
Квантизация переводит 32-битные числа с плавающей точкой в 8- или 4-битные целые. Уже одно это уменьшает размер модели в 4–8 раз. Обучение с учётом квантизации (QAT) удерживает потерю точности ниже 2%.
Прунинг удаляет связи с низким весом. Разреженность 30–60% сохраняет точность, при этом сокращая время инференса до 40%.
Дистилляция знаний обучает маленькую модель-«ученика» имитировать большую модель-«учителя». Дистиллированный «ученик» на 200 млн параметров может на узких задачах сравняться с 80% возможностей «учителя» на 7 млрд параметров при десятикратно меньшем объёме памяти.
В сочетании эти три техники стабильно уменьшают мобильные модели с 200 МБ до 5–15 МБ при потере точности 1–3%. Это и есть разница между исследовательским прототипом и функцией, которую можно выпустить.
Приватность, GDPR, HIPAA и EU AI Act
AI-функции, которые затрагивают персональные данные, регулируются. Четыре правила уберегут вас от неприятностей.
1. Согласие и минимизация. Собирайте только те данные, которые нужны модели. Показывайте экран согласия на понятном языке. Дайте пользователям возможность отказаться и удалить данные.
2. На устройстве — для чувствительных данных. Медицинские, финансовые, биометрические данные и данные несовершеннолетних должны оставаться на устройстве всякий раз, когда модель туда помещается. Это к тому же простейший путь к соответствию HIPAA — никакие PHI не покидают телефон.
3. Соглашения BAA и DPA с каждым поставщиком. Если вы отправляете PHI или персональные данные граждан ЕС в OpenAI, Anthropic, AWS, Azure или Google, подпишите Business Associate Agreement (HIPAA) и Data Processing Addendum (GDPR). Нет подписанного соглашения — нет отправленных данных.
4. Готовность к EU AI Act. Классифицируйте свою функцию (минимальный, ограниченный, высокий, неприемлемый риск). Функциям высокого риска (медицинская диагностика, кредитный скоринг, биометрическая идентификация) нужны документированные оценки воздействия, человеческий надзор и аудиты предвзятости. Начинайте бумажную работу до того, как писать код, а не после.
Схема принятия решений — выберите правильную AI-функцию за пять вопросов
Хватит спорить о фреймворках. Сначала ответьте на эти пять вопросов.
1. Какой измеримый KPI сдвинет эта функция? Если вы не можете назвать его и измерить уже сегодня — не стройте функцию.
2. Задача критична к задержке (< 300 мс) или чувствительна к приватности? Если да, проектируйте в первую очередь под инференс на устройстве. Если нет, облачный API обычно быстрее в запуске.
3. Есть ли у вас ≥ 10 000 размеченных примеров? Если меньше, используйте готовый API или предобученную открытую модель — не обучайте с нуля.
4. Какова стоимость одного инференса при целевом DAU? Спрогнозируйте на 12 месяцев вперёд. Если ежемесячный счёт при масштабе первого года превышает 15% выручки — архитектура неверна.
5. Что станет запасным вариантом, когда AI откажет? Если пути без AI не существует — AI-функция хрупкая. Стройте оба.
Пять ошибок, которые топят мобильные AI-проекты
1. Дыры в защите данных. Отправка сырых PII или PHI в облачный API без BAA/DPA — самый быстрый способ превратить запуск в судебный иск. Штрафы по GDPR достигают €15 млн или 3% мировой выручки; нарушения HIPAA обходятся в 7 500–112 500 000 ₽ за инцидент. Что делать: на устройстве для чувствительных данных, подписанные соглашения с поставщиками, документированные DPIA.
2. Предвзятые или неточные модели. Модели, обученные на перекошенных данных, дискриминируют недопредставленные группы — и теперь это имеет последствия по EU AI Act. Что делать: разбивайте точность по демографии (возраст, пол, тон кожи, диалект), публикуйте карточку модели, используйте Fairlearn или AI Fairness 360.
3. Задержка, которая ломает UX. Если p95-задержка переваливает за 2–3 с на интерактивном действии на переднем плане, 20–30% пользователей бросят функцию. Что делать: меряйте p95, а не среднее, переносите критичную к задержке работу на устройство, добавьте таймаут в 2 с с запасным путём без AI.
4. Разряд батареи на старых устройствах. Запуск неоптимизированных моделей на CPU/GPU вместо NPU расходует на 10–20% больше батареи за час использования. Это даёт отзывы в одну звезду. Что делать: квантизируйте, явно нацеливайтесь на NPU, профилируйте энергопотребление на реальных устройствах, добавьте переключатель «Лайт» для старого железа.
5. Привязка к поставщику. Чат-бот, прибитый к одному поставщику LLM, в одном изменении цен от того, чтобы разрушить вашу юнит-экономику. Что делать: абстрагируйте поставщика за интерфейсом, держите второго поставщика подключённым для резерва, по возможности используйте ONNX для переносимости на устройстве, ограничивайте ежемесячные траты на каждого поставщика.
KPI — что измерять с первого дня
Три корзины, девять метрик, не больше.
KPI качества. Точность (общая и по подгруппам), точность срабатывания (precision), полнота (recall). Пороги зависят от задачи, но выпускайте при ≥ 90% на зрении, ≥ 80% на классификации в NLP, ≥ 0,8 по F1 везде, где вредны и ложноположительные, и ложноотрицательные срабатывания. Аудируйте точность по подгруппам ежеквартально.
Бизнес-KPI. Прирост конверсии относительно контроля, скорость освоения функции, удержание на 2-й / 7-й / 30-й день, средний чек, снижение числа обращений в поддержку. Целитесь в +10% по тому показателю, который у вас основной; ниже — и AI не окупает себя.
KPI надёжности. Задержка p50, p95, p99. Стоимость инференса на сессию. Время доступности модели (≥ 99,5%). Частота сбоев на путях кода с AI (< 0,1%). Дрейф модели (дообучайте, если точность падает ниже 90% от показателя на день запуска).
Чек-лист перед запуском — двенадцать пунктов, которые мы никогда не пропускаем
Прежде чем любая мобильная AI-функция уходит в раскатку на 100%, мы проходим эти двенадцать проверок. Если хоть одна проваливается — релиз блокируется.
- Целевой KPI инструментирован, базовая линия зафиксирована.
- Инфраструктура A/B-тестов запущена с холдаут-группой не менее 10%.
- p95-задержка на самом старом поддерживаемом устройстве укладывается в бюджет.
- Влияние на батарею измерено и составляет < 5% дополнительно за час активного использования.
- Точность измерена как минимум по трём демографическим срезам.
- Запасной путь существует и автоматически срабатывает при таймауте или ошибке.
- Соглашение BAA / DPA с поставщиком подписано и сохранено.
- Обработка PII / PHI задокументирована в DPIA.
- Ежемесячная стоимость инференса спрогнозирована при DAU первого года и снабжена оповещением по жёсткому лимиту.
- Мониторинг дрейфа модели запущен с оповещением при падении ниже 90% точности на день запуска.
- Сбор обратной связи (лайки / правки) подключён к конвейеру дообучения.
- Фича-флаг «аварийного выключения» может отключить AI-функцию удалённо без нового релиза.
Когда не стоит добавлять AI в мобильное приложение
Четыре ситуации, где пропустить AI — правильное решение.
Более простое решение дешевле. Если переработанная форма, значение по умолчанию или более короткий онбординг решают проблему — сделайте это в первую очередь. AI — это лишние накладные расходы, которые вам не нужны.
У вас нет данных и нет способа их получить. Ниже 1 000 размеченных примеров даже предобученные модели работают плохо. Потратьте квартал на то, чтобы инструментировать приложение и собрать события, прежде чем что-либо обучать.
Решение слишком ответственно для частичной автоматизации. Медицинская диагностика, юридические вердикты, кредитные решения — AI может помогать, но не должен решать в одиночку. Если вы не можете позволить себе человека в контуре — отложите функцию.
Вы не можете измерить эффект. Если нет A/B-инфраструктуры, нет базового KPI и нет минимального обнаружимого эффекта — AI-функция это метрики тщеславия в красивой обёртке. Сначала почините измерение.
Шесть мобильных AI-функций, которые стоит скопировать в 2026 году
Вместо того чтобы изобретать новую AI-функцию с нуля, начните с тех, что уже зарабатывают деньги в чужом финансовом результате. Эти шесть паттернов проверены, задокументированы и чисто переносятся на большинство B2B- и B2C-приложений.
1. Ранжирование контента в духе Netflix. Персональное ранжирование каталога по сигналам вовлечённости. 80% того, что пользователи смотрят на Netflix, приходит из этого паттерна. Хитрость на стороне мобильного — предрассчитать ранжированный список на сервере, а затем переранжировать топ-200 позиций на устройстве по последним десяти действиям пользователя, чтобы прокрутка ощущалась мгновенной даже при плохой связи.
2. Адаптивная сложность в духе Duolingo. Лёгкая ML-модель предсказывает, какое слово или понятие пользователь забудет следующим, и планирует повторение. Duolingo сообщает о приросте удержания на второй день на 12% от одного этого паттерна. Он дёшев в реализации, вписывается в любой геймифицированный опыт и нормально работает на устройстве.
3. Персонализированные предложения в духе Starbucks. Генерация предложений под каждого пользователя на основе истории транзакций и контекста (время, погода, местоположение). Deep Brew добавляет 1 125 ₽ на каждые 100 транзакций относительно контрольной группы. На мобильном выводите предложение первой карточкой при открытии приложения — пустой экран это ваша площадь с самой высокой вовлечённостью.
4. Скоринг мошенничества в духе American Express. Скоринг транзакций в реальном времени, который блокирует плохие транзакции до завершения оплаты. Amex предотвращает 150 млрд ₽ в год потерь от мошенничества. На мобильном запускайте лёгкий классификатор поведения на устройстве (ритм набора, паттерн навигации) и передавайте оценку уверенности облачному скореру для финального решения.
5. Видеоэффекты на устройстве в духе TikTok. Сегментация на MediaPipe плюс шейдер генеративных эффектов дают фильтры, которые ощущаются живыми. Паттерн: используйте NPU для масок сегментации, держите каждый кадр на устройстве и отправляйте в облако только превью, когда пользователь публикует. Используйте это как шаблон для любой творческой функции на базе камеры.
6. Голосовое резюме в духе банков. Whisper работает на устройстве в реальном времени; послезвонковая облачная LLM формирует письменное резюме с пунктами действий. Банковское или медицинское приложение с этим паттерном сокращает среднее время обработки обращения на 30–50%. Добавьте запрос согласия и срок хранения — и вы пройдёте большинство проверок регулятора.
Частые вопросы
Стоит ли строить собственную AI-модель или просто использовать облачный API?
Примерно для 80% мобильных AI-функций правильный ответ — готовый API или предобученная открытая модель: дешевле, быстрее в запуске и менее рискованно. Обучайте собственную модель только тогда, когда у вас есть ≥ 10 000 размеченных примеров, уникальное преимущество в данных и измеримый разрыв в точности между готовым решением и тем, что нужно вашим пользователям.
Сколько стоит мобильное приложение с AI в 2026 году?
Одна функция на устройстве обходится примерно в 2–6 млн ₽ при сборке нашей командой Agent Engineering за 4–8 недель. Полноценное гибридное продакшн-приложение с оркестрацией нескольких моделей стоит 11,2–22,5 млн ₽ за 14–22 недели. Ежемесячный инференс — 22,5 тыс.–1,3 млн ₽ в зависимости от DAU и того, работаете ли вы чисто на устройстве, чисто в облаке или гибридно.
Будут ли AI-функции сажать батареи пользователей?
Нет, если вы нацеливаетесь на NPU. Apple Neural Engine и Qualcomm Hexagon NPU специально спроектированы для энергоэффективного инференса — квантизированная модель зрения обрабатывает кадр 640×640 менее чем за 20 мс с пренебрежимо малым влиянием на батарею. Запуск той же модели на CPU или GPU и есть антипаттерн, сажающий батарею.
Соответствует ли AI на устройстве требованиям HIPAA по умолчанию?
Инференс на устройстве снимает самую большую проблему HIPAA — передачу PHI третьей стороне, — но автоматически HIPAA-совместимым ваше приложение не делает. Вам всё равно нужны шифрование данных в покое, контроль доступа, журналирование обращений, процедуры на случай утечки, Business Associate Agreement с любым облачным поставщиком, которого вы используете, и документированный анализ рисков. Фора Софт выпускает HIPAA-совместимые мобильные платформы с 2019 года.
Какую LLM выбрать для мобильного чат-бота — GPT-5, Claude или Gemini?
Единственно правильного ответа нет; стоит подключить как минимум двух поставщиков за маршрутизатором. Используйте GPT-5 для общего чата и кода, Claude Opus 4.6 для рассуждений с длинным контекстом и анализа документов, Gemini Flash для чувствительных к стоимости высоконагруженных сценариев и Haiku 4.5 для дешёвых запасных вариантов. Маршрутизируйте по сложности запроса и активно кэшируйте.
Сколько ждать до окупаемости мобильной AI-функции?
Быстрые победы — персонализация, обнаружение мошенничества, рекомендации — обычно выходят на положительную юнит-экономику за 3–6 месяцев. Функциям с длинным хвостом вроде генерации контента или сложных агентных сценариев нужно 12–18 месяцев. Непрерывно измеряйте промежуточные KPI (конверсию, удержание, отток); не ждите прироста выручки, чтобы подтвердить направление.
Что будет, если AI-модель со временем станет хуже?
Дрейф модели — это нормально: статистическое распределение реальных данных смещается по мере того, как меняются поведение пользователей, рынок и продукт. Следите за точностью еженедельно, запускайте дообучение, когда она падает ниже 90% от показателя на день запуска, и всегда держите наготове заведомо рабочую предыдущую версию для отката. Инструменты вроде Evidently AI, Fiddler или AWS SageMaker Model Monitor автоматизируют этот контроль.
У кого лучше инструментарий для AI в 2026 году — у iOS или Android?
Оба отличны и различны. У iOS более плотная интеграция с железом (Neural Engine), более сильные настройки приватности по умолчанию, и теперь Apple Foundation Models поставляются системно на iOS 18+. У Android шире разнообразие устройств, готовые API в ML Kit и Gemini Nano на Pixel 9+ и Galaxy S26+. Кроссплатформенные приложения обычно берут Core ML на iOS, LiteRT на Android и используют одни и те же обученные веса модели через ONNX.
Что почитать дальше
AI-агенты
Как работают видео-AI-агенты
Практическое руководство по AI-агентам, которые подключаются к живому звонку, расшифровывают речь и отвечают в реальном времени.
AI в продакшене
Как Фора Софт выпускает AI в программных продуктах
Конкретные AI-паттерны, которые мы встраиваем в продакшн-продукты под iOS, Android и веб.
Стриминг
AI и ML в приложениях для видеостриминга
Как рекомендательные движки и ABR на базе ML повышают вовлечённость в мобильных стриминговых приложениях.
Эмоциональный AI
ПО для распознавания эмоций с AI в реальном времени
Семь решений продакшн-уровня, чтобы добавить распознавание эмоций в мобильное приложение.
Лучшие практики
Обработка видео с AI в реальном времени
Архитектурные паттерны для AI с задержкой менее секунды на живых мобильных видеопотоках.
Готовы преобразить своё мобильное приложение с помощью AI?
План теперь ясен. Выберите один сценарий, завязанный на KPI. По умолчанию берите гибридную архитектуру. Начинайте с готовых API, переходите на устройство ради задержки и приватности, а облачную LLM приберегите для действительно сложных рассуждений. Закладывайте 2–22,5 млн ₽ на сборку и 22,5 тыс.–1,3 млн ₽ в месяц на инференс и держите запасной путь для каждой функции.
Измеряйте точность по подгруппам, p95-задержку и стоимость на сессию с первого дня. Подписывайте BAA и DPA до того, как отправите хоть байт PII. Избегайте привязки к поставщику с помощью маршрутизатора на несколько поставщиков. И помните, что не каждой функции нужен AI — более простое решение по UX зачастую и есть лучший ответ.
Фора Софт прошла этот путь на 625+ проектах. Если вам нужен второй взгляд на вашу дорожную карту по мобильному AI — или команда, чтобы построить его вместе с вами, — быстрее всего просто связаться с нами.
Давайте построим ваше мобильное приложение с AI
Расскажите нам про функцию, пользователя и KPI — мы вернёмся с точной оценкой в рублях, рекомендацией по стеку и сроками поставки в течение одного рабочего дня.
