AI преображает мобильные приложения: интеллектуальные функции и персонализированный опыт пользователя

Главное

AI в мобильном приложении — это рычаг выручки, а не значок «у нас есть ИИ». Приложения, которые используют AI для персонализации, дают примерно на 12–35% больше конверсии и на 10–20% меньше оттока, чем аналоги без AI, — но только когда модель с первого дня привязана к измеримому KPI.

Большинству приложений нужна гибридная схема, а не только облако. Запускайте модели на устройстве (Core ML, LiteRT, MediaPipe, Gemini Nano, Apple Foundation Models) для задач, критичных к задержке и к приватности; обращайтесь к облачной LLM только тогда, когда глубина рассуждения оправдывает лишние 1–3 с и стоимость за токен.

Закладывайте реалистичный бюджет. MVP мобильного приложения с AI обходится примерно в 2–6 млн ₽ при работе в режиме Agent Engineering, полноценная гибридная сборка под продакшн — в 6–22,5 млн ₽, а ежемесячный инференс — в 22,5 тыс.–1,3 млн ₽ в зависимости от DAU и того, насколько дисциплинированы ваши промпты.

Пять ошибок губят большинство проектов. Дыры в защите данных, предвзятые модели, p95-задержка выше трёх секунд, разряд батареи на старых устройствах и привязка к одному поставщику LLM — каждой из них можно избежать по чек-листу из раздела 15.

Не добавляйте AI везде подряд. Если у вас нет базовой линии для A/B-сравнения, нет размеченных данных или есть чисто офлайновое требование менее 100 мс с моделью, которая не поместится на устройстве, — отложите функцию и сначала выпустите версию без AI.

Это руководство объясняет, как добавить AI в мобильное приложение так, как это в 2026 году действительно сделала бы продакшн-команда разработки — с реальными цифрами, конкретной схемой принятия решений и компромиссами, которые имеют значение. Оно написано для продуктовых руководителей, CTO и основателей, которые взвешивают, стоит ли встраивать AI в приложение под iOS, Android или кроссплатформенное, сколько это будет стоить и какой архитектурный паттерн выбрать. Каждый раздел отвечает на вопрос, на исследование которого вы иначе потратили бы неделю.

Если коротко: AI в мобильном приложении больше не опция. Только генеративные мобильные приложения с AI принесли 225 млрд ₽ выручки в 2025 году с ростом на 273% год к году, пользователи провели в них 48 миллиардов часов, а 63% мобильных разработчиков теперь выпускают хотя бы одну функцию с AI. Приложения, использующие AI для персонализации, показывают на 62% выше вовлечённость и на 80% лучше конверсию, чем аналоги без AI. Вопрос не в том, добавлять ли AI, — а в том, что именно, где и в каком объёме.

Почему это руководство написала Фора Софт

Фора Софт выпускает мобильные и кроссплатформенные продукты с AI уже 17 лет и реализовала 625+ проектов. Мы построили первый виртуальный класс на WebRTC и HTML5 для BrainCert, сеть видеоперевода с AI из 700+ сертифицированных переводчиков на 169 языках для Video Interpretations, конвейер AI-обработки HDR-изображений, который превращает три исходных снимка в скорректированный нейросетевой рендер, для LAYRS, и платформу AI-видеонаблюдения с распознаванием аномалий в реальном времени для MindBox.

Мы работаем в режиме Agent Engineering — то есть наши старшие инженеры пишут код вместе с AI-агентами, которые берут на себя шаблонный код, генерируют тесты и ускоряют рефакторинг. Именно поэтому наши сроки и стоимостные диапазоны в этой статье выходят на 15–30% ниже средних по рынку: гибридный мобильный MVP с AI мы делаем за 4–8 недель, а не за 10–16, как обычно указывают в других местах. Мы также не раздуваем оценки, поэтому приведённые ниже суммы в рублях консервативны и обоснованны.

Прорабатываете AI-функции для своего мобильного приложения?

Свяжитесь с нами — мы сопоставим ваш сценарий с планом на устройстве, в облаке или гибридным и дадим точную оценку в рублях. Без продающих речей.

Позвоните нам → Напишите нам →

Состояние AI в мобильных приложениях в 2026 году — цифры, которые важны

Прежде чем выбирать фреймворк, привяжите разговор к тому, что реально вышло в прошлом году. Эти шесть цифр задают точку отсчёта для каждого решения по AI-функциям, которое вы примете в 2026 году.

Показатель Цифра за 2025 Что это значит для вас
Выручка мобильных приложений с генеративным AI 225 млрд ₽, +273% год к году Самостоятельное AI-приложение теперь полноценный продукт, а не просто функция.
Время в приложениях с генеративным AI 48 млрд часов (×3,6 к 2024) Привычка у пользователей сформировалась — ассистенты теперь борются с вашим приложением за время сессии.
Внедрение разработчиками 63% выпускают ≥ 1 AI-функцию Не выпускать AI в 2026 году — это уже конкурентное отставание, а не нейтральный выбор.
Прирост вовлечённости от персонализации +62% вовлечённости, +80% конверсии Одни только AI-рекомендации двигают финансовый результат.
Пользователи мобильных AI-ассистентов (США) 200 млн+ (110 млн только на мобильных) Пользователи ждут, что голосовой и текстовый AI работает везде.
Прогноз Gartner Использование мобильных приложений −25% к 2027 (из-за AI-ассистентов) Приложения без встроенного AI будут терять сессии в пользу системных ассистентов.

Прочитайте строку про Gartner внимательно. Приложения, которые не внедрят AI, не просто остановятся в развитии — к 2027 году они потеряют 25% сессий в пользу Apple Intelligence, Gemini и Copilot. Встраивание AI в приложение — это в той же мере оборонительный ход, что и наступательный.

Пять категорий AI-функций, которые действительно дают результат

Девяносто процентов успешных мобильных AI-функций попадают в одну из пяти корзин. Выберите корзину прежде, чем выбирать фреймворк.

Персонализация и рекомендации

Netflix сообщает, что 80% просмотренных тайтлов приходят из AI-рекомендаций. Модель адаптивного обучения Duolingo обеспечила 51% роста аудитории и прирост удержания на второй день на 12%. Движок Deep Brew у Starbucks анализирует 100 млн транзакций в неделю и добавляет 15% к продажам и 12% к среднему чеку. Рекомендательные движки по-прежнему — AI-функция с самой высокой отдачей, которую вы можете выпустить в 2026 году.

Берите персонализацию, когда: у вас уже есть поведенческие данные по ≥ 10 000 пользователей в месяц и хотя бы одно измеримое конверсионное событие (покупка, завершение урока, продление подписки).

Разговорный AI и LLM-агенты

Чат-боты на GPT-5, Claude Opus 4.6 или Gemini Pro заменяют сценарии с формами на естественный диалог, снижают нагрузку на поддержку на 30–70% и могут работать как участники звонков в реальном времени (см. наше руководство по видео-AI-агентам). Ловушка — стоимость: чат-бот при 1 млн DAU сожжёт 2,25–4,5 млн ₽ в месяц на токенах, если вы не кэшируете промпты и не направляете простые запросы на более дешёвые тарифы.

Берите LLM-агента, когда: задача связана со свободным текстом, многошаговым рассуждением или резюмированием — и вы можете смириться с p95-задержкой 1–3 с и стоимостью 0,075–0,75 ₽ за одно взаимодействие.

Компьютерное зрение

Обнаружение объектов, OCR, сканирование штрихкодов, разметка лиц, оценка позы, сегментация и AR-наложения. Google Lens, Apple Visual Look Up, эффекты TikTok и фильтры Snap — все они работают на вариациях этих моделей. Современные мобильные NPU (Apple Neural Engine, Qualcomm Hexagon) обрабатывают кадр 640×640 менее чем за 20 мс, поэтому камерные функции в реальном времени по задержке фактически бесплатны, если вы используете MediaPipe или Core ML.

Берите компьютерное зрение на устройстве, когда: функция завязана на камеру, чувствительна к приватности или должна работать офлайн — для всего остального облачные API вроде AWS Rekognition быстрее в запуске, но стоят 0,075–0,9 ₽ за изображение.

Голос, звук и эмоции

Распознавание речи в реальном времени (Whisper, Apple SpeechAnalyzer, Android SpeechRecognizer), синтез речи, выделение ключевых слов и распознавание эмоций в реальном времени. Whisper работает на устройстве со скоростью реального времени на iPhone 14 Pro и новее; классификация эмоций по голосу выполняется менее чем за 100 мс на любом флагмане 2023 года и новее. В связке с приложением для видеоконференций вы можете автоматически резюмировать звонки, отмечать раздражение клиента или переводить с 30+ языков без обращения к серверу.

Берите голосовой AI, когда: руки заняты, важна доступность для людей с ограничениями или ввод пользователя длинный и печатать неудобно.

Предиктивная аналитика и обнаружение мошенничества

Прогноз оттока, склонность к покупке, прогноз завершения сессии, динамическое ценообразование, скоринг мошенничества и обнаружение аномалий. American Express предотвращает 150 млрд ₽ потерь от мошенничества в год за счёт скоринга транзакций в реальном времени; Mastercard анализирует 200+ переменных на каждую авторизацию по 1,3 млрд транзакций в день и вдвое снизила долю ложных отклонений. Такие модели обычно небольшие, дешёвые в обучении и работают на стороне сервера, а мобильное приложение лишь показывает вердикт.

Берите предиктивную аналитику, когда: у вас есть ≥ 50 000 исторических событий, размеченных целевым исходом, и решение, которое подсказывает модель, имеет понятное финансовое последствие.

На устройстве, в облаке или гибридно? Решение, которое нельзя перепоручать

Это самый значимый архитектурный выбор в мобильном приложении с AI. Ошибётесь — и либо разнесёте облачный бюджет, либо выпустите функцию, которая сажает батарею, либо будете перестраивать стек на второй год.

AI на устройстве

Модель поставляется внутри сборки приложения (или скачивается при первом запуске) и работает локально на NPU устройства. Инференс занимает 10–200 мс, по построению приватен, работает офлайн и бесплатен в расчёте на один запуск. Потолок — это размер и возможности модели: менее 50 МБ для большинства приложений; до 7–8 ГБ для базовых моделей на устройстве вроде Apple Foundation Models (iOS 18+) или Gemini Nano (Pixel 9+, Galaxy S26+).

Облачный AI (через API)

Вы обращаетесь к OpenAI, Anthropic, Google, AWS или Azure со своего бэкенда и передаёте результат в приложение. Вы получаете возможности уровня state-of-the-art и мгновенные обновления моделей, но платите за токен или за запрос, добавляете 1–3 с к p95-задержке и передаёте персональные данные третьей стороне, если не шифруете и не оформляете договоры аккуратно. Грубая прикидка: LLM-функция среднего размера при 100 тыс. DAU с пятью обращениями на пользователя в день обходится примерно в 375 тыс. ₽ в месяц по ценам GPT-5.

Гибрид — правильный выбор по умолчанию на 2026 год

Большинство продакшн-приложений должны быть гибридными: на устройстве — для сценариев с низкой задержкой, чувствительных к приватности и офлайновых; в облаке — для тяжёлых рассуждений и извлечения знаний. Банковское приложение помечает подозрительные транзакции на устройстве менее чем за 50 мс, а затем эскалирует их в облачную модель мошенничества для полного разбора. Приложение для e-commerce распознаёт товар по фото на устройстве, а затем запрашивает облачный рекомендатель, чтобы ранжировать связанные товары.

Сравнительная таблица фреймворков и API

Двенадцать серьёзных вариантов, две страницы компромиссов. Это шпаргалка, которую мы используем внутри Фора Софт при проработке новой мобильной AI-функции.

Фреймворк / API Платформа Лучше всего для Типичная задержка Структура затрат
Core ML iOS, macOS, watchOS Зрение и NLP на устройстве с Apple Neural Engine < 100 мс Разовая, внутри приложения
Apple Foundation Models iOS 18+, macOS 15+ LLM на устройстве, резюмирование, инструменты письма < 500 мс Бесплатно (в составе ОС)
TensorFlow Lite / LiteRT Android, iOS, Web Кроссплатформенное ML на устройстве < 200 мс Разовая, внутри приложения
MediaPipe Android, iOS, Web Поза, руки, лицо, жесты, сегментация < 100 мс Разовая, внутри приложения
ML Kit (Google) Android, iOS Распознавание текста, штрихкоды, перевод, обнаружение лиц 50 мс–2 с Бесплатный тариф + за запрос
Gemini Nano (AICore) Android (Pixel 9+, S26+) LLM на устройстве, резюмирование, подсказки ответов < 1 с Бесплатно (в составе ОС)
ONNX Runtime Mobile Android, iOS, Web Переносимые модели между фреймворками < 300 мс Разовая, внутри приложения
OpenAI API (GPT-5) Облако Рассуждения, код и зрение уровня state-of-the-art 1–3 с 93,75–750 ₽ / 1 млн токенов
Anthropic Claude API Облако Рассуждения с длинным контекстом, анализ, код 1–3 с 75–1 875 ₽ / 1 млн токенов (−50% в батче)
Google Gemini API Облако Мультимодальность, экономичные текст и зрение 1–2 с 6–375 ₽ / 1 млн токенов
AWS Rekognition Облако Анализ изображений и видео, модерация 500 мс–2 с 0,075–0,9 ₽ / изображение
Azure Cognitive Services Облако Корпоративное зрение, речь, язык 500 мс–2 с За запрос + подписка

Правило большого пальца: начинайте с самого «мнения» фреймворка, который подходит вашей платформе (Core ML на iOS, ML Kit на Android), и переходите к TensorFlow Lite или ONNX только тогда, когда нужна модель, которую больше нигде не взять. Поднимайтесь до облачного API лишь когда задача действительно требует передовых рассуждений.

Эталонная архитектура гибридного мобильного приложения с AI

Каждое мобильное приложение с AI, которое мы выпускаем, следует одному и тому же пятислойному паттерну. Слои не зависят от технологий — вы можете заменить Swift на Kotlin, Core ML на LiteRT или GPT-5 на Claude, не меняя саму структуру.

1. Слой ввода. Камера, микрофон, текстовое поле, датчики. Делайте локальную предобработку здесь — обрезайте до 640×640, удаляйте EXIF, понижайте звук до 16 кГц. Никогда не отправляйте сырые данные в облако.

2. Слой инференса на устройстве. Core ML, LiteRT, MediaPipe, Foundation Models, Gemini Nano. Берёт на себя всё, что критично к задержке или к приватности. Выдаёт структурированный результат (JSON) и оценку уверенности.

3. Слой оркестрации. Тонкий маршрутизатор на устройстве, который решает: принять локальный результат, эскалировать в облако или попросить пользователя уточнить. Используйте пороги уверенности (например, при оценке < 0,85 — эскалировать).

4. Слой облачного инференса. Ваш бэкенд обращается к LLM или API зрения. Всегда кэшируйте. Всегда ограничивайте частоту запросов. Всегда деградируйте плавно, когда поставщик недоступен, — держите запасной вариант с меньшей и более дешёвой моделью.

5. Слой обратной связи. Логируйте правки пользователей, лайки и дизлайки, явные оценки и неявные сигналы (оставили ли они предложенный результат?). Это и есть эталонные данные, на которых вы будете дообучать модель.

Нужно второе мнение про «на устройстве или в облаке»?

Опишите нам свой сценарий — мы ответим в течение рабочего дня рекомендацией по фреймворку, бюджетом по задержке и архитектурной схемой в три строки.

Позвоните нам → Напишите нам →

Модель затрат — сколько на самом деле стоит мобильное приложение с AI в 2026 году

Бюджеты — то, на чём спотыкается большинство мобильных AI-проектов. Есть две статьи расходов: сама сборка и ежемесячный счёт за инференс. Считайте их раздельно.

Разовая стоимость сборки (по нашим ставкам Agent Engineering)

Объём Пример функции Сроки Ориентировочная стоимость
Одна функция на устройстве Сканирование документа + OCR 4–8 недель 2–6 млн ₽
Гибрид среднего размера Зрение на устройстве + облачный LLM-чат 8–14 недель 6–13,5 млн ₽
Полноценный гибрид под продакшн Оркестрация нескольких моделей, RAG, мониторинг 14–22 недели 11,2–22,5 млн ₽
Корпоративная платформа Регулируемая отрасль (здравоохранение / финтех), несколько регионов, SLA 22+ недели от 22,5 млн ₽

Ежемесячная стоимость инференса — разобранный пример

Допустим, приложение со 100 000 DAU. Каждый пользователь делает пять обращений к LLM в день. Средний ввод — 800 токенов. Средний вывод — 400 токенов. Это 500 млн входных токенов и 250 млн выходных в месяц.

На GPT-5 (93,75 ₽ за ввод, 750 ₽ за вывод на 1 млн токенов) ежемесячный счёт составит 46 875 + 187 500 = 234 375 ₽ в месяц. При 50% кэширования промптов ввод падает до 23 475 ₽ — 210 975 ₽ в месяц. С маршрутизацией моделей (70% простых запросов на более дешёвый тариф) — примерно 120 000 ₽ в месяц.

На Gemini Flash та же нагрузка обходится ближе к 8 625 ₽ в месяц — но Flash слабее в многошаговых рассуждениях, поэтому обычно его подмешивают через маршрутизатор, а не заменяют им GPT-5 полностью.

Чисто на устройстве (Foundation Models или Gemini Nano): 0 ₽ за инференс. Вы платите только за хостинг, телеметрию и конвейер обновления моделей — обычно 22,5 тыс.–112 500 ₽ в месяц.

Мини-кейс — масштабирование Video Interpretations до 700+ переводчиков

Американская компания, занимающаяся переводом, пришла к нам с инструментом бронирования только для веба и хрупким уровнем звонков на WebRTC. Клиенты из здравоохранения требовали соответствия HIPAA; юридические клиенты нуждались в подключении менее чем за секунду; переводчики хотели работать со своих телефонов.

Наш план на 12 недель: пересобрать мобильное приложение на WebRTC с распознаванием речи на устройстве, добавить облачный LLM-конвейер под соглашением BAA для генерации резюме звонков и наложить движок маршрутизации на базе AI, который за миллисекунды подбирает к языку звонящего ближайшего доступного сертифицированного переводчика.

Результат: платформа теперь поддерживает 700+ сертифицированных переводчиков на 169 языках, включая американский язык жестов, с HIPAA-совместимым видео, автоматическими расшифровками сессий и распределённой командой, которая работает полностью с мобильных. Средняя стоимость одного перевода снизилась; покрытие редких языков выросло. Хотите похожую оценку для своего приложения? Позвоните или напишите нам.

Как внедрить AI в мобильное приложение, шаг за шагом

Относитесь к AI как к программе поставки из четырёх фаз, а не как к спринту. У каждой фазы есть чёткий выходной критерий.

Фаза 1 — Исследование (1–2 недели)

Выберите одну точку трения пользователя. Замерьте базовую линию (среднее время на задачу, долю отвалов, объём обращений в поддержку). Запишите целевой KPI и минимальный обнаружимый эффект. Если вы не можете ответить на эти три вопроса — проект не готов.

Фаза 2 — Proof of concept (2–4 недели)

Соберите простейший возможный конвейер из готовых API. Протестируйте на данных 50–100 реальных пользователей. Замерьте точность, задержку (p50/p95), стоимость одного инференса и субъективную удовлетворённость. Решите: продолжать, развернуться или закрыть.

Фаза 3 — Пилот (4–8 недель)

Выпустите на 5–10% пользователей за фича-флагом. Проведите A/B-тест против контрольной группы без AI. Следите за p95-задержкой, частотой сбоев, стоимостью инференса и основным KPI. Держите запасной путь, который отключает AI, если какой-либо порог нарушен.

Фаза 4 — Масштабирование и поддержка (постоянно)

Доведите до 100% за 2–4 недели. Поднимите мониторинг дрейфа модели, оповещения и конвейер дообучения. Установите ограничения по стоимости. Пересматривайте KPI ежемесячно, дообучайте ежеквартально и проверяйте на предвзятость дважды в год.

Оптимизация моделей под мобильные — квантизация, прунинг, дистилляция

AI на устройстве живёт и умирает размером модели. Три техники уменьшают исследовательскую модель на 200 МБ до тех 5–20 МБ, которые реально поместить в сборку приложения.

Квантизация переводит 32-битные числа с плавающей точкой в 8- или 4-битные целые. Уже одно это уменьшает размер модели в 4–8 раз. Обучение с учётом квантизации (QAT) удерживает потерю точности ниже 2%.

Прунинг удаляет связи с низким весом. Разреженность 30–60% сохраняет точность, при этом сокращая время инференса до 40%.

Дистилляция знаний обучает маленькую модель-«ученика» имитировать большую модель-«учителя». Дистиллированный «ученик» на 200 млн параметров может на узких задачах сравняться с 80% возможностей «учителя» на 7 млрд параметров при десятикратно меньшем объёме памяти.

В сочетании эти три техники стабильно уменьшают мобильные модели с 200 МБ до 5–15 МБ при потере точности 1–3%. Это и есть разница между исследовательским прототипом и функцией, которую можно выпустить.

Приватность, GDPR, HIPAA и EU AI Act

AI-функции, которые затрагивают персональные данные, регулируются. Четыре правила уберегут вас от неприятностей.

1. Согласие и минимизация. Собирайте только те данные, которые нужны модели. Показывайте экран согласия на понятном языке. Дайте пользователям возможность отказаться и удалить данные.

2. На устройстве — для чувствительных данных. Медицинские, финансовые, биометрические данные и данные несовершеннолетних должны оставаться на устройстве всякий раз, когда модель туда помещается. Это к тому же простейший путь к соответствию HIPAA — никакие PHI не покидают телефон.

3. Соглашения BAA и DPA с каждым поставщиком. Если вы отправляете PHI или персональные данные граждан ЕС в OpenAI, Anthropic, AWS, Azure или Google, подпишите Business Associate Agreement (HIPAA) и Data Processing Addendum (GDPR). Нет подписанного соглашения — нет отправленных данных.

4. Готовность к EU AI Act. Классифицируйте свою функцию (минимальный, ограниченный, высокий, неприемлемый риск). Функциям высокого риска (медицинская диагностика, кредитный скоринг, биометрическая идентификация) нужны документированные оценки воздействия, человеческий надзор и аудиты предвзятости. Начинайте бумажную работу до того, как писать код, а не после.

Схема принятия решений — выберите правильную AI-функцию за пять вопросов

Хватит спорить о фреймворках. Сначала ответьте на эти пять вопросов.

1. Какой измеримый KPI сдвинет эта функция? Если вы не можете назвать его и измерить уже сегодня — не стройте функцию.

2. Задача критична к задержке (< 300 мс) или чувствительна к приватности? Если да, проектируйте в первую очередь под инференс на устройстве. Если нет, облачный API обычно быстрее в запуске.

3. Есть ли у вас ≥ 10 000 размеченных примеров? Если меньше, используйте готовый API или предобученную открытую модель — не обучайте с нуля.

4. Какова стоимость одного инференса при целевом DAU? Спрогнозируйте на 12 месяцев вперёд. Если ежемесячный счёт при масштабе первого года превышает 15% выручки — архитектура неверна.

5. Что станет запасным вариантом, когда AI откажет? Если пути без AI не существует — AI-функция хрупкая. Стройте оба.

Пять ошибок, которые топят мобильные AI-проекты

1. Дыры в защите данных. Отправка сырых PII или PHI в облачный API без BAA/DPA — самый быстрый способ превратить запуск в судебный иск. Штрафы по GDPR достигают €15 млн или 3% мировой выручки; нарушения HIPAA обходятся в 7 500–112 500 000 ₽ за инцидент. Что делать: на устройстве для чувствительных данных, подписанные соглашения с поставщиками, документированные DPIA.

2. Предвзятые или неточные модели. Модели, обученные на перекошенных данных, дискриминируют недопредставленные группы — и теперь это имеет последствия по EU AI Act. Что делать: разбивайте точность по демографии (возраст, пол, тон кожи, диалект), публикуйте карточку модели, используйте Fairlearn или AI Fairness 360.

3. Задержка, которая ломает UX. Если p95-задержка переваливает за 2–3 с на интерактивном действии на переднем плане, 20–30% пользователей бросят функцию. Что делать: меряйте p95, а не среднее, переносите критичную к задержке работу на устройство, добавьте таймаут в 2 с с запасным путём без AI.

4. Разряд батареи на старых устройствах. Запуск неоптимизированных моделей на CPU/GPU вместо NPU расходует на 10–20% больше батареи за час использования. Это даёт отзывы в одну звезду. Что делать: квантизируйте, явно нацеливайтесь на NPU, профилируйте энергопотребление на реальных устройствах, добавьте переключатель «Лайт» для старого железа.

5. Привязка к поставщику. Чат-бот, прибитый к одному поставщику LLM, в одном изменении цен от того, чтобы разрушить вашу юнит-экономику. Что делать: абстрагируйте поставщика за интерфейсом, держите второго поставщика подключённым для резерва, по возможности используйте ONNX для переносимости на устройстве, ограничивайте ежемесячные траты на каждого поставщика.

KPI — что измерять с первого дня

Три корзины, девять метрик, не больше.

KPI качества. Точность (общая и по подгруппам), точность срабатывания (precision), полнота (recall). Пороги зависят от задачи, но выпускайте при ≥ 90% на зрении, ≥ 80% на классификации в NLP, ≥ 0,8 по F1 везде, где вредны и ложноположительные, и ложноотрицательные срабатывания. Аудируйте точность по подгруппам ежеквартально.

Бизнес-KPI. Прирост конверсии относительно контроля, скорость освоения функции, удержание на 2-й / 7-й / 30-й день, средний чек, снижение числа обращений в поддержку. Целитесь в +10% по тому показателю, который у вас основной; ниже — и AI не окупает себя.

KPI надёжности. Задержка p50, p95, p99. Стоимость инференса на сессию. Время доступности модели (≥ 99,5%). Частота сбоев на путях кода с AI (< 0,1%). Дрейф модели (дообучайте, если точность падает ниже 90% от показателя на день запуска).

Чек-лист перед запуском — двенадцать пунктов, которые мы никогда не пропускаем

Прежде чем любая мобильная AI-функция уходит в раскатку на 100%, мы проходим эти двенадцать проверок. Если хоть одна проваливается — релиз блокируется.

  • Целевой KPI инструментирован, базовая линия зафиксирована.
  • Инфраструктура A/B-тестов запущена с холдаут-группой не менее 10%.
  • p95-задержка на самом старом поддерживаемом устройстве укладывается в бюджет.
  • Влияние на батарею измерено и составляет < 5% дополнительно за час активного использования.
  • Точность измерена как минимум по трём демографическим срезам.
  • Запасной путь существует и автоматически срабатывает при таймауте или ошибке.
  • Соглашение BAA / DPA с поставщиком подписано и сохранено.
  • Обработка PII / PHI задокументирована в DPIA.
  • Ежемесячная стоимость инференса спрогнозирована при DAU первого года и снабжена оповещением по жёсткому лимиту.
  • Мониторинг дрейфа модели запущен с оповещением при падении ниже 90% точности на день запуска.
  • Сбор обратной связи (лайки / правки) подключён к конвейеру дообучения.
  • Фича-флаг «аварийного выключения» может отключить AI-функцию удалённо без нового релиза.

Когда не стоит добавлять AI в мобильное приложение

Четыре ситуации, где пропустить AI — правильное решение.

Более простое решение дешевле. Если переработанная форма, значение по умолчанию или более короткий онбординг решают проблему — сделайте это в первую очередь. AI — это лишние накладные расходы, которые вам не нужны.

У вас нет данных и нет способа их получить. Ниже 1 000 размеченных примеров даже предобученные модели работают плохо. Потратьте квартал на то, чтобы инструментировать приложение и собрать события, прежде чем что-либо обучать.

Решение слишком ответственно для частичной автоматизации. Медицинская диагностика, юридические вердикты, кредитные решения — AI может помогать, но не должен решать в одиночку. Если вы не можете позволить себе человека в контуре — отложите функцию.

Вы не можете измерить эффект. Если нет A/B-инфраструктуры, нет базового KPI и нет минимального обнаружимого эффекта — AI-функция это метрики тщеславия в красивой обёртке. Сначала почините измерение.

Шесть мобильных AI-функций, которые стоит скопировать в 2026 году

Вместо того чтобы изобретать новую AI-функцию с нуля, начните с тех, что уже зарабатывают деньги в чужом финансовом результате. Эти шесть паттернов проверены, задокументированы и чисто переносятся на большинство B2B- и B2C-приложений.

1. Ранжирование контента в духе Netflix. Персональное ранжирование каталога по сигналам вовлечённости. 80% того, что пользователи смотрят на Netflix, приходит из этого паттерна. Хитрость на стороне мобильного — предрассчитать ранжированный список на сервере, а затем переранжировать топ-200 позиций на устройстве по последним десяти действиям пользователя, чтобы прокрутка ощущалась мгновенной даже при плохой связи.

2. Адаптивная сложность в духе Duolingo. Лёгкая ML-модель предсказывает, какое слово или понятие пользователь забудет следующим, и планирует повторение. Duolingo сообщает о приросте удержания на второй день на 12% от одного этого паттерна. Он дёшев в реализации, вписывается в любой геймифицированный опыт и нормально работает на устройстве.

3. Персонализированные предложения в духе Starbucks. Генерация предложений под каждого пользователя на основе истории транзакций и контекста (время, погода, местоположение). Deep Brew добавляет 1 125 ₽ на каждые 100 транзакций относительно контрольной группы. На мобильном выводите предложение первой карточкой при открытии приложения — пустой экран это ваша площадь с самой высокой вовлечённостью.

4. Скоринг мошенничества в духе American Express. Скоринг транзакций в реальном времени, который блокирует плохие транзакции до завершения оплаты. Amex предотвращает 150 млрд ₽ в год потерь от мошенничества. На мобильном запускайте лёгкий классификатор поведения на устройстве (ритм набора, паттерн навигации) и передавайте оценку уверенности облачному скореру для финального решения.

5. Видеоэффекты на устройстве в духе TikTok. Сегментация на MediaPipe плюс шейдер генеративных эффектов дают фильтры, которые ощущаются живыми. Паттерн: используйте NPU для масок сегментации, держите каждый кадр на устройстве и отправляйте в облако только превью, когда пользователь публикует. Используйте это как шаблон для любой творческой функции на базе камеры.

6. Голосовое резюме в духе банков. Whisper работает на устройстве в реальном времени; послезвонковая облачная LLM формирует письменное резюме с пунктами действий. Банковское или медицинское приложение с этим паттерном сокращает среднее время обработки обращения на 30–50%. Добавьте запрос согласия и срок хранения — и вы пройдёте большинство проверок регулятора.

Частые вопросы

Стоит ли строить собственную AI-модель или просто использовать облачный API?

Примерно для 80% мобильных AI-функций правильный ответ — готовый API или предобученная открытая модель: дешевле, быстрее в запуске и менее рискованно. Обучайте собственную модель только тогда, когда у вас есть ≥ 10 000 размеченных примеров, уникальное преимущество в данных и измеримый разрыв в точности между готовым решением и тем, что нужно вашим пользователям.

Сколько стоит мобильное приложение с AI в 2026 году?

Одна функция на устройстве обходится примерно в 2–6 млн ₽ при сборке нашей командой Agent Engineering за 4–8 недель. Полноценное гибридное продакшн-приложение с оркестрацией нескольких моделей стоит 11,2–22,5 млн ₽ за 14–22 недели. Ежемесячный инференс — 22,5 тыс.–1,3 млн ₽ в зависимости от DAU и того, работаете ли вы чисто на устройстве, чисто в облаке или гибридно.

Будут ли AI-функции сажать батареи пользователей?

Нет, если вы нацеливаетесь на NPU. Apple Neural Engine и Qualcomm Hexagon NPU специально спроектированы для энергоэффективного инференса — квантизированная модель зрения обрабатывает кадр 640×640 менее чем за 20 мс с пренебрежимо малым влиянием на батарею. Запуск той же модели на CPU или GPU и есть антипаттерн, сажающий батарею.

Соответствует ли AI на устройстве требованиям HIPAA по умолчанию?

Инференс на устройстве снимает самую большую проблему HIPAA — передачу PHI третьей стороне, — но автоматически HIPAA-совместимым ваше приложение не делает. Вам всё равно нужны шифрование данных в покое, контроль доступа, журналирование обращений, процедуры на случай утечки, Business Associate Agreement с любым облачным поставщиком, которого вы используете, и документированный анализ рисков. Фора Софт выпускает HIPAA-совместимые мобильные платформы с 2019 года.

Какую LLM выбрать для мобильного чат-бота — GPT-5, Claude или Gemini?

Единственно правильного ответа нет; стоит подключить как минимум двух поставщиков за маршрутизатором. Используйте GPT-5 для общего чата и кода, Claude Opus 4.6 для рассуждений с длинным контекстом и анализа документов, Gemini Flash для чувствительных к стоимости высоконагруженных сценариев и Haiku 4.5 для дешёвых запасных вариантов. Маршрутизируйте по сложности запроса и активно кэшируйте.

Сколько ждать до окупаемости мобильной AI-функции?

Быстрые победы — персонализация, обнаружение мошенничества, рекомендации — обычно выходят на положительную юнит-экономику за 3–6 месяцев. Функциям с длинным хвостом вроде генерации контента или сложных агентных сценариев нужно 12–18 месяцев. Непрерывно измеряйте промежуточные KPI (конверсию, удержание, отток); не ждите прироста выручки, чтобы подтвердить направление.

Что будет, если AI-модель со временем станет хуже?

Дрейф модели — это нормально: статистическое распределение реальных данных смещается по мере того, как меняются поведение пользователей, рынок и продукт. Следите за точностью еженедельно, запускайте дообучение, когда она падает ниже 90% от показателя на день запуска, и всегда держите наготове заведомо рабочую предыдущую версию для отката. Инструменты вроде Evidently AI, Fiddler или AWS SageMaker Model Monitor автоматизируют этот контроль.

У кого лучше инструментарий для AI в 2026 году — у iOS или Android?

Оба отличны и различны. У iOS более плотная интеграция с железом (Neural Engine), более сильные настройки приватности по умолчанию, и теперь Apple Foundation Models поставляются системно на iOS 18+. У Android шире разнообразие устройств, готовые API в ML Kit и Gemini Nano на Pixel 9+ и Galaxy S26+. Кроссплатформенные приложения обычно берут Core ML на iOS, LiteRT на Android и используют одни и те же обученные веса модели через ONNX.

AI-агенты

Как работают видео-AI-агенты

Практическое руководство по AI-агентам, которые подключаются к живому звонку, расшифровывают речь и отвечают в реальном времени.

AI в продакшене

Как Фора Софт выпускает AI в программных продуктах

Конкретные AI-паттерны, которые мы встраиваем в продакшн-продукты под iOS, Android и веб.

Стриминг

AI и ML в приложениях для видеостриминга

Как рекомендательные движки и ABR на базе ML повышают вовлечённость в мобильных стриминговых приложениях.

Эмоциональный AI

ПО для распознавания эмоций с AI в реальном времени

Семь решений продакшн-уровня, чтобы добавить распознавание эмоций в мобильное приложение.

Лучшие практики

Обработка видео с AI в реальном времени

Архитектурные паттерны для AI с задержкой менее секунды на живых мобильных видеопотоках.

Готовы преобразить своё мобильное приложение с помощью AI?

План теперь ясен. Выберите один сценарий, завязанный на KPI. По умолчанию берите гибридную архитектуру. Начинайте с готовых API, переходите на устройство ради задержки и приватности, а облачную LLM приберегите для действительно сложных рассуждений. Закладывайте 2–22,5 млн ₽ на сборку и 22,5 тыс.–1,3 млн ₽ в месяц на инференс и держите запасной путь для каждой функции.

Измеряйте точность по подгруппам, p95-задержку и стоимость на сессию с первого дня. Подписывайте BAA и DPA до того, как отправите хоть байт PII. Избегайте привязки к поставщику с помощью маршрутизатора на несколько поставщиков. И помните, что не каждой функции нужен AI — более простое решение по UX зачастую и есть лучший ответ.

Фора Софт прошла этот путь на 625+ проектах. Если вам нужен второй взгляд на вашу дорожную карту по мобильному AI — или команда, чтобы построить его вместе с вами, — быстрее всего просто связаться с нами.

Давайте построим ваше мобильное приложение с AI

Расскажите нам про функцию, пользователя и KPI — мы вернёмся с точной оценкой в рублях, рекомендацией по стеку и сроками поставки в течение одного рабочего дня.

Позвоните нам → Напишите нам →

  • Технологии