Блог: Почему продуктивность ИИ в разработке ПО зависит от контекста, а не от умных промптов

Ключевые выводы

Узкое место продуктивности ИИ — это контекст, а не «хитрые» промпты. Постоянная память проекта, правила, права доступа и выборочная подгрузка документации превращают ИИ из «угадайки» в настроенного инженерного коллегу.

Реальный прирост продуктивности — 30–50% на рутинной работе. Разбор багов, генерация тестов, проверка кода и черновики документации — самые выгодные цели, а не проектирование архитектуры с нуля.

Оценки на SWE-bench Verified в 2026 году превысили 80% у топовых моделей. Год назад этот показатель был около 65%. Игнорировать ИИ при такой динамике — стратегический риск.

Токены — это деньги; язык и конфигурация определяют расходы. Если держать системные промпты и рассуждения на английском, а пользователю отдавать результат на нужном языке, операционные расходы при больших объёмах сокращаются на 40–60%.

Фора Софт применяет Agent Engineering на каждом проекте. Настроенные агенты, память проекта и тонкий внутренний слой ИИ-инфраструктуры сжимают типовой 12-недельный MVP до 4–8 недель. Ниже мы делимся шаблонами конфигурации — или внедрим их вместе с вами.

Почему этот гайд написала Фора Софт

Фора Софт выпускает программные продукты с 2005 года и интегрирует ИИ-функциональность в продукты клиентов с 2018 года. С 2024 года мы ведём внутреннюю практику Agent Engineering на каждом проекте — файлы памяти, правила, выбор модели, права доступа и переиспользуемые модули задач встроены в наш способ работы. Нас знают как экспертов по интеграции ИИ, разработчиков ИИ-агентов на LiveKit, разработчиков голосовых ИИ-агентов для звонков и специалистов по ИИ-распознаванию видео.

Этот гайд — версия разговора, который мы каждую неделю ведём с инженерными лидерами, разочарованными первым внедрением ИИ. Сценарий повторяется: чат-окно, несколько неплохих ответов, тихий откат назад. Решение — почти никогда не «лучший промпт», а лучший контекст. Ниже разбираем, что такое контекст-инжиниринг на практике: что он стоит, что он даёт и где ломается.

Первое внедрение ИИ не оправдало ожиданий?

Позвоните или напишите — за 30 минут проведём аудит контекста и подскажем три быстрых улучшения для вашего стека. Без презентаций и обязательств.

Позвоните нам → Напишите нам →

Что такое контекст-инжиниринг на самом деле

Контекст-инжиниринг — это практика структурирования всего, что нужно ИИ-модели для пользы в конкретной среде: память проекта, правила, права доступа, поиск, инструменты и соглашения. Цель — чтобы каждое взаимодействие начиналось с высокой базовой осведомлённости, а не «с чистого листа».

Промпт — это разовая инструкция. Контекст — это постоянная среда. Промпт говорит «ответь на этот вопрос». Контекст сообщает модели, какой у вас стек, какие соглашения действуют, какие файлы трогать можно, какие тесты прогнать после изменений и какие ошибки повторять нельзя. Первое — тактика, второе — инфраструктура.

В современных ИИ-инструментах для разработки — Claude Code, Cursor, Codex, Aider, GitHub Copilot Workspace — это живёт в файлах CLAUDE.md, AGENTS.md, .cursorrules и в .rules.md по папкам, а также в MCP-серверах, которые соединяют модели с вашими базами данных, тикет-системами и CI. Дисциплина одна и та же: задайте контекст один раз и переиспользуйте его всегда.

Почему одних промптов на масштабе недостаточно

В рабочем процессе «только промпты» вы каждый раз заново объясняете одно и то же: что это за проект, какой стек, какие соглашения, какие архитектурные ограничения, какие файлы под запретом. Эти повторения неэффективны, провоцируют ошибки и заставляют модель додумывать то, что вы забыли упомянуть.

Параметр Только промпты С настроенным контекстом
Стартовые затраты Ноль, но платите за каждый запрос 1–3 дня, окупается ежедневно
Стабильность результата Сильно колеблется Ограничен правилами, предсказуем
Соблюдение соглашений Случайное Жёстко через правила
Случайный доступ к файлам Возможен Закрыт правами доступа
Расход токенов на задачу Высокий (пересказ контекста) Ниже (ленивая загрузка)
Онбординг новых разработчиков Племенные знания Самодокументируемый

Большая часть качества ответов ИИ берётся не из изобретательности промптов. Она берётся из качества контекста и дисциплины конфигурации.

Четыре компонента контекста промышленного уровня

1. Память проекта. Небольшой набор файлов с описанием стека, архитектуры, соглашений, команд сборки и ключевых продуктовых решений. Это то, что модель читает в начале сессии. Держите её небольшой и актуальной: устаревшая память хуже отсутствующей.

2. Модульные правила. Включаются по условию. Правила фронтенда применяются к файлам .tsx. Инфраструктурные правила — к Docker и Terraform. Выборочная активация снижает шум и повышает точность.

3. Ленивая подгрузка контекста. Вместо того чтобы заваливать модель 50 файлами документации, подгружайте релевантное по запросу. Под это сделаны инструменты вроде @docs в Cursor и ссылок на файлы в Claude. Расход токенов падает, точность остаётся.

4. Права доступа и инструменты. Определите, что агенту разрешено запускать. Можно: линтер, тесты, сборки. Нельзя: продакшен-секреты, удаление инфраструктуры, биллинговые эндпоинты. MCP-серверы открывают модели доступ к вашим базам данных, тикет-системам и системам мониторинга в рамках явно заданных прав.

Где контекст-инжиниринг даёт максимальный эффект — по типам задач

Задача Экономия времени (с настройкой) Почему это работает
Разбор багов 40–60% Стек, логи и контекст репозитория быстро сужают круг гипотез
Генерация тестов 50–70% Соглашения и знание фреймворка дают идиоматичные тесты
Проверка кода (первый проход) 30–50% Проверки по правилам ловят 80% механических замечаний
Черновики документации 50–70% Файлы — источник истины, и они же становятся документацией
Бойлерплейт и каркасы 60–80% Шаблоны и соглашения = думать не приходится
Архитектура с нуля 10–25% Решения требуют суждения; ИИ помогает, но не ведёт
Глубокий рефакторинг легаси 15–30% Ограничения по длинному контексту и риск регрессий

Время, потраченное на конфигурацию для задач из верхней части таблицы, экономит время каждый спринт. Архитектура и глубокий рефакторинг по-прежнему остаются работой сеньоров с высокой долей суждения.

ИИ уже встроен во весь SDLC, а не только в инженерию

Инженерия. Claude Sonnet 4.5, GPT-5 и Gemini 2.5 Pro решают 75–82% задач SWE-bench Verified — против ~65% год назад. Доля решённых реальных issue в репозиториях растёт синхронно.

QA. Настроенные агенты генерируют тест-кейсы, находят крайние случаи, разбирают трейсы и предлагают первопричины. С контекстом, знающим репозиторий, время разбора продакшен-багов падает на 40–60%. Подробнее об ИИ для болей QA и об оптимизации тестирования с ИИ — в наших отдельных материалах.

Дизайн. Генеративные инструменты собирают вайрфреймы, варианты UI и черновики прототипов за минуты. Дизайнеры быстрее итерируются, а не уходят со сцены.

Продукт и аналитика. Модели находят противоречия в требованиях, предлагают критерии приёмки, сжимают длинные PRD и подсвечивают пропущенные ограничения.

Операции. ИИ-агенты сортируют обращения в поддержку, делают саммари входящих, сводят финансовые данные и пишут маркетинговые тексты — часто без кода, на low-code-платформах для агентов.

Мини-кейс: как контекст-инжиниринг выглядел на проекте Фора Софт

Ситуация. Микросервисный бэкенд (Node.js, NestJS, MongoDB) и мобильное приложение на React Native, средний по объёму проект, четверо инженеров, в том числе двое сеньоров. Команда использовала Claude Sonnet для разовых вопросов и оценивала прирост продуктивности «процентов на 10», без измеримых изменений в скорости поставок.

Что мы поменяли в первую неделю. Написали CLAUDE.md на 60 строк со стеком, командами сборки, соглашениями и кратким обзором архитектуры. Добавили .rules.md по папкам — для бэкенда, мобильного и общих типов. Подключили MCP-сервер для Linear, чтобы агент читал тикеты и собирал черновики PR. Зафиксировали права на файлы: чтение везде, запись только в /src, никогда — в /infra или .env.

Что изменилось со 2-й по 6-ю неделю. Скорость спринта по числу слитых PR выросла на 35%. Медианное время разбора продакшен-багов упало с 3,5 часов до 1,4. Агент нашёл утечку данных сессии при выходе пользователя, поправил OAuth-флоу в десктоп-обёртке и перенёс фильтрацию с клиента на сервер — каждое изменение в рамках одного тикета. В режиме «только промпты» ничего из этого так быстро не доехало бы до релиза.

Вывод: 1–3 дня настройки контекста дали изменения, которые команда чувствовала каждый день до конца проекта.

Как выбрать правильную модель под задачу

«Лучшего ИИ» не существует. Существует лучший ИИ под конкретную нагрузку. Следите за бенчмарками так же, как следите за производительностью инфраструктуры — объективно.

Семейство моделей Сильная сторона Под что брать
Claude Sonnet / Opus 4.x Длинный контекст, агенты для кода Код, рефакторинг, агентские сценарии
GPT-5 / GPT-5.1 Универсальность, структурированный вывод Смешанное рассуждение и инструменты, голосовые агенты
Gemini 2.5 Pro Мультимодальность, очень длинный контекст Видео и изображения, саммари по большому коду
Claude Haiku / GPT-5 mini Скорость и стоимость Массовая классификация и роутинг
Открытые модели (Llama, Qwen, DeepSeek) Self-host, локализация данных Регулируемые отрасли, on-prem

Бенчмарки, за которыми стоит следить: SWE-bench Verified, Aider Polyglot, LMArena, GPQA Diamond, ARC-AGI. Смотрите независимые сторонние рейтинги, не верьте бенчмаркам вендоров на слово.

Нужно подобрать модели под ваш стек?

Пришлите профиль задач, бюджет по латентности и бюджет по деньгам. В ответ — рекомендации на одну страницу с расчётом стоимости задачи.

Позвоните нам → Напишите нам →

Экономика: токены, язык и дисциплина расходов

Стоимость ИИ измеряется в токенах. На больших объёмах маленькие выигрыши в токеновой эффективности складываются в реальные деньги.

Язык важен. Не-английский язык может занимать в 2–3 раза больше токенов на один и тот же текст. Для чат-ботов, агентов и саммари на больших объёмах держите системные промпты и цепочки рассуждений на английском, а финальный ответ пользователю отдавайте на нужном языке. Типовой выигрыш — 40–60% при объёме от 10 тыс. сообщений в день.

Кэшируйте агрессивно. Современные API (Anthropic, OpenAI) поддерживают кэширование промптов для системных сообщений и стабильного контекста. Документация, которая не меняется ежедневно, должна быть в кэше, а не в промпте.

Стройте «многоуровневую» работу с моделями. Дешёвые модели (Claude Haiku, GPT-5 mini) — для классификации и роутинга. Дорогие (Sonnet, Opus, GPT-5) — только для действительно сложных рассуждений. Многие команды переплачивают, отправляя любую задачу на флагман.

Подгружайте контекст лениво. Включить в промпт 50 документов — это в 50 раз дороже, чем один релевантный. Используйте поиск (RAG) или ссылки на файлы, не «закидывайте» модель.

От одного агента — к ИИ-инфраструктуре

За пределами «настроенного одиночного агента» зрелые команды теперь используют ИИ как инфраструктуру.

Переиспользуемые модули задач. Повторяющиеся сценарии — триаж багов, ревью PR, черновики release notes — живут в версионируемых файлах задач. Запускаются одной командой; в них зафиксированы и нужная модель, и нужный промпт, и нужные инструменты.

MCP-интеграции. Model Context Protocol даёт агентам доступ к внешним системам (базы данных, тикеты, мониторинг, поиск) в рамках явных разрешений. Мы подключаем MCP к GitHub, Linear, Jira, Sentry, Postgres и Slack почти на каждом проекте. Подробный пример с голосовыми агентами в реальном времени мы разбираем в отдельном гайде по разработке ИИ-агентов на LiveKit.

Координация нескольких агентов. Оркестратор раздаёт подзадачи специализированным агентам параллельно: один разбирает логи, другой пишет тесты, третий собирает описание PR. Оркестратор сводит результаты и отдаёт на ревью. Подходящие фреймворки: LangGraph, CrewAI, computer-use от Anthropic, кастомные внутрипроцессные пайплайны.

Событийные хуки. «На каждое открытие PR — запускаем агента-линтер. На каждый деплой в стейджинг — запускаем агента smoke-тестов». ИИ в CI/CD в 2026 году — это уже не эксперимент, а штатный режим.

Безопасность и права доступа: что чаще всего пропускают

1. Права на уровне файлов. Запись только в /src. Никогда не давайте агенту трогать .env, инфраструктуру или миграции без явного подтверждения для каждого вызова.

2. Права на уровне инструментов. Агент может запускать линтер, тесты и сборки. Деплоить, запускать продакшен-миграции или дёргать биллинговые эндпоинты — нет, без подтверждения человеком.

3. Дисциплина по секретам. Никаких реальных секретов — в промптах, в файлах, видимых агенту, и в ответах MCP. Используйте Doppler, Infisical или AWS Secrets Manager с чтением по ограниченным токенам.

4. Ревью результата. Любой PR, открытый агентом, должен пройти проверку человеком до слияния. Агент — не ваш сеньор; это ваш быстрый джун.

5. Логирование и аудит. Логируйте каждое действие агента: промпт, вызовы инструментов, диффы. Эти логи понадобятся в первый же раз, когда что-то пойдёт не так.

График внедрения: реалистичный roll-out контекст-инжиниринга

Этап Дни Результат
Аудит 1 Инвентаризация стека, соглашений, «горячих» задач
Память проекта 1 Один CLAUDE.md / AGENTS.md, <100 строк
Модульные правила 1 Правила по папкам для FE / BE / инфраструктуры
MCP-интеграции 1–2 Linear / Jira, Sentry, Postgres, Slack
Права и секреты 1 Закрывающие правила, менеджер секретов
Пилотные задачи 3–5 5–10 реальных тикетов, замеры дельты
Раскатка 5–10 Онбординг команды, дашборд KPI

Итого: примерно 12–20 рабочих дней end-to-end. Большинство команд видят измеримый прирост продуктивности уже на второй неделе.

Фреймворк решения: где инвестировать в контекст-инжиниринг — пять вопросов

1. Какова доля рутинной работы у вашей команды по сравнению с творческой? Чем выше доля рутины — тем выше отдача от контекст-инжиниринга. На стэках с большим объёмом бойлерплейта выигрыш доходит до 50%+, на ресёрч-задачах — 15–25%.

2. Есть ли у вас стабильные соглашения, которые можно зафиксировать? Правила работают только там, где соглашения уже есть. Если команда в середине переписывания или каждую неделю спорит о соглашениях, начните с соглашений.

3. Куда уходят токены? Снимите статистику за неделю. Если 70% уходит на один тип задач — это самая выгодная цель для конфигурации.

4. Какие применимы требования по комплаенсу? Регулируемые данные (PHI, PII, финансовые) требуют self-hosted моделей или вендорских BAA, сужают выбор моделей и формируют дизайн прав доступа.

5. Кто отвечает за конфигурацию? Назначьте одного ответственного инженера, который ведёт файлы контекста. Устаревшая память съедает продуктивность быстрее, чем её отсутствие.

Пять граблей, на которые наступают каждый квартал

1. Воспринимать ИИ как чат-бот, а не как инфраструктуру. Чат-окно — это вершина айсберга. Реальные выигрыши приносят настроенные агенты, MCP и переиспользуемые модули задач.

2. Устаревшая память проекта. CLAUDE.md, который последний раз обновляли полгода назад, уведёт агента в уверенно-неверные решения. Относитесь к памяти как к коду — пересматривайте на каждой смене архитектуры.

3. Всегда брать флагманскую модель. Если все задачи идут на Opus или GPT-5, бюджет уходит на классификацию, которую Haiku или mini делают в 1/20 цены. Стройте многоуровневое использование моделей.

4. Игнорировать права доступа. Агент с шеллом и широкими правами на запись — это будущий инцидент. Закрывайте доступ до раскатки, а не после.

5. Нет плана измерений. Без бейзлайна по числу слитых PR, времени разбора багов или покрытию тестами вы не докажете выигрыш. Измеряйте с первого дня.

KPI, по которым видно, что контекст-инжиниринг работает

KPI качества. Доля «утечки» дефектов на PR с участием ИИ — <5%. Прирост покрытия тестами >5% за квартал. Плотность замечаний на ревью (комментариев на PR) — >1,5: агент не должен пропускать «шлак».

Бизнес-KPI. Число PR на инженера — >1,4× от бейзлайна. Время до первого PR на новой фиче — <0,7× от бейзлайна. Медианное время разбора бага — <1,5 часа. Расход токенов на слитый PR — <225 ₽ при использовании только флагманской модели и <37 ₽ при многоуровневом роутинге.

KPI надёжности. Регрессии, привнесённые агентом, — <1% релизов. Продакшен-инциденты, связанные с изменениями агента, — <1 в квартал. Среднее время отката плохого PR от агента — <30 минут.

Роли в команде с настроенным контекстом

Владелец контекста. Один ответственный инженер ведёт память проекта и правила. Пересматривает их при каждой смене архитектуры. Отвечает за вопрос «знает ли агент про X?».

Лид по инструментарию. Отвечает за MCP-интеграции, маршрутизацию моделей, дашборды стоимости и права доступа. Часто это тот же человек, что и платформенный инженер.

Инженеры и QA. Используют настроенных агентов в ежедневной работе. Подсвечивают пробелы в памяти и правилах. Относятся к выводу агента так же, как к PR от джуниора, — с быстрым ревью и понятной обратной связью.

Инженерный менеджер. Раз в неделю смотрит дашборды KPI. Ловит всплески расходов на ранней стадии. Сопротивляется соблазну ввести политику «используем ИИ везде» или «запрещаем ИИ» — обе крайности неверны.

Когда контекст-инжиниринг — это не та инвестиция

Пропустите конфигурационный этап, если у вас меньше трёх инженеров и кодовая база меньше 10 тыс. строк, — один хорошо написанный промпт закроет большую часть задач, а накладные расходы не окупятся. Пропустите, если проект в фазе переписывания и соглашения нестабильны: правила устареют через две недели. Пропустите, если требования по комплаенсу запрещают облачный ИИ полностью, а бюджета на self-hosted модели нет.

Во всех остальных случаях — команда среднего размера, стабильные соглашения, реальная кодовая база — настройка окупается за две недели.

Нужна помощь с раскаткой контекст-инжиниринга?

Мы делали это на десятках стеков. Напишем ваш CLAUDE.md, подключим MCP, закроем права и измерим дельту — за 2-недельный спринт, а не за квартал.

Позвоните нам → Напишите нам →

FAQ

В чём разница между ИИ-чат-ботом и ИИ-агентом?

Чат-бот отвечает на отдельные вопросы. ИИ-агент работает в настроенной среде с памятью проекта, правилами, правами доступа и инструментами. Разница — в постоянстве и глубине контекста, а не в силе модели.

Что такое контекст-инжиниринг?

Это практика структурирования памяти, правил, прав доступа и поиска так, чтобы ИИ-модель начинала каждую задачу с высокой базовой осведомлённости. Вместо повторения инструкций в каждом промпте — задайте их один раз и переиспользуйте. Дисциплина проявляется в файлах CLAUDE.md, AGENTS.md, .cursorrules и в конфигурациях MCP-серверов.

Заменяют ли ИИ-агенты разработчиков и QA-инженеров?

Нет. Они снижают рутинную нагрузку — разбор багов, генерация тестов, первый проход код-ревью, черновики документации. Архитектурная ответственность, суждения по сложным компромиссам и финальная валидация остаются за людьми.

Какой реалистичный прирост продуктивности?

В структурированных средах — 30–50% ускорения на рутинной инженерной работе. Выше — на генерации тестов, ниже — на архитектуре и глубоком рефакторинге. Конкретное число зависит от зрелости бейзлайна и дисциплины конфигурации.

Почему конфигурация важнее промптов?

Промпты временны, конфигурация постоянна. Постоянный контекст снижает неоднозначность, обеспечивает соблюдение соглашений и накапливает выигрыш в продуктивности со временем. Команда, вложившая 2 дня в CLAUDE.md, правила и подключение MCP, продолжает экономить каждый спринт.

Как удержать расходы на токены при росте объёма?

Стройте многоуровневое использование моделей (дешёвые для роутинга, флагман — на сложные задачи). Кэшируйте стабильные системные промпты. Подгружайте контекст лениво, не «закидывайте» 50 документов сразу. Держите системные промпты и рассуждения на английском, финальный ответ отдавайте на нужном языке. Совокупный эффект — 40–60% экономии при больших объёмах.

Какую модель выбрать для работы с кодом в 2026?

Claude Sonnet или Opus 4.x — для агентских сценариев и длинного контекста. GPT-5 — для смешанного рассуждения с инструментами и для голосовых агентов. Gemini 2.5 Pro — для мультимодальных задач и саммари по очень большому коду. Открытые модели (Llama, Qwen, DeepSeek) — для self-hosted, регулируемых отраслей и on-prem. Универсальной «лучшей» модели нет — выбирайте по профилю задачи.

Как выглядит ИИ-аудит безопасности при раскатке агентов?

Права на запись закрыты только безопасными директориями. На уровне инструментов исключены продакшен, биллинг и миграции. Секреты — за менеджером (Doppler, Infisical, AWS Secrets Manager) с чтением по ограниченным токенам. Обязательное ревью человеком на каждом PR от агента. Аудит-логирование каждого вызова инструмента. Всё это мы закладываем в плейбук раскатки.

Кейс

ИИ в разработке ПО — реальный кейс

Разбор контекст-инжиниринга на проекте Фора Софт с измеренным приростом скорости поставок.

QA

ИИ для болей QA

Где ИИ надёжнее всего снижает рутину QA — и где не помогает.

Тестирование

Оптимизация тестирования с ИИ

Шаблоны для использования настроенных агентов в сжатии тест-циклов.

Голосовые агенты

Разработка ИИ-агентов на LiveKit

Голосовые агенты с задержкой меньше секунды — следующий уровень контекст-инжиниринга.

ASR

Лучшее ПО для распознавания речи на ИИ

Когда качество агента упирается в задержку ASR — короткий список моделей.

Готовы относиться к ИИ как к инфраструктуре, а не как к окошку чата?

Продуктивность ИИ в 2026 году ограничена контекстом, а не «хитростью» промптов. Команды, у которых выигрыши накапливаются, — это те, кто вложил 1–3 дня в память проекта, модульные правила, MCP-интеграции и права доступа, и снимает экономию каждый последующий день. Те, кто всё ещё печатает «умные» промпты в чат-окошко, продолжают удивляться, почему ИИ «не особо помогает».

Фора Софт раскатывала такую настройку на десятках стеков — greenfield, легаси, регулируемых, мультикомандных. Мы можем провести аудит вашего контекста, написать память и правила, подключить MCP, закрыть права и измерить дельту в рамках 2-недельного спринта. Или научить вашу команду делать это самостоятельно. В любом случае выигрыш виден на второй неделе.

Обсудим раскатку контекст-инжиниринга

За 30 минут проведём аудит, дадим план на 2 недели и честно скажем, чего ждать. Без презентаций и обязательств.

Позвоните нам → Напишите нам →

  • Разработка
    Процессы