
За одну неделю три независимых обсуждения в AI-комьюнити сложились в один фреймворк. Речь шла о том, как одна строчка в промпте улучшает качество генерации. Как автоматизировать создание агентов. И как тестировать агентов детерминированно.
Оказывается, все они описывают одну лестницу. 5 уровней зрелости AI-агентов.
Level 1: Ручной контроль
Вы пишете промпт, агент выдаёт результат, вы проверяете. Если плохо - правите промпт и пробуете снова.
Это знакомо каждому, кто использовал ChatGPT или Claude. Типичный сценарий: просите агента написать email, получаете черновик, читаете, правите промпт (“сделай короче”, “добавь конкретики”), получаете новую версию, снова читаете.
Как это выглядит:
Вы: "Напиши письмо клиенту о задержке"
Агент: [генерирует текст]
Вы: [читаете] "Слишком формально, переделай"
Агент: [новая версия]
Вы: [читаете] "Теперь пойдёт"
Вы - главный инспектор качества. Без вас агент не может сдать работу.
Проблема: масштабируется плохо. Каждая задача требует вашего внимания. 10 агентов = 10 раз проверить.
Level 2: Reflection (самопроверка)
Добавляете в инструкцию: “Проверь результат перед отправкой и исправь ошибки”.
Пример из практики: продакт-инженер в одном стартапе добавил в промпт для генерации презентаций одну фразу - “Сгенерируй превью всех слайдов, просмотри их сам и исправь проблемы”. Качество выросло заметно. Буквально одна фраза - и агент начинает ловить свои ошибки.
Andrew Ng называет reflection одним из четырёх ключевых агентных паттернов. На курсе Agentic AI он показывает: агент, который проверяет себя, работает лучше даже без изменения модели.
Как это выглядит:
Системный промпт:
"Ты агент для написания писем.
ПЕРЕД отправкой:
1. Проверь, что tone соответствует аудитории
2. Убедись, что есть конкретный CTA
3. Если длина > 200 слов - сократи
Только после этого отправь результат."
Почему это работает:
Есть паттерн Self-Critique Agent: draft → critique → revise. Агент сначала пишет черновик, потом сам себя критикует по чек-листу, потом делает один исправленный вариант.
Интересное наблюдение: даже когда self-review ничего не ловит, косяков в целом становится меньше. Как будто сама инструкция “проверь свою работу” меняет качество генерации ещё до ревью. Хоторнский эффект для AI - когда знают, что будут оценивать, работают лучше.
Попробуйте сами: в следующий раз добавьте в промпт “Перед ответом проверь его на ошибки и исправь”. Результат удивит.
Level 3: Тестирование агентов
Теперь агент работает в детерминированной среде с набором проверок. Вы можете воспроизвести поведение, понять где сломался, и исправить системно.
Подход, который используют для соревнований по AI-агентам:
- Заводим виртуальную среду, где контролируем всё (deterministic simulation)
- Добавляем энтропию (randomness), чтобы агент не выучил ответы. Запоминаем seed.
- Описываем кейс - наполняем среду деталями
- Знаем правильные ответы - потому что сами создали среду
- Пишем проверки - сравниваем ожидания с действиями агента
Ключевая идея: агент может быть недетерминирован, но тестирование - детерминировано. Фиксируем seed + среду = воспроизводимые тесты.
Пример из практики:
Тестируем агента для обработки заказов. Создаём виртуальную среду с 10 тестовыми заказами. Для каждого знаем: какой статус правильный, какой email отправить, какую сумму списать. Запускаем агента 100 раз с разными seed. Считаем accuracy.
Microsoft Research развивает это направление с проектом Agent-Pex - инструментом для автоматической оценки агентных трейсов. Он парсит промпты и трейсы, извлекает checkable rules и автоматически определяет, нарушены ли они.
Инженерный сдвиг: не “попробуем другой промпт”, а “напишем тест-кейс”. Как unit-тесты, только для AI-агентов.
Level 4: Мета-агенты
Агент создаёт или улучшает других агентов.
Типичный путь к этому уровню:
- Просим агента решить задачу, Сами учимся как её правильно решать
- Показываем коллегам, итерируем
- Показываем клиенту, итерируем
- Проходим тот же процесс на втором и третьем клиенте
- Подключаем Claude Code или другой агент и просим прогнать воркфлоу 10 раз и выработать критерии
- Запускаем агента гонять агентов и корректировать инструкцию пока не 10 из 10
- Просим агента создать воркфлоу по адаптации воркфлоу
На шаге 6 появляется мета-агент: один агент тестирует другого и правит его инструкцию.
Как это работает:
Исследователи описывают это как “Meta-Agent that designs other agents automatically from task description”. Мета-агент:
- Анализирует задачу
- Выбирает инструменты
- Настраивает память
- Конфигурирует планировщик
- Создаёт рабочего агента
AOrchestra (фреймворк от исследователей из Китая) делает это через оркестратора: он получает задачу, создаёт суб-агента под неё, передаёт контекст, выбирает инструменты и модель, запускает. Потом создаёт следующего суб-агента для следующего шага.
Level 5: Самоадаптация
Агент автономно адаптирует свою архитектуру и контекст под новые условия. Не просто создаёт агентов - меняет себя.
Microsoft Research представила ACE (Agentic Context Engineering) - фреймворк, где контексты это “evolving playbooks”: накапливают, уточняют и организуют стратегии через модульный процесс генерации, рефлексии и кураторства.
Ключевое отличие от Level 4:
| Level 4 (Мета-агенты) | Level 5 (Самоадаптация) |
|---|---|
| Создаёт других агентов | Меняет свою архитектуру |
| Фиксированный мета-агент | Эволюционирующий агент |
| Работает по шаблону | Учится из execution feedback |
ACE показывает результат: +10.6% на агентных бенчмарках, +8.6% на finance задачах. Важно: адаптация работает без labelled supervision - агент учится из естественного feedback выполнения.
Amazon AWS в гайдах по agentic системам пишет: self-reflection требует оценки на всех этапах - рассуждение, использование инструментов, работа с памятью, выполнение действий. На уровне 5 эта оценка встроена в цикл работы агента.
Диагностика: где вы?
Проверьте себя:
- Level 1: Вы правите промпты после каждого результата. Каждый запуск агента требует вашего внимания.
- Level 2: Ваши агенты проверяют себя сами перед отправкой. Вы добавили “проверь результат” в системный промпт.
- Level 3: У вас есть тесты для агентов. Вы можете воспроизвести ошибку с тем же seed.
- Level 4: Агенты создают агентов. Мета-агент координирует суб-агентов.
- Level 5: Агенты адаптируются автономно. Система эволюционирует без вашего участия.
Что понял
Тренд чёткий: переходим от “промпт-инженерии” к “агентной инженерии”.
Промпт-инженерия - это “как спросить, чтобы получить хороший ответ”. Агентная инженерия - это “как построить систему, которая сама улучшает качество”.
Первый скилл становится базовым - как умение гуглить. Второй - конкурентным преимуществом.
Хорошая новость: начать просто. Level 2 доступен прямо сейчас, без инструментов и инфраструктуры. Добавьте одну строчку “проверь себя” в следующий промпт. Это минимум усилий с измеримым результатом.
Level 3 потребует уже инженерного мышления - думать тестами, а не промптами. Level 4 и 5 - это продвинутая территория, где пока немногие. Но тренд именно туда.
Источники
- Andrew Ng - Agentic AI Course - 4 ключевых паттерна, включая Reflection
- Self-Critique Agent Pattern - draft → critique → revise архитектура
- Simulation for Agentic Evaluation - детерминированное тестирование агентов
- Agent-Pex - Microsoft Research - автоматическая оценка агентных трейсов
- ACE - Agentic Context Engineering - self-adapting агенты от Microsoft
- AOrchestra - Agentic Orchestration - автоматическое создание суб-агентов
- Amazon AWS - Evaluating AI Agents - self-reflection в продакшне