5 уровней зрелости AI-агентов: на каком вы?

Sergey Golubev 2026-03-11 6 мин чтения
🌐 Read in English

agents maturity levels improve claude code

За одну неделю три независимых обсуждения в AI-комьюнити сложились в один фреймворк. Речь шла о том, как одна строчка в промпте улучшает качество генерации. Как автоматизировать создание агентов. И как тестировать агентов детерминированно.

Оказывается, все они описывают одну лестницу. 5 уровней зрелости AI-агентов.

Level 1: Ручной контроль

Вы пишете промпт, агент выдаёт результат, вы проверяете. Если плохо - правите промпт и пробуете снова.

Это знакомо каждому, кто использовал ChatGPT или Claude. Типичный сценарий: просите агента написать email, получаете черновик, читаете, правите промпт (“сделай короче”, “добавь конкретики”), получаете новую версию, снова читаете.

Как это выглядит:

Вы: "Напиши письмо клиенту о задержке"
Агент: [генерирует текст]
Вы: [читаете] "Слишком формально, переделай"
Агент: [новая версия]
Вы: [читаете] "Теперь пойдёт"

Вы - главный инспектор качества. Без вас агент не может сдать работу.

Проблема: масштабируется плохо. Каждая задача требует вашего внимания. 10 агентов = 10 раз проверить.

Level 2: Reflection (самопроверка)

Добавляете в инструкцию: “Проверь результат перед отправкой и исправь ошибки”.

Пример из практики: продакт-инженер в одном стартапе добавил в промпт для генерации презентаций одну фразу - “Сгенерируй превью всех слайдов, просмотри их сам и исправь проблемы”. Качество выросло заметно. Буквально одна фраза - и агент начинает ловить свои ошибки.

Andrew Ng называет reflection одним из четырёх ключевых агентных паттернов. На курсе Agentic AI он показывает: агент, который проверяет себя, работает лучше даже без изменения модели.

Как это выглядит:

Системный промпт:
"Ты агент для написания писем.
ПЕРЕД отправкой:
1. Проверь, что tone соответствует аудитории
2. Убедись, что есть конкретный CTA
3. Если длина > 200 слов - сократи
Только после этого отправь результат."

Почему это работает:

Есть паттерн Self-Critique Agent: draft → critique → revise. Агент сначала пишет черновик, потом сам себя критикует по чек-листу, потом делает один исправленный вариант.

Интересное наблюдение: даже когда self-review ничего не ловит, косяков в целом становится меньше. Как будто сама инструкция “проверь свою работу” меняет качество генерации ещё до ревью. Хоторнский эффект для AI - когда знают, что будут оценивать, работают лучше.

Попробуйте сами: в следующий раз добавьте в промпт “Перед ответом проверь его на ошибки и исправь”. Результат удивит.

Level 3: Тестирование агентов

Теперь агент работает в детерминированной среде с набором проверок. Вы можете воспроизвести поведение, понять где сломался, и исправить системно.

Подход, который используют для соревнований по AI-агентам:

  1. Заводим виртуальную среду, где контролируем всё (deterministic simulation)
  2. Добавляем энтропию (randomness), чтобы агент не выучил ответы. Запоминаем seed.
  3. Описываем кейс - наполняем среду деталями
  4. Знаем правильные ответы - потому что сами создали среду
  5. Пишем проверки - сравниваем ожидания с действиями агента

Ключевая идея: агент может быть недетерминирован, но тестирование - детерминировано. Фиксируем seed + среду = воспроизводимые тесты.

Пример из практики:

Тестируем агента для обработки заказов. Создаём виртуальную среду с 10 тестовыми заказами. Для каждого знаем: какой статус правильный, какой email отправить, какую сумму списать. Запускаем агента 100 раз с разными seed. Считаем accuracy.

Microsoft Research развивает это направление с проектом Agent-Pex - инструментом для автоматической оценки агентных трейсов. Он парсит промпты и трейсы, извлекает checkable rules и автоматически определяет, нарушены ли они.

Инженерный сдвиг: не “попробуем другой промпт”, а “напишем тест-кейс”. Как unit-тесты, только для AI-агентов.

Level 4: Мета-агенты

Агент создаёт или улучшает других агентов.

Типичный путь к этому уровню:

  1. Просим агента решить задачу, Сами учимся как её правильно решать
  2. Показываем коллегам, итерируем
  3. Показываем клиенту, итерируем
  4. Проходим тот же процесс на втором и третьем клиенте
  5. Подключаем Claude Code или другой агент и просим прогнать воркфлоу 10 раз и выработать критерии
  6. Запускаем агента гонять агентов и корректировать инструкцию пока не 10 из 10
  7. Просим агента создать воркфлоу по адаптации воркфлоу

На шаге 6 появляется мета-агент: один агент тестирует другого и правит его инструкцию.

Как это работает:

Исследователи описывают это как “Meta-Agent that designs other agents automatically from task description”. Мета-агент:

  • Анализирует задачу
  • Выбирает инструменты
  • Настраивает память
  • Конфигурирует планировщик
  • Создаёт рабочего агента

AOrchestra (фреймворк от исследователей из Китая) делает это через оркестратора: он получает задачу, создаёт суб-агента под неё, передаёт контекст, выбирает инструменты и модель, запускает. Потом создаёт следующего суб-агента для следующего шага.

Level 5: Самоадаптация

Агент автономно адаптирует свою архитектуру и контекст под новые условия. Не просто создаёт агентов - меняет себя.

Microsoft Research представила ACE (Agentic Context Engineering) - фреймворк, где контексты это “evolving playbooks”: накапливают, уточняют и организуют стратегии через модульный процесс генерации, рефлексии и кураторства.

Ключевое отличие от Level 4:

Level 4 (Мета-агенты)Level 5 (Самоадаптация)
Создаёт других агентовМеняет свою архитектуру
Фиксированный мета-агентЭволюционирующий агент
Работает по шаблонуУчится из execution feedback

ACE показывает результат: +10.6% на агентных бенчмарках, +8.6% на finance задачах. Важно: адаптация работает без labelled supervision - агент учится из естественного feedback выполнения.

Amazon AWS в гайдах по agentic системам пишет: self-reflection требует оценки на всех этапах - рассуждение, использование инструментов, работа с памятью, выполнение действий. На уровне 5 эта оценка встроена в цикл работы агента.

Диагностика: где вы?

Проверьте себя:

  • Level 1: Вы правите промпты после каждого результата. Каждый запуск агента требует вашего внимания.
  • Level 2: Ваши агенты проверяют себя сами перед отправкой. Вы добавили “проверь результат” в системный промпт.
  • Level 3: У вас есть тесты для агентов. Вы можете воспроизвести ошибку с тем же seed.
  • Level 4: Агенты создают агентов. Мета-агент координирует суб-агентов.
  • Level 5: Агенты адаптируются автономно. Система эволюционирует без вашего участия.

Что понял

Тренд чёткий: переходим от “промпт-инженерии” к “агентной инженерии”.

Промпт-инженерия - это “как спросить, чтобы получить хороший ответ”. Агентная инженерия - это “как построить систему, которая сама улучшает качество”.

Первый скилл становится базовым - как умение гуглить. Второй - конкурентным преимуществом.

Хорошая новость: начать просто. Level 2 доступен прямо сейчас, без инструментов и инфраструктуры. Добавьте одну строчку “проверь себя” в следующий промпт. Это минимум усилий с измеримым результатом.

Level 3 потребует уже инженерного мышления - думать тестами, а не промптами. Level 4 и 5 - это продвинутая территория, где пока немногие. Но тренд именно туда.

Источники

  1. Andrew Ng - Agentic AI Course - 4 ключевых паттерна, включая Reflection
  2. Self-Critique Agent Pattern - draft → critique → revise архитектура
  3. Simulation for Agentic Evaluation - детерминированное тестирование агентов
  4. Agent-Pex - Microsoft Research - автоматическая оценка агентных трейсов
  5. ACE - Agentic Context Engineering - self-adapting агенты от Microsoft
  6. AOrchestra - Agentic Orchestration - автоматическое создание суб-агентов
  7. Amazon AWS - Evaluating AI Agents - self-reflection в продакшне