5 уровней зрелости AI-агентов: на каком вы?

Sergey Golubev 2026-03-11 6 мин чтения

agents maturity levels improve claude code

За одну неделю три независимых обсуждения в AI-комьюнити сложились в один фреймворк. Речь шла о том, как одна строчка в промпте улучшает качество генерации. Как автоматизировать создание агентов. И как тестировать агентов детерминированно.

Оказывается, все они описывают одну лестницу. 5 уровней зрелости AI-агентов.

Level 1: Ручной контроль

Вы пишете промпт, агент выдаёт результат, вы проверяете. Если плохо - правите промпт и пробуете снова.

Это знакомо каждому, кто использовал ChatGPT или Claude. Типичный сценарий: просите агента написать email, получаете черновик, читаете, правите промпт (“сделай короче”, “добавь конкретики”), получаете новую версию, снова читаете.

Как это выглядит:

Вы: "Напиши письмо клиенту о задержке"
Агент: [генерирует текст]
Вы: [читаете] "Слишком формально, переделай"
Агент: [новая версия]
Вы: [читаете] "Теперь пойдёт"

Вы - главный инспектор качества. Без вас агент не может сдать работу.

Проблема: масштабируется плохо. Каждая задача требует вашего внимания. 10 агентов = 10 раз проверить.

Level 2: Reflection (самопроверка)

Добавляете в инструкцию: “Проверь результат перед отправкой и исправь ошибки”.

Пример из практики: продакт-инженер в одном стартапе добавил в промпт для генерации презентаций одну фразу - “Сгенерируй превью всех слайдов, просмотри их сам и исправь проблемы”. Качество выросло заметно. Буквально одна фраза - и агент начинает ловить свои ошибки.

Andrew Ng называет reflection одним из четырёх ключевых агентных паттернов. На курсе Agentic AI он показывает: агент, который проверяет себя, работает лучше даже без изменения модели.

Как это выглядит:

Системный промпт:
"Ты агент для написания писем.
ПЕРЕД отправкой:
1. Проверь, что tone соответствует аудитории
2. Убедись, что есть конкретный CTA
3. Если длина > 200 слов - сократи
Только после этого отправь результат."

Почему это работает:

Есть паттерн Self-Critique Agent: draft → critique → revise. Агент сначала пишет черновик, потом сам себя критикует по чек-листу, потом делает один исправленный вариант.

Интересное наблюдение: даже когда self-review ничего не ловит, косяков в целом становится меньше. Как будто сама инструкция “проверь свою работу” меняет качество генерации ещё до ревью. Хоторнский эффект для AI - когда знают, что будут оценивать, работают лучше.

Попробуйте сами: в следующий раз добавьте в промпт “Перед ответом проверь его на ошибки и исправь”. Результат удивит.

Level 3: Тестирование агентов

Теперь агент работает в детерминированной среде с набором проверок. Вы можете воспроизвести поведение, понять где сломался, и исправить системно.

Подход, который используют для соревнований по AI-агентам:

Заводим виртуальную среду, где контролируем всё (deterministic simulation)
Добавляем энтропию (randomness), чтобы агент не выучил ответы. Запоминаем seed.
Описываем кейс - наполняем среду деталями
Знаем правильные ответы - потому что сами создали среду
Пишем проверки - сравниваем ожидания с действиями агента

Ключевая идея: агент может быть недетерминирован, но тестирование - детерминировано. Фиксируем seed + среду = воспроизводимые тесты.

Пример из практики:

Тестируем агента для обработки заказов. Создаём виртуальную среду с 10 тестовыми заказами. Для каждого знаем: какой статус правильный, какой email отправить, какую сумму списать. Запускаем агента 100 раз с разными seed. Считаем accuracy.

Microsoft Research развивает это направление с проектом Agent-Pex - инструментом для автоматической оценки агентных трейсов. Он парсит промпты и трейсы, извлекает checkable rules и автоматически определяет, нарушены ли они.

Инженерный сдвиг: не “попробуем другой промпт”, а “напишем тест-кейс”. Как unit-тесты, только для AI-агентов.

Level 4: Мета-агенты

Агент создаёт или улучшает других агентов.

Типичный путь к этому уровню:

Просим агента решить задачу, Сами учимся как её правильно решать
Показываем коллегам, итерируем
Показываем клиенту, итерируем
Проходим тот же процесс на втором и третьем клиенте
Подключаем Claude Code или другой агент и просим прогнать воркфлоу 10 раз и выработать критерии
Запускаем агента гонять агентов и корректировать инструкцию пока не 10 из 10
Просим агента создать воркфлоу по адаптации воркфлоу

На шаге 6 появляется мета-агент: один агент тестирует другого и правит его инструкцию.

Как это работает:

Исследователи описывают это как “Meta-Agent that designs other agents automatically from task description”. Мета-агент:

Анализирует задачу
Выбирает инструменты
Настраивает память
Конфигурирует планировщик
Создаёт рабочего агента

AOrchestra (фреймворк от исследователей из Китая) делает это через оркестратора: он получает задачу, создаёт суб-агента под неё, передаёт контекст, выбирает инструменты и модель, запускает. Потом создаёт следующего суб-агента для следующего шага.

Level 5: Самоадаптация

Агент автономно адаптирует свою архитектуру и контекст под новые условия. Не просто создаёт агентов - меняет себя.

Microsoft Research представила ACE (Agentic Context Engineering) - фреймворк, где контексты это “evolving playbooks”: накапливают, уточняют и организуют стратегии через модульный процесс генерации, рефлексии и кураторства.

Ключевое отличие от Level 4:

Level 4 (Мета-агенты)	Level 5 (Самоадаптация)
Создаёт других агентов	Меняет свою архитектуру
Фиксированный мета-агент	Эволюционирующий агент
Работает по шаблону	Учится из execution feedback

ACE показывает результат: +10.6% на агентных бенчмарках, +8.6% на finance задачах. Важно: адаптация работает без labelled supervision - агент учится из естественного feedback выполнения.

Amazon AWS в гайдах по agentic системам пишет: self-reflection требует оценки на всех этапах - рассуждение, использование инструментов, работа с памятью, выполнение действий. На уровне 5 эта оценка встроена в цикл работы агента.

Диагностика: где вы?

Проверьте себя:

Level 1: Вы правите промпты после каждого результата. Каждый запуск агента требует вашего внимания.
Level 2: Ваши агенты проверяют себя сами перед отправкой. Вы добавили “проверь результат” в системный промпт.
Level 3: У вас есть тесты для агентов. Вы можете воспроизвести ошибку с тем же seed.
Level 4: Агенты создают агентов. Мета-агент координирует суб-агентов.
Level 5: Агенты адаптируются автономно. Система эволюционирует без вашего участия.

Что понял

Тренд чёткий: переходим от “промпт-инженерии” к “агентной инженерии”.

Промпт-инженерия - это “как спросить, чтобы получить хороший ответ”. Агентная инженерия - это “как построить систему, которая сама улучшает качество”.

Первый скилл становится базовым - как умение гуглить. Второй - конкурентным преимуществом.

Хорошая новость: начать просто. Level 2 доступен прямо сейчас, без инструментов и инфраструктуры. Добавьте одну строчку “проверь себя” в следующий промпт. Это минимум усилий с измеримым результатом.

Level 3 потребует уже инженерного мышления - думать тестами, а не промптами. Level 4 и 5 - это продвинутая территория, где пока немногие. Но тренд именно туда.

Источники

Andrew Ng - Agentic AI Course - 4 ключевых паттерна, включая Reflection
Self-Critique Agent Pattern - draft → critique → revise архитектура
Simulation for Agentic Evaluation - детерминированное тестирование агентов
Agent-Pex - Microsoft Research - автоматическая оценка агентных трейсов
ACE - Agentic Context Engineering - self-adapting агенты от Microsoft
AOrchestra - Agentic Orchestration - автоматическое создание суб-агентов
Amazon AWS - Evaluating AI Agents - self-reflection в продакшне

Другие посты

Все посты →

Вайб-кодеры выросли

Вопросы в чатах вайб-кодеров эволюционировали от выбора модели до архитектуры и СУБД. Что это значит для PM-ов и прототипирования.

2026-03-12

Практический гайд по AI-адопшену в команде

8 стратегий органического внедрения AI - от песочницы для энтузиастов до перестройки системы оценки. Без давления сверху.

2026-03-06