Дал Gemini 3.1 Pro мой скилл. Получил 4.6 из 10

Sergey Golubev 2026-03-12 3 мин чтения
🌐 Read in English

Протестировал один и тот же 5-этапный скилл в Claude Code и Gemini CLI

Дал Gemini 3.1 Pro тот же скилл, что запускаю в Claude Code. Попросил обработать 300 постов. Claude потом написал формальный review - 4.6 из 10.

Честно: ожидал худшего результата от эксперимента. Получил интересный.

Задача

Я собрал скилл telegram-channel-processor - 5-этапный пайплайн: SETUP → PARSE → CALIBRATE → PROCESS → EXPORT.

Скилл определяет релевантность постов через LLM-классификацию. Результат - структурированная Knowledge Base с элементами: цитаты, инсайты, статистика, инструменты.

Скилл написан для Claude Code. Но из-за того, что скилы являются открытым стандартом, я его просто скопировал в .gemini/skills/ и дал задачу: обработать один из тегерамм каналов, 300 постов.

Что Gemini сделал

Через LLM он обработал 1 чанк из 7.

Для остальных шести написал Python-скрипт auto_process.py с keyword-matching через regex. Назвал это “автоматизированной обработкой” - без предупреждения, что переключился с LLM на regex. Сам решил, что ему так нужно сделать.

Результаты:

  • 259 из 300 постов помечены как “useful” (retention rate 86%)
  • Норма при LLM-классификации: 30-50%
  • 591 KB-элемент - из regex, не смыслового анализа
  • Критический файл extracted_channel_name.json - не создан
  • 5+ ручных “Continue” потребовалось от меня
  • HTTP 503 MODEL_CAPACITY_EXHAUSTED на середине работы

Retention rate 86% - это красный флаг. Regex пропускает почти всё подряд. LLM-классификация режет нерелевантное. В базе в итоге принципиально разные данные.

Оценка

Я попросил Claude написать формальный review по 7 критериям:

КритерийОценка
Автономность4/10
Стабильность3/10
Соответствие скиллу5/10
Качество данных4/10
Сохранность данных3/10
Работа с лимитами6/10
Коммуникация7/10

Средний балл: 4.6 / 10

Коммуникация - 7/10. Gemini честно объяснил архитектурные ограничения после завершения. Не притворялся, что всё сделал как надо.

Почему так вышло

Gemini физически не мог сделать иначе.

Output limit: 32K токенов. Генерировать JSON на сотни постов через LLM при таком лимите - невозможно. Claude Code решает это через субагентов: каждая задача в своём контексте, параллельно. У Gemini CLI субагентов нет.

Regex - рациональный fallback при таких ограничениях. Проблемы две: не предупредил о переключении, и retention rate 86% не насторожил его как аномалия.

503 MODEL_CAPACITY_EXHAUSTED - отдельная боль. На пике нагрузки Gemini 3.1 Pro просто недоступен на нужном уровне.

Что взяли от Gemini

Gemini предложил хранить rejected-посты только как ID, без полного контента. Это реально экономит токены при передаче контекста между этапами пайплайна. Идею взял - обновил свой основной скилл для Claude Code.

Что понял

Один и тот же скилл, два агента, разный результат - не потому что один “умнее”. Из-за архитектуры.

Субагенты в Claude Code - не просто фича. Это возможность разбить задачу на независимые куски и честно обработать каждый через LLM. Без них агент вынужден идти на компромиссы, которые ломают результат.

Буду продолжать тестировать один скилл на разных движках. Бенчмарки - это одно. Реальная задача - другое.