Build vs Buy: транскрибатор за 2.5 вечера вместо подписки

Sergey Golubev 2026-02-09 4 мин чтения
🌐 Read in English

Локальный транскрибатор на Apple Silicon

$0.90 в месяц вместо $240 в год. Локальная транскрибация на Apple Silicon за 2.5 вечера работы.

Перепробовал несколько SaaS-сервисов для транскрибации. Otter.ai - $16.99/мес. Fireflies Pro - $18/мес. Notta Pro - $8.17/мес. У каждого лимиты на бесплатном плане и обязательная отправка аудио в облако.

А потом увидел PLAUD. Красивый AI-диктофон за $159-179. Подписка Pro - ~$100/год на 1 200 минут в месяц. Unlimited - ~$240/год. Или $30/мес помесячно.

Начал считать. Понял: могу запустить локально.

Что собрал

TranscribeFlow - open-source транскрибатор для Apple Silicon M1-M4.

Стек:

  • MLX Whisper - транскрибация прямо на GPU. Бесплатно. Выбрал его вместо OpenAI API - хотел локально. На M3 Pro 10 минут аудио - полторы минуты обработки. M4 Pro - 50 секунд. Даже на M1 с 8 GB - около трёх минут, для NDA-митингов это критично.
  • Pyannote - разделение спикеров. 9 000 звёзд на GitHub, MIT-лицензия. В сентябре 2025 выкатили community-1 модель с улучшенным подсчётом спикеров. Тоже бесплатно.
  • LLM-постобработка - Gemini Flash чистит текст, расставляет пунктуацию, предлагает имена спикерам по контексту разговора.
  • AI-инсайты по шаблонам - IT-митинг, бизнес-встреча, интервью, брейншторм. Каждый шаблон вытаскивает своё: решения, action-items, риски.
  • Compare-view - транскрипт до и после обработки рядом. Видно, что именно LLM поправил.
  • Mindmap - ключевые решения в виде карты. Удобно для ретроспективы.

Есть фоллбэк на облачные движки: ElevenLabs, Deepgram, AssemblyAI. Пока не пришлось.

92% кода написано автономно агентами Claude Code. Я задавал направление, ревьюил результат, правил архитектурные решения.

Build vs Buy - когда строить?

Когда я начинал считать, все вокруг говорили - покупай SaaS, не выделывайся. По рыночным данным, компании тратят сотни тысяч долларов на кастомные решения вместо готовых.

Справедливо. Для enterprise. Для команд из 50 человек с бюджетом и дедлайнами.

У меня другая ситуация. Мой вечер стоит $0. M3 Pro уже куплен. Claude Code подписка - $20/мес, но я и так её использую для десятка других проектов.

“Build vs Buy” - не бинарный выбор. Транскрибация - бесплатна локально. AI-обработка - 6 центов за час аудио. А удобный интерфейс я собрал за 2.5 вечера. Вот и вся арифметика.

Первый вечер убил на Pyannote. Два часа по таймеру - искал, почему она не стартует на MPS (Metal Performance Shaders). Оказалось, нужна конкретная версия PyTorch. Облом. Но разобрался.

Экономика

Считаю на 15 часов митингов в месяц - мой реальный объём.

TranscribeFlowSaaS-подписка
Транскрибация$0 (локально)Включено
Разделение спикеров$0 (Hugging Face)Включено
LLM-обработка + инсайты~$0.90 (Gemini Flash)Включено
Итого/мес~$0.90$8-30
Итого/год~$11$100-360

PLAUD отдельно: устройство $159-179 + подписка $100-240/год. За два года - $400-660. Мой транскрибатор за два года - $22.

Пока не уверен, что TranscribeFlow закроет 100% кейсов. Живые митинги с плохим микрофоном - не тестировал. Zoom-записи - работает отлично. Надиктовки - тоже.

Что понял

“Build vs Buy” в 2026 году - другой вопрос, чем пять лет назад. Тогда “build” означало месяцы разработки и команду из нескольких инженеров. Сейчас агенты Claude Code пишут 92% кода, а мне остаётся архитектура и ревью. Как выглядит процесс - показывал на vibe-coding воркшопе.

Рыночная цена транскрибации - от $0.10 до $4.00 за минуту. Локально на Apple Silicon - $0.001 за минуту (только LLM-обработка). Разница в 100-4 000 раз.

Выбрал open-source ради контроля. И ради экономии, чего уж. Аудио митингов не уходит в облако. Шаблоны инсайтов - мои. Хочу добавить новый формат - добавляю за 10 минут.

Обратная сторона: нет мобильного приложения, нет синхронизации между устройствами, нет красивого онбординга. Кому нужен polish - SaaS. Кому контроль и нулевые переменные затраты - собирай сам.

TranscribeFlow GitHub (opensource)

Источники

  1. AI Transcription Pricing Comparison 2025
  2. Otter vs Notta vs Fireflies vs tl;dv - 2026 Comparison
  3. Apple Silicon Whisper Performance
  4. Pyannote Audio - GitHub
  5. Build vs Buy AI Tools
  6. PLAUD AI Membership Plans