
$0.90 в месяц вместо $240 в год. Локальная транскрибация на Apple Silicon за 2.5 вечера работы.
Перепробовал несколько SaaS-сервисов для транскрибации. Otter.ai - $16.99/мес. Fireflies Pro - $18/мес. Notta Pro - $8.17/мес. У каждого лимиты на бесплатном плане и обязательная отправка аудио в облако.
А потом увидел PLAUD. Красивый AI-диктофон за $159-179. Подписка Pro - ~$100/год на 1 200 минут в месяц. Unlimited - ~$240/год. Или $30/мес помесячно.
Начал считать. Понял: могу запустить локально.
Что собрал
TranscribeFlow - open-source транскрибатор для Apple Silicon M1-M4.
Стек:
- MLX Whisper - транскрибация прямо на GPU. Бесплатно. Выбрал его вместо OpenAI API - хотел локально. На M3 Pro 10 минут аудио - полторы минуты обработки. M4 Pro - 50 секунд. Даже на M1 с 8 GB - около трёх минут, для NDA-митингов это критично.
- Pyannote - разделение спикеров. 9 000 звёзд на GitHub, MIT-лицензия. В сентябре 2025 выкатили community-1 модель с улучшенным подсчётом спикеров. Тоже бесплатно.
- LLM-постобработка - Gemini Flash чистит текст, расставляет пунктуацию, предлагает имена спикерам по контексту разговора.
- AI-инсайты по шаблонам - IT-митинг, бизнес-встреча, интервью, брейншторм. Каждый шаблон вытаскивает своё: решения, action-items, риски.
- Compare-view - транскрипт до и после обработки рядом. Видно, что именно LLM поправил.
- Mindmap - ключевые решения в виде карты. Удобно для ретроспективы.
Есть фоллбэк на облачные движки: ElevenLabs, Deepgram, AssemblyAI. Пока не пришлось.
92% кода написано автономно агентами Claude Code. Я задавал направление, ревьюил результат, правил архитектурные решения.
Build vs Buy - когда строить?
Когда я начинал считать, все вокруг говорили - покупай SaaS, не выделывайся. По рыночным данным, компании тратят сотни тысяч долларов на кастомные решения вместо готовых.
Справедливо. Для enterprise. Для команд из 50 человек с бюджетом и дедлайнами.
У меня другая ситуация. Мой вечер стоит $0. M3 Pro уже куплен. Claude Code подписка - $20/мес, но я и так её использую для десятка других проектов.
“Build vs Buy” - не бинарный выбор. Транскрибация - бесплатна локально. AI-обработка - 6 центов за час аудио. А удобный интерфейс я собрал за 2.5 вечера. Вот и вся арифметика.
Первый вечер убил на Pyannote. Два часа по таймеру - искал, почему она не стартует на MPS (Metal Performance Shaders). Оказалось, нужна конкретная версия PyTorch. Облом. Но разобрался.
Экономика
Считаю на 15 часов митингов в месяц - мой реальный объём.
| TranscribeFlow | SaaS-подписка | |
|---|---|---|
| Транскрибация | $0 (локально) | Включено |
| Разделение спикеров | $0 (Hugging Face) | Включено |
| LLM-обработка + инсайты | ~$0.90 (Gemini Flash) | Включено |
| Итого/мес | ~$0.90 | $8-30 |
| Итого/год | ~$11 | $100-360 |
PLAUD отдельно: устройство $159-179 + подписка $100-240/год. За два года - $400-660. Мой транскрибатор за два года - $22.
Пока не уверен, что TranscribeFlow закроет 100% кейсов. Живые митинги с плохим микрофоном - не тестировал. Zoom-записи - работает отлично. Надиктовки - тоже.
Что понял
“Build vs Buy” в 2026 году - другой вопрос, чем пять лет назад. Тогда “build” означало месяцы разработки и команду из нескольких инженеров. Сейчас агенты Claude Code пишут 92% кода, а мне остаётся архитектура и ревью. Как выглядит процесс - показывал на vibe-coding воркшопе.
Рыночная цена транскрибации - от $0.10 до $4.00 за минуту. Локально на Apple Silicon - $0.001 за минуту (только LLM-обработка). Разница в 100-4 000 раз.
Выбрал open-source ради контроля. И ради экономии, чего уж. Аудио митингов не уходит в облако. Шаблоны инсайтов - мои. Хочу добавить новый формат - добавляю за 10 минут.
Обратная сторона: нет мобильного приложения, нет синхронизации между устройствами, нет красивого онбординга. Кому нужен polish - SaaS. Кому контроль и нулевые переменные затраты - собирай сам.
TranscribeFlow GitHub (opensource)