AI-агент проводит 10-минутное B2B демо за $0.44

Sergey Golubev 2026-02-19 4 мин чтения

AI-агент проводит B2B демо за $0.44. С голосом и шарингом экрана.

$0.44 за 10-минутное демо продукта. С голосом, шарингом экрана и ответами на вопросы. Не запись. Живой агент.

Naoma.ai запустила именно такую штуку. Стартап из 6 человек (экс-PandaDoc), pre-seed $440K. Их агент открывает браузер, кликает по UI, показывает фичи и разговаривает голосом с потенциальным клиентом. $5-10 за демо вместо $50-100 за час сейлза.

Первая реакция - sales-инструмент, окей. Побреинштормил с ИИ и нашёл минимум 4 направления, где такой агент может решать реальные задачи.

Где это работает кроме продаж

Продакт-менеджмент - для меня самое интересное:

Демо новых фич для стейкхолдеров. Не презентация со скриншотами - живой прогон по UI. Стейкхолдер задаёт вопросы, агент отвечает и показывает
Сбор фидбэка. Агент показывает прототип, задаёт вопросы, записывает ответы. Не нужно координировать расписание на неделю вперёд для “быстрого ревью”
Onboarding в продукт для новых членов команды. Вместо “спроси у Маши, она покажет” - агент доступен 24/7

Customer Success:

Тренинг клиентов по новым фичам. Вместо записи видео (которое устаревает через релиз) - интерактивный агент, который всегда показывает актуальный UI
Troubleshooting. “Покажи где проблема” - агент сам проходит по шагам и объясняет

HR / внутренние процессы:

Демо внутренних инструментов для новых сотрудников. CRM, Jira, внутренние системы. Вместо 40-страничной wiki - живой прогон

Маркетинг:

Интерактивное демо прямо на лендинге. Не видео, не скриншоты - посетитель задаёт вопросы и видит реальный продукт. Персонализированное под его роль

Что внутри - технически

Прошёлся по GitHub и документациям - стек оказался проще, чем ожидал:

Управление браузером: Browser-Use (Python, open-source, 78K+ звёзд на GitHub) или Playwright. Browser-Use сам решает куда кликать на основе DOM и скриншотов. Playwright - если хочется прописать сценарии руками.

Распознавание речи (STT): Deepgram Nova-2 ($0.0043/мин - самый дешёвый), OpenAI Whisper API ($0.006/мин), Google Speech-to-Text ($0.006/мин), AssemblyAI ($0.012/мин). Deepgram быстрее всех по latency (~100ms), но для русского стоит тестировать все варианты.

Озвучка (TTS): OpenAI TTS ($0.015/1K символов - норм цена/качество), ElevenLabs ($0.08-0.18/1K символов - лучшее качество на рынке), Google Cloud TTS ($0.016/1K символов). ElevenLabs звучит натуральнее, но в 5-10x дороже.

Голосовой пайплайн целиком: Можно собирать STT + LLM + TTS по отдельности, а можно взять готовое. OpenAI Realtime API - speech-to-speech без промежуточных шагов, latency ~200-400ms. Vapi.ai - платформа-оркестратор, сама подключает STT/LLM/TTS ($0.05/мин + стоимость провайдеров). LiveKit Agents - open-source фреймворк для voice agents с WebRTC из коробки.

Стриминг экрана: LiveKit (open-source, есть облако), Daily.co, Twilio Video. LiveKit - лучший вариант, если нужен и голос, и видео в одном решении.

LLM-оркестратор (мозг): GPT-4o-mini - дёшево ($0.15/1M input tokens), быстро, хватает для рутинной навигации, или Gemini 2.5 Flash, надо тестировать. В идеале нужна маршрутизация: простые действия на дешёвую модель, сложные вопросы на умную.

Цена за 10-минутное демо:

Вариант	Стоимость
Бюджетный (GPT-4o-mini + Deepgram + OpenAI TTS)	$0.44
Стандартный (OpenAI Realtime API)	$1.97
Премиум (ElevenLabs + аватар)	$2.82

$0.44. Даже если агент проведёт 100 демо в день - это $44. Один сейлз за час стоит дороже.

Рынок

Статические демо-платформы (Walnut, Navattic, Storylane) - зрелый рынок, по оценкам аналитиков около $500M. Все они показывают записанные сценарии. Живой AI-агент с голосом - ниша, которую пока никто толком не занял.

Параллельно в AI SDR агентов залили $100M+ за последний год. PLG-модель (product-led growth) тоже двигает в эту сторону: дай пользователю попробовать продукт без звонка с сейлзом. Для меня как PM это самый интересный тренд - меньше friction в воронке.

Как собрать самому

Минимальный путь:

Browser-Use для управления UI - ставится за минуту, Python
LiveKit для WebRTC-стриминга - и голос, и экран в одном SDK
OpenAI Realtime API или Vapi.ai для голосового пайплайна
GPT-4o-mini для рутинной навигации + GPT-4o / Claude Sonnet для сложных вопросов

Альтернативный бюджетный стек: Deepgram (STT) + Google Cloud TTS + Gemini 2.5 Flash. Дешевле, но больше интеграционной работы.

Минимальный прототип для одного продукта - реально за выходные. Полноценный агент с обработкой edge cases - пара недель.

Записал себе в пет-проекты. Пока не уверен, какой голосовой пайплайн выбрать - Realtime API проще, ElevenLabs может звучать натуральнее. Надо тестировать.

Что понял

Как PM, вижу основной потенциал не в замене сейлзов. Сбор фидбэка через интерактивного агента, который показывает прототип и задаёт вопросы - вот что меня зацепило - агент проводит демо и записывает обратную связь.

Trade-off: такой агент пока не понимает контекст на уровне человека. Если стейкхолдер или клиент спросит “а как это вписывается в нашу стратегию на Q3?” - агент поплывёт (если не предусмотреть, можно ведь учесть и доп данные о клиенте или собеседнике). Но для “покажи мне новую фичу фильтрации и как она работает” - должно хватить.

Источники

Другие посты

Все посты →

Скилл Claude Code для обработки изображений

Как создать Claude Code skill, который конвертирует PNG от Imagen в web-ready WebP одной командой

2026-02-22

Первый юзер нашёл 4 бага за 10 минут

Как реальный фидбэк из Telegram показал CSS-баги, которые я не видел, и почему чужие глаза - лучший QA

2026-02-14