Голосовые и медиа
Обработка голосовых, фото, видео, документов и стикеров
Агент принимает не только текст. Голосовые, фото, видео, документы — всё обрабатывается автоматически с помощью AI.
Распознавание речи
Deepgram (Nova-3)
Whisper
Когда подключены оба — приоритет у Deepgram. Переключение: Настройки → Дополнительно → Голосовые. Если ничего не настроено — бот предложит установить Whisper (~8 мин).
Обработка медиа
Фото
Анализ через Claude Vision: распознавание текста, понимание контекста скриншотов, фото досок, инфографики. Входит в стоимость запроса.
Видео
Параллельная обработка: аудио → расшифровка, видео → 2-5 ключевых кадров. VP9 автоматически конвертируется в H.264. Лимит: 20 МБ.
Документы
Текстовые файлы: .txt, .md, .json, .csv, .py и другие. Лимит: 20 МБ. Агент читает и анализирует содержимое.
Стикеры
Статичные обрабатываются как фото через Claude Vision. Анимированные пока не поддерживаются.
Альбомы: буфер 2.5 секунды собирает все файлы из одного альбома и отправляет агенту как один запрос — без дублирования.