My Friend AI
III. Общение с агентом
8

Голосовые и медиа

Обработка голосовых, фото, видео, документов и стикеров

Агент принимает не только текст. Голосовые, фото, видео, документы — всё обрабатывается автоматически с помощью AI.

Распознавание речи

Deepgram (Nova-3)

ТипОблако
Скорость1-2 сек
Стоимость$200 бесплатно
ТочностьВысокая

Whisper

ТипЛокально
СкоростьМедленнее
СтоимостьБесплатно
ТочностьХорошая

Когда подключены оба — приоритет у Deepgram. Переключение: Настройки → Дополнительно → Голосовые. Если ничего не настроено — бот предложит установить Whisper (~8 мин).

Обработка медиа

Фото

Анализ через Claude Vision: распознавание текста, понимание контекста скриншотов, фото досок, инфографики. Входит в стоимость запроса.

Видео

Параллельная обработка: аудио → расшифровка, видео → 2-5 ключевых кадров. VP9 автоматически конвертируется в H.264. Лимит: 20 МБ.

Документы

Текстовые файлы: .txt, .md, .json, .csv, .py и другие. Лимит: 20 МБ. Агент читает и анализирует содержимое.

Стикеры

Статичные обрабатываются как фото через Claude Vision. Анимированные пока не поддерживаются.

Альбомы: буфер 2.5 секунды собирает все файлы из одного альбома и отправляет агенту как один запрос — без дублирования.