Дистрибьютор станков по дерево- и металлообработке

Дистрибьютор станков: RAG-ассистент и аналитика звонков в Bitrix24

RAG в Bitrix24 на 11 000 файлах + AI-аналитика звонков. В проде с 05.2026.

Масштаб: 130 менеджеров, отдел продаж по РФ
Этап: Фаза 1
Сдан: 2026-05-01

TL;DR. RAG-ассистент в мессенджере Bitrix24 поверх 11 000 файлов техдокументации и 60 обучающих видео (~120 ГБ) + транскрибация и AI-оценка звонков. Один процесс end-to-end, всё на серверах в РФ.

Ситуация

База знаний — 11 000 файлов PDF / DOCX / PPTX и 60 обучающих видео, около 120 ГБ. Менеджер ищет техпараметры по конкретной модели станка минутами: техпаспорта, каталоги, инструкции — разбросаны по папкам. Записи звонков пишутся, но никто их не слушает — руководители не видят, как менеджеры общаются с клиентами. Новые сотрудники выходят на полную продуктивность за 3+ месяца.

Задача

Дать менеджеру ответ за секунды по любой модели станка прямо в Bitrix24-мессенджере, где он уже работает.
Запустить AI-оценку каждого звонка с рекомендациями менеджеру и сводкой для руководителя.
Всё на серверах в РФ — требование службы безопасности.

Что сделали

Архитектура. Backend на Python + FastAPI. LLM — Gemini 3 Flash через API (оптимальный баланс качества и стоимости под объём запросов). Vector DB — Qdrant с гибридным поиском: семантика + BM25. Whisper large-v3-turbo для транскрибации звонков. Очереди на Celery, всё в Docker на VPS в России.

Этапы.

Инвентаризация и загрузка базы знаний — 11 000 документов + 60 видео, с парсингом таблиц и структурой техпаспортов.
RAG-пайплайн с гибридным поиском (см. ниже про номера моделей).
Интеграция в мессенджер Bitrix24 — менеджер пишет ассистенту в той же ленте, где общается с клиентом.
Транскрибация звонков на Whisper и AI-анализ с рекомендациями менеджеру.
Пилот на ограниченной группе менеджеров, затем раскатка.

Скриншот RAG-бота в Bitrix24 (с маскировкой данных)

Результат

Ассистент отвечает менеджерам в Bitrix24 секунды вместо минут.
Руководство получает AI-оценку каждого звонка с конкретными рекомендациями менеджеру.
Онбординг новых менеджеров укорачивается за счёт ассистента: вопросы по продукту закрываются на лету, без отвлечения коллег.
Решение в проде с 05.2026, обе фазы сданы.

Ключевые технические решения

Гибридный поиск. Чисто семантический поиск плохо работает с номерами моделей станков — СТД-120, ТВ-320. Добавили BM25 для точного совпадения по артикулам и индексам. Без этого менеджер получал «похожие» модели вместо запрошенной.
Оптимизация GPU. Whisper для транскрибации и эмбеддинги для RAG конкурируют за GPU-память. Развели через Celery-очереди с приоритетами: интерактивные ответы менеджеру вперёд, пакетная обработка звонков в фон.
Парсинг таблиц. Технические характеристики станков часто в сложных таблицах — несколько уровней заголовков, объединённые ячейки. Сделали отдельный парсинг, чтобы сохранить структуру и не потерять связь параметр-значение.

Что было бы дальше

Естественное продолжение — расширение на смежные процессы: AI-обработка входящих заявок, авто-сегментация лидов в воронке, ассистент сервисной службы для типовых вопросов по эксплуатации.

Если у вас похожая задача — техническая база знаний, разбросанная по сотням файлов, или массив звонков, который никто не слушает — обсудим за 30 минут.

Стек

Python
FastAPI
Gemini 3 Flash
Qdrant
Whisper
Bitrix24
Docker
Celery