Top.Mail.Ru
Разработка
ML/DS
Диффузионные Языковые Модели: продуктовый взгляд на инференс, SLA и кейсы применения
10 апреля
11.45-12.25
Зал 1

- Инференс LLM — это продуктовая боль: p95/p99, стоимость и предсказуемость важнее среднего качества.

- Авторегрессия генерирует токен-за-токеном, поэтому длина ответа и время исполнения плохо прогнозируются.

- Хвосты распределения (p99) мешают AR-LLM держать SLA в realtime-сценариях.

- Диффузионные языковые модели генерируют текст через итеративное уточнение, а не последовательное дописывание.

- Потенциальный плюс DLM — фиксированное число шагов и более управляемая латентность.

- Сравнивать модели нужно по формуле: стоимость × p95/p99 × качество на задаче.

- DLM особенно интересны для latency-sensitive кейсов: голос, live-support, high-volume генерация.

- Ограничения DLM — зрелость экосистемы, инструменты дебага и интеграции.

- Авторегрессионные модели тоже ускоряются (квантование, speculative, distillation).

- Оптимальный путь — пилот на одном use-case с чёткими метриками и AR-baseline.

- В продакшене обязательны guardrails: evals, мониторинг регрессий и fallback.

- Вывод: DLM — это способ лучше контролировать инференс и SLA в продукте.