Стачка - Диффузионные Языковые Модели: продуктовый взгляд на инференс, SLA и кейсы применения

Диффузионные Языковые Модели: продуктовый взгляд на инференс, SLA и кейсы применения

10 апреля

11.45-12.25

Зал 1

Максим Крыжановский

R&D Lead @Институт Искусственного Интеллекта МГУ

- Инференс LLM — это продуктовая боль: p95/p99, стоимость и предсказуемость важнее среднего качества.

- Авторегрессия генерирует токен-за-токеном, поэтому длина ответа и время исполнения плохо прогнозируются.

- Хвосты распределения (p99) мешают AR-LLM держать SLA в realtime-сценариях.

- Диффузионные языковые модели генерируют текст через итеративное уточнение, а не последовательное дописывание.

- Потенциальный плюс DLM — фиксированное число шагов и более управляемая латентность.

- Сравнивать модели нужно по формуле: стоимость × p95/p99 × качество на задаче.

- DLM особенно интересны для latency-sensitive кейсов: голос, live-support, high-volume генерация.

- Ограничения DLM — зрелость экосистемы, инструменты дебага и интеграции.

- Авторегрессионные модели тоже ускоряются (квантование, speculative, distillation).

- Оптимальный путь — пилот на одном use-case с чёткими метриками и AR-baseline.

- В продакшене обязательны guardrails: evals, мониторинг регрессий и fallback.

- Вывод: DLM — это способ лучше контролировать инференс и SLA в продукте.

Скачать доп. контент

Может заинтересовать

#похожие доклады

17.00-17.40

Агентская экономика: ИИ, блокчейн и все все все

Артем Астапенко

CEO @Джамакаси Технолоджис

ML/DS

10.15-10.55

Египетская сила: как мы учили OCR для чтения древних иероглифов

Александр Утков

Computer Vision Engineer @Wildberries & Russ

Валерия Рубанова

Студент @AI Talent Hub

ML/DS

11.00-11.40

Код-ревью 1C с ИИ: как собрать рабочего ассистента на RAG без Git, Sonar и EDT

Светлана Ленкова

Руководитель группы разработки @РАУ ИТ

ML/DS

12.00-13.10

Мастер-класс по промптингу

Никита Венедиктов

Team Lead DS @Raft

ML/DS

17.45-18.25

ML-аналитика, какие проблемы решает, инструменты, зачем выделять ресурсы

Игорь Миленький

Руководитель отдела ML аналитики @Звук

ML/DS

18.30-19.15

Защита от дипфейков в финтехе

Евгений Бакаев

Data Scientist @Ozon Fintech

ML/DS