Ближайшая конференция — PiterPy 2025, 16—17 мая, Санкт-Петербург + online.
Подробности и билеты: https://jrg.su/QZ6wK1
— —
Скачать презентацию с сайта PiterPy — https://jrg.su/HxEN5z
Подробно рассматриваем построение инфраструктуры для использования больших языковых моделей (LLM) с нуля, опираясь на опыт Х5 Tech.
Спикер начал с объяснения, что такое LLM и почему они становятся все более важными для современных технологий. Обсудил ключевые компоненты, необходимые для создания масштабируемой и надежной инфраструктуры. Сравнил три популярных бэкенда для инференса LLM: llama-cpp, TGI и vLLM, выделяя их преимущества и недостатки. Особое внимание уделил подводным камням llama-cpp и рассмотрел, действительно ли vLLM — идеальное решение. Затронул тему информационного поиска и его связь с LLM — объяснил, как эти модели могут улучшить процессы поиска по базам знаний.
В заключение показал, как заставить LLM писать качественный текст, на основе опыта внедрения чат-бота для сотрудников Пятерочки.