Доклад технического директора компании «Флант» (https://flant.ru/) Дмитрия Столярова на конференции DevOops 2019 (29 октября, Санкт-Петербург). В нём рассказывается о том, как эволюционировала наша система обработки инцидентов и какие фундаментальные проблемы мы научились решать.
* Текстовый обзор доклада: https://habr.com/company/flant/blog/484808/
* Презентация: https://speakerdeck.com/flant/10-liet-on-call-chiemu-my-nauchilis
(00:33) Вступление
(01:00) Область применения, о которой идёт разговор
(03:22) 2009 год: один человек ловит СМСки и в какой-то момент он устал
(07:51) Куда должны сыпаться алерты и почему
(08:06) Кто разбирает алерты
(08:24) Как сообщаем об алертах
(09:46) Содержимое алерта
(10:58) Лейблы, лейблы, лейблы
(11:31) Глубокое погружение в тему виды алертов и следствия из этого
(14:13) Что делать с «моргающими» инцидентами и как мы решили это в интерфейсе
(18:36) Рабочий процесс по решению проблемы
(19:42) Фундаментальная проблема существующих тикетных систем и гарантий
(20:41) Передача ответственности между исполнителями
(21:17) Итог решения вышеописанных проблем
(23:37) Что делать, когда кажется, что всё горит
(26:47) Про понятие существенных изменений
(28:10) А если мониторинг сломался?
(30:30) Фундаментальная возможность поиска, фильтрации и следствия из нашей реализации
(31:05) Когда действия инженера приводят к заваливанию мониторинга алертами
(34:09) Как выявлять систематические проблемы и видеть лес за деревьями
(35:19) Организационная структура и зоны ответственности
(44:50) Распространение знаний о смысле алертов
(47:13) Обеспечение уровня обслуживания
(58:21) Kubernetes и что он привносит
(59:25) Статистика, показывающая эффективность подхода
(1:00:47) Мы готовы к партнёрству в области решений для обработки инцидентов
Обратная связь:
* Расскажите, если вам нужна эта система как Open Source: поделитесь ссылкой на доклад в Facebook/Twitter с хэштегом #Флант
* Хотите внедрить в вашу компанию? Напишите на [email protected] с темой «Система управления инцидентами»
* Готовы стать бизнес-партнёром? Напишите на [email protected] с темой «Система управления инцидентами»