Новы інструмент для аналізу Azure Alerts

Новы інструмент для аналізу Azure Alerts

Арцём Мікуліч | АБАЖУРЫ

Пачатак восені быў даволі ціхім на цікавыя анонсы ў Azure, але на мінулым тыдні я здолеў злавіць нешта адметнае. Гаворка пойде пра Alerts – механізм паведамленняў пра падзеі, якія здараюцца ў экасістэме.

Калі не лезці моцна ў падрабязнасці, то налада алерта заключаецца ў наступным:

  1. Вызначыць метрыку і парог спрацоўвання. На беларускай мове гэта можа гучаць як “больш за 50% CPU”, “колькасць памылак больш за пяць у хвіліну” і г.д.
  2. Стварыць Action Group – рэсурс, які вызначае сродкі апавяшчэння і спіс адрасатаў. Відавочныя прыклады – emails, webhooks, нумары тэлефонаў для sms ці push-паведамленняў. Але могуць быць і Logic Apps, Event Hubs, Azure Functions і Runbooks.
  3. Звязаць 1 і 2 паміж сабой.      

Калі сістэма разрастаецца, колькасць такіх наладжаных алертаў павялічваецца і, як вынік, узнікае неабходнасць іх эфектыўна інтэрпрэтаваць. Ключавое слова тут “эфектыўна”, бо колькасць алертаў не мае ніякага сэнсу, пакуль атрамыная ад іх інфармацыя не аналізуецца. Вечна “чырвоны” алерт = бессэнсоўны алерт, бо ён толькі генеруе спам, ўносячы сваю лепту ў глабальнае пацяпленне.  

Дагэтуль нават пры наяўнасці матывацыі разабрацца з алертамі, вы маглі сутыкнуцца з праблемай. На Azure партале папросту не існавала зручнага инструмента для такога аналізу. Была толькі адна табліца з некалькімі фільтрамі і сартыроўкай. Выглядае яна, як ніжэй на відарысе.

Стандартны выгляд табліцы Alerts

У табліцы складана знайсці карэляцыю паміж падзеямі, асабліва калі моманты ўзнікнення алерта (Fire time) не супадаюць дакладана. Сюды даўно прасіўся timeline графік, які мог значна палегчыць аналіз. Каму як, але мне без малюнка ўвогуле складана штосьці зразумець!

Нарэшце, Azure выпусціў такое абнаўленне (пакуль у preview). Пераключыцца на новы від можна ў адзін клік (гл. малюнак ніжэй).

Пераключэнне на новы Timeline view

Дадаўся новы выгляд - Timeline view, у якім можна пабачыць алерты з разбіўкай па пэўным сэрвісе (гл. малюнак ніжэй). Чырвоныя лініі - час, калі трывога была актыўнай; зялёныя - калі было ціха. Лічбы ў пачатку чырвоных ліній указваюць, колькі алертаў спрацавала адначасова (напрыклад, адключылася база і знік пінг сайта). Калі клікнуць, то з'явіцца popup, на якім будзе падрабязная інфармацыя.

Timeline view

Таксама ёсць магчымасць вывесці на графік severity алертаў (гл. малюнак ніжэй), каб лёгка адрозніць сур'ёзны outage (Critical) ад менш крытычных перыядаў (напрыклад, Verbose).

Timeline view у рэжыме Show severity

Такім чынам, я знаходжу новы view надзвычайна зручным інстументам па наступных прычынах.

  1. Бачная карэляцыя падзей, у тым ліку паміж рознымі сэрвісамі.
  2. Відавочныя пачаткі і канцы алертаў, а таксама іх сур'ёзнасць (Show Severity).
  3. Можна хутка перайсці на дэталі канкрэтнага выпадка, калі некалькі падзей надышлі адначасова.

Новая фіча можа паказацца трывіяльнай, але такія дробязі спрыяюць стварэнню правільнай культуры ў камандзе. Упэўнены, што вы бачылі на свае вочы "вечна чырвоныя" алерты, на якія ніхто не рэагуе. Timeline view падкрэслівае такія рэчы, а значыць ігнараваць іх не атрымаецца.

Report Page