Wróć do projektów
InfraDevOps2023

O awarii dowiadujemy się zanim zadzwoni klient

Firma dowiadywała się o awariach gdy klienci przestawali dzwonić — bo nie mogli. Wdrożyłem system który wykrywa problemy w 5 minut i alarmuje mój telefon, nie Twój.

Problem

Firma obsługiwała kilkanaście klientów. Problemy z serwerami odkrywali gdy klient dzwonił zdenerwowany, że "od dwóch godzin nic nie działa". Nie było żadnego systemu który by na bieżąco sprawdzał stan infrastruktury. Każda awaria to był kryzys — gonitwa kto to naprawi i wyjaśnienia dlaczego tyle trwało.

Rozwiązanie

Wdrożyłem system monitoringu który co minutę sprawdza czy wszystkie serwery, usługi i połączenia działają poprawnie. Gdy coś odbiega od normy — za gorąco, za pełny dysk, serwis przestał odpowiadać — dostaję powiadomienie w ciągu 5 minut. Zazwyczaj naprawiam zanim ktokolwiek zdąży to zauważyć. Zarząd ma dashboard z widokiem na cały stan infrastruktury.

Efekty

  • Z 3 godzin do 5 minut — tyle zajmuje wykrycie problemu
  • 3 poważne awarie wykryte i naprawione zanim klienci je zauważyli
  • 40% mniej incydentów dzięki proaktywnej reakcji
  • Pełny widok na 15 serwerów i urządzeń sieciowych

Co poprawiłem

  • Dostępność: czas wykrywania awarii z 3 godzin do 5 minut
  • Bezpieczeństwo: monitoring podejrzanych logowań i anomalii
  • Automatyzacja: cotygodniowe raporty wysyłane automatycznie

Stack

ZabbixLinuxPowiadomienia e-mail/TelegramDashboard dla zarząduDocker

Moja rola

Projekt, wdrożenie, konfiguracja alertów, szkolenie