Wróć do projektów
InfraDevOps2023

O awarii dowiadujemy się zanim zadzwoni klient

Firma dowiadywała się o awariach gdy klienci przestawali dzwonić - bo nie mogli. Wdrożyłem system który wykrywa problemy w 5 minut i alarmuje mój telefon, nie Twój.

Problem

Firma obsługiwała kilkanaście klientów. Problemy z serwerami odkrywali gdy klient dzwonił zdenerwowany, że "od dwóch godzin nic nie działa". Nie było żadnego systemu który by na bieżąco sprawdzał stan infrastruktury. Każda awaria to był kryzys - gonitwa kto to naprawi i wyjaśnienia dlaczego tyle trwało.

Rozwiązanie

Wdrożyłem system monitoringu który co minutę sprawdza czy wszystkie serwery, usługi i połączenia działają poprawnie. Gdy coś odbiega od normy - za gorąco, za pełny dysk, serwis przestał odpowiadać - dostaję powiadomienie w ciągu 5 minut. Zazwyczaj naprawiam zanim ktokolwiek zdąży to zauważyć. Zarząd ma dashboard z widokiem na cały stan infrastruktury.

Efekty

  • Wykrywanie awarii: z 3 godzin do 5 minut (redukcja 97%)
  • 3 poważne awarie wykryte i naprawione zanim klienci je zauważyli
  • 40% mniej incydentów dzięki proaktywnej reakcji - koniec gaszenia pożarów
  • Pełny widok na 15 serwerów i urządzeń sieciowych w jednym dashboardzie

Co poprawiłem

  • Dostępność: czas wykrywania awarii z 3 godzin do 5 minut
  • Bezpieczeństwo: monitoring podejrzanych logowań i anomalii
  • Automatyzacja: cotygodniowe raporty wysyłane automatycznie

Stack

ZabbixLinuxPowiadomienia e-mail/TelegramDashboard dla zarząduDocker

Moja rola

Projekt, wdrożenie, konfiguracja alertów, szkolenie

Potrzebujesz czegoś podobnego?

Bezpłatna konsultacja - opowiedz mi o swoim problemie, a powiem Ci jak bym to rozwiązał i ile to może kosztować. Bez zobowiązań.