Övervakning

Introduktion

Denna modul fokuserar på övervakning. Den ger en kort översikt över varför vi behöver övervakning, olika mått, och hur dessa kan implementeras i en plattform för metriker.

[Video (9:03)] [Presentation]

SLA, SLO och SLI

Service Level Agreements fokuserar på drift, så vi introducerar Service Level Objectives som istället fokuserar på användarens perspektiv samt Service Level Indicators för att mäta dessa. Vi introducerar även konceptet felbudget, utrymmet som SLOs ger fel, uppgraderingar, och så vidare.

[Video (25:47)] [Presentation]

Mäta SLI

Vi mäter SLIs för att kontrollera hur väl vi uppfyller våra SLOs samt hur snabbt vi förbrukar vår felbudget. Vi diskuterar hur dessa kan mätas, hur vi bör förhålla oss till larm, samt kort om plattformar för att mäta, rapportera och larma.

[Video (19:39)] [Presentation]

Prometheus

Prometheus är en populär plattform för övervakning. Det är en tidsseriedatabas, en insamlare av metriker och ett API att ställa frågor mot. Då Prometheus insamling av metriker använder HTTP-endpoints och text är det enkelt att bygga in stöd för det system och tjänster. Många av de vi använder, t.ex. Linux och Docker, har redan färdiga "exporterare". Det finns även bibliotek för flera programmeringsspråk, t.ex. Python.

[Video (16:29)] [Presentation]

Demo Prometheus

Kort demo av Prometheus. Då det är roligare med data använder jag en befintlig Prometheus som vi använder för att experimentera med övervakning av CSCloud. Jag har även tagit fram en "steg-för-steg"-guide som sätter upp Prometheus, Grafana och fyra datakällor. Den är avsedd att följas med Ubuntu Server 20.04 med Docker, men kan lätt anpassas.

[Video (38:37)] [Installationsguide]