Foto von Computer Chips

Hintergründe zu den Serverausfällen im August und September

Veröffentlicht von

Leider gab es in der letzten Zeit einige Serverausfälle, für die wir hiermit ausdrücklich um Entschuldigung bitten. Wir sind selber damit sehr unzufrieden und arbeiten mit Hochdruck daran, wieder die bekannte Verfügbarkeit zu erlangen.

Was waren die Hintergründe der Ausfälle? 


ChurchTools findet in immer mehr Kirchen und Werken Einsatz, die eine Hochverfügbarkeit benötigen. Früher war ChurchTools eher eine Datenbank-Lösung, in der ein Ausfall von ein paar Minuten gut verschmerzt werden konnte. Nun werden mit ChurchTools unter anderem auch Konferenzen organisiert und an den Konferenztagen selber mit CheckIn etc. die Events durchgeführt. Das heißt selbst ein Ausfall von ein paar Minuten kann zu großen Problemen vor Ort führen. Deshalb haben wir viel in unsere Infrastruktur investiert und setzen nun seit einigen Monaten erfolgreich auf eine moderne aber auch komplexe Cluster-Lösung. Wenn ein Server ausfallen sollte, werden die Anfragen völlig automatisch auf andere Server umgeleitet. So hatten wir z.B. im Monat Februar und April eine beeindruckende Verfügbarkeit von 100% erreicht! Januar bis August hatten wir im Durchschnitt trotz der beiden größeren Ausfälle im August eine Verfügbarkeit von immerhin 99,9%. 
Wir haben aber nun schmerzhaft festgestellt, dass durch die gestiegene Komplexität der Serverarchitektur noch mehr Vorsicht bei Updates und Modifikationen in der Infrastruktur geboten ist. So hatten wir im August zwei Ausfälle, die durch Replikations-Mechanismen entstanden sind. Die Datenbank-Server hatten sich selber blockiert und keine Ressourcen mehr für neue Anfragen geöffnet. Am 11. September führten einige Änderungen innerhalb der Datenbankstruktur beim Update auf die Version 3.36 zu einem weiteren Ausfall und leider auch zu langsamerer Performance am Folgetag. (Kurzer Hinweis: Durch die Ausfälle kam es in keinem Fall zu Datenverlust.)

Wir haben nun durch die Ausfälle viel gelernt und werden sofort einige Maßnahmen durchführen, damit bei Modifikation in der Infrastruktur nicht mehr die Stabilität der Server in Gefahr ist.

Zum Beispiel greifen ab sofort folgende Maßnahmen:

  • Kritische Wartungsarbeiten werden nicht mehr tagsüber eingespielt, wo die Hauptzahl der User die Server verwenden.
  • Wir ziehen weitere Expertise hinzu, die uns bei der Konfiguration der Cluster-Lösung unterstützt.
  • Durch ein paar Modifikationen im Code werden aufwändige Replikationen der Datenbankserver deutlich verringert. Hierdurch haben wir selbst bei extremen Lastspitzen noch ausreichend Puffer.

Übrigens gibt eine neue Status-Seite Aufschluss über den aktuellen Status unserer Server: https://status.church.tools/

Wir hoffen mit diesen Zeilen die vielleicht entstanden Fragen beantwortet zu haben und das Vertrauen wieder zurückgewonnen zu haben. Bei weiteren Fragen wenden Sie sich gerne an support@churchtools.de

CEO Matthias Huber / Product Owner Jens Martin Rauen

Like
Like Love Haha Wow Sad Angry