Rack

Desaster Recovery, Zweiter Akt: Wer suchet der findet (Fehler)

Zugegeben der Titel klingt wie ein furchtbar schlechter Krimi, allerdings handelt es sich um ein Follow-Up zu diesem Artikel über unsere Desaster Recovery. Hier kommt nun Teil zwei der Odysee mit etwas Verspätung, es war eine wilde Woche im Job. Sorry an alle Beteiligten, dass ihr auf glühenden Kohlen sitzen musstet. Mails an euch gehen gleich raus!

Disclaimer: Es wurde kein NDA oder vergleichbares unterschrieben oder verlangt. Dieser Artikel, wie auch sein Vorgänger, sind transparent und ungeschönt. Die hippe Jugend sagt dazu #noFilter.

Kontaktaufnahme von Veeam

Blitzschnell, wie eine Veeam Instant Recovery, kam ein Kontakt zustande, am 18.03. kam Mittags eine Mail. In dieser wurde direkt nachgefragt wie das Setup aussieht, wie Veeam konfiguriert ist, ob ich die Logs bereitstellen würde etc. So weit so gewöhnlich denkt man. Was aber bis jetzt kein Leser weiß: Für LinuxNews (-Server) nutze ich eine NFR Lizenz die gar keinen Support erhält. Softwareupdates ja, hier ist der technische Kundensupport gemeint. Der Vollständigkeit wegen habe ich dies auch in meiner Antwortmail mitgeteilt, das hat offensichtlich niemanden interessiert (positiv!).

Am 21.3. kam direkt eine Antwort aus dem Lab in dem mein Setup nachgestellt wurde, gefolgt von einer umfangreichen Antwort wieso weshalb warum. Den kompletten technischen Teil erspare ich mal allen Lesern, kurz anreißen möchte ich das dennoch da der ein oder andere Veeam nutzt:

In deinen Logfiles ist aus unserer Sicht so weit erstmal alles in Ordnung und technisch betrachtet hat sich die Software auch zunächst korrekt verhalten. „Technisch betrachtet“, weil es leider so ist, dass lt. den Release-Notes versteckt auf Seite 10 im Abschnitt „Restore“, 4. Spiegelstrich erwähnt wird, dass ein Restore von verschlüsselten Geräten nicht unterstützt wird. Allerdings finden wir auch folgende Formulierung, die wir uns gleich noch einmal genauer anschauen:

If you restore data from an encrypted backup and create a LUKS volume using the product graphical user interface, the product creates a LUKS2 volume. […]

Wir haben ein bisschen Recherche betrieben und sind dabei auf einen Beitrag in unserem Forum gestoßen, der hier einen Workaround vorschlägt. Zugegebenermaßen ist das Vorgehen nicht so simpel, wie wir es uns eigentlich vorstellen, aber wir sind guter Dinge, dass diese Lösung in deinem Fall geholfen hätte.

Veeam Mensch, Software Engineer

Eigenlich hätte ich von dem Produkt erwartet, dass es die Partitionen so wiederherstellt wie er es auch angezeigt hatte. Nun gut, LUKS Volumes sind wohl nicht ohne. Dennoch möchte mir nicht in den Schädel wie /boot eine separate Partition ist und beim Restore ins LUKS geschrieben wird.

Zum Abschluss wurde mir auch noch ein Hands-on angeboten, um eine Möglichkeit des Restores auf LUKS zu demonstrieren. Diese Einladung nehme ich natürlich an, terminiert auf Mittwoch wenn seitens Veeam nichts dagegen spricht.

Zu dem Restore auf LUKS verschlüsselte Systeme wird es einen eigenen Artikel geben. Einmal als Gedankenstütze für mich, als auch für alle anderen Veeam Nutzer die mit einem „Was zum…?!“-Blick vor ihrem wiederhergestellten Volume sitzen und die Lösung googlen.

Kontaktaufnahme von Hetzner

Hier war ich tatsächlich positiv überrascht das ein Kontakt von seitens Hetzner initiiert wurde, damit gerechnet hätte ich ehrlich gesagt nicht. Noch positiver war ich vom Inhalt überrascht, auch hier wurde zwischenzeitlich nach dem Fehler gesucht und etwas eingegrenzt.

Bei der Initialen Kontaktaufnahme wurde direkt nach dem verwendeten Benutzerkonto gefragt um den Fehler genau zu analysieren. Die Frage ob meine Kundennummern verflucht sind wurde professionell ignoriert 😉

Wie auch von Veeam kam am 21.03 eine Antwort:

Wir konnten das Problem etwas eingrenzen. Tatsächlich scheint es derzeit bei der Verwendung von FTP und TLS Übertragungsprobleme zu geben, die eine Downloadgeschwindigkeit >10MB/s verhindern.
Die Ursache scheint aber etwas tiefer im verwendeten FTP-Server zu liegen. Wir arbeiten derzeit mit Hochdruck an einer möglichen Lösung.

Hetzner Mensch, was er tut steht nicht in der Signatur 🧐

Positiv möchte ich da noch anmerken, dass diese Antwort nicht von Textbausteinix kam. Ein „Wir bitten die entstandenen Unannehmlichkeiten zu entschuldigen“ löst bei mir extreme Gefühle aus.

Die o.g. extremen Gefühle. Meine Chefin würde sagen: Normalzustand. Sie lügt.

Durch meine wilde Woche lag dieser Artikel einige Tage, heute kam eine weitere Antwort von Hetzner, die ich nicht vorenthalten möchte:

Das Problem ist wohl eine Konstellation aus FTP-Server, Hardware und Betriebssystem. Wir haben jetzt einige Netzwerkparameter optimiert und konnten so die Geschwindigkeit zumindest durchschnittlich auf ~60MB/s erhöhen.
Wenn Du möchtest, kannst Du gerne auch nochmal einen Test mit Deiner Storage Box durchführen und uns mitteilen, ob die Optimierungen auch bei Dir funktionieren.

Mittelfristig werden wir nun schauen, dass wir ggf. den verwendeten FTP-Server austauschen, da andere FTP-Server bei unseren Tests diese Woche deutlich performanter liefen. Das ist aber eine etwas größere Baustelle, die wir kurzfristig nicht umsetzen können.

der selbe Hetzner Mensch wie oben

Problem bei Veeam

Nach dem Hands on weiß ich mehr, aktuell schwer einzuschätzen. Laut Dokumentation ist LUKS mal unterstützt, mal nicht in jeder Kombination. So ganz durchdrungen habe ich das noch nicht, dafür das nachstellen im Lab – da werden die Fragen nur so sprudeln.

Ich würde mir in der Dokumentation eine eigene Sektion für “Special Restores” wünschen. Oder noch besser: Verlinkt einfach unsere Seite 😏

Fragen der Community

Diese Zusammenkunft von Veeam und mir möchte ich nicht nur für (m)ein Problem nutzen. Hier unter den Lesern gibt es so einige “Veeamer”. Was habt ihr für Fragen oder Feature Requests an Veeam? Diese würde ich in dem Hands On für euch einbringen!

Das ist zwar völlig unabgesprochen, mir konnte aber nur selten jemand einen Wunsch ausschlagen. Sorry Veeam, da müsst ihr jetzt durch 😋

Problem bei Hetzner

Laut dem Zitat oben gibt es gibt also ein Problem bei FTPS Zugriffen die sich nicht so einfach lösen lassen, zumindest hört es sich so an. Es war also kein Limit auf ~100 MBit, es ist ein Bug. Bei einem solchen Produkt wäre ein Limit auch nicht ganz unwahrscheinlich. Nun gut, abwarten und Kaffee trinken. Hier muss man wirklich Verständnis haben, eine Lösung muss hier mehrere Bedingungen erfüllen:

  • Mass-Deployment
  • Skalierbar
  • Einfach auszuwechseln sein, da schon etwas anderes im Einsatz ist
  • Die Produktion nicht gefährden. Kundendaten pulverisieren ist nicht schön
  • eventuelle Sachen die ich nicht wissen kann da ich dort nicht arbeite

Das wird wohl keine Sache von zwei Wochen, eher Monaten. Man muss hier einen Grundpfeiler auf dem das Produkt aufbaut einreißen und auch alle Funktionen drumherum mit der neuen Lösung testen.

Problem in Kombination

Hier würde es eigentlich reichen den anderen Artikel zu verlinken. Eine Reihe von Kleinigkeiten, die erstmal nicht schlimm sind – in Kombination aber eine Katastrophe verursachen. Eine Schuldzuweisung, wie in den Kommentaren gemutmaßt wurde, ist hier definitv fehl am Platz. Shit Happens, es muss gelöst werden.

Zwischenlösung

Script mit rclone auf einen S3 Speicher bei AWS. Aktuell können wir kein Schödingers Backup gebrauchen, zumindest bis hier eine abschließende Klärung erfolgt ist.

Bei Hetzner hat wohl ein fleißiges Team gezaubert, die Zahlen sprechen für sich. Die Übertragungsrate ist voll okay:

StorageBox per FTPS – Schwankt manchmal, penelt sich bei 110 MiB/s ein

Hier wird ein zweites Backup abgelegt, die AWS nur als last Backup standing.

Zwischenfazit

Als halbem Personalreferent stellen sich mir die Nackenhaare dabei auf: Man ist stets bemüht, nach ganzen Kräften. Das ist keineswegs gemeint wie die Formulierung im Arbeitszeugnis! Am Ende des Tages ist es halt eben nur Technik und die kann streiken. Es muss immer einer sprichwörtlich “in die Sche*ße greifen” um ein seltenes Problem zu finden, dass dann für alle anderen gelöst wird. Mit einem blauen Auge sind wir ja davongekommen, alle Daten wieder da.

Ich kann mich bei allen Beteiligten nur bedanken! Hier wird von allen Seiten richtig Gas gegeben! Was hierbei nicht weniger wichtig ist: Es werden Fehler/Probleme mit den Produkten eingeräumt. Produkte mit denen Geld verdient werden muss. Normalerweise wird das nicht öffentlich gemacht, diese ehrliche Kommunikation ist bemerkenswert und außergewöhnlich zugleich. Dicker Daumen rauf dafür 👍🏻

Freut euch auf weitere Teile, es gibt noch viel zu tun und ergründen!

Teilt den Beitrag, falls ihr mögt

Abonnieren
Benachrichtige mich bei
1 Kommentar
Most Voted
Newest Oldest
Inline Feedbacks
View all comments