Ich habe mich in letzter Zeit intensiv mit Dokumentenmanagement-Software (DMS) befasst. Dabei geht es um Digitalisieren und Indexieren von Dokumenten, um einerseits die Papierflut einzudämmen und andererseits Dokumente schnell auffindbar zu machen. Nach meiner Erkenntnis ist der größte Vorteil eines DMS gegenüber der Ablage im Dateisystem, dass ich nicht entscheiden muss, in welchen Ordner ein Dokument gehört, sondern es via Tags mehreren Bereichen zuordnen kann.
Nach Durchsicht der im Open-Source-Umfeld verfügbaren Software bleiben bei mir zwei Anwendungen hängen, die das Spektrum relativ gut abdecken. Die Einstiegsdroge heißt Paperwork und ist in einer halben Stunde erlernbar. Aus dem oberen Mittelfeld stammt Paperless-NGX, das ob seiner erweiterten Möglichkeiten mit einer Lernkurve daherkommt, die nicht an einem Tag zu bewältigen ist.
Paperwork
Das in Python 3 verfasste Paperwork steht für Linux, macOS und Windows zur Verfügung. Das Prinzip lautet »scan & forget« und genauso schnörkellos ist die Bedienung. Die Anwendung liest Dokumente in den Formaten PDF, JPEG, PNG, GIF, BMP und TIFF über sane-kompatible Scanner und von Festplatten im Dateisystem ein und speichert sie als PDF ab. Während des Einlesens läuft eine Texterkennung mit der OCR-Software Tesseract. Paperwork verzichtet auf eine Datenbank, die Dokumente liegen im Home im Ordner papers.
Schnell installiert – schnell kapiert
Die Verbreitung in den Archiven der Distributionen ist gut, zudem ist die Software als Flatpak oder AppImage verfügbar. Bei letzteren muss allerdings die Sane-Schnittstelle händisch eingebunden werden. Ansonsten werden kompatible Scanner nach der Installation erkannt und sind sofort einsatzbereit. Dann sind lediglich noch die Sprachen festzulegen, mit denen die OCR Texte indexieren soll. Jetzt können Dokumente vom Scanner oder aus dem Dateisystem direkt aus der Anwendung eingelesen werden. Im Nachgang können diese mit Schlagworten versehen werden, die bei Paperwork Label heißen. Was der Anwendung noch fehlt, sind Apps für Mobilgeräte und eine native Synchronisation.
Paperless-NGX
Paperless-NGX ist ein anderes Kaliber und bietet in jeder Hinsicht mehr Möglichkeiten. Die bevorzugte Installationsmethode ist per Docker auf einem Home-Server oder NAS. Ein Raspberry Pi 4 oder 5 mit angehängter SSD reicht hier vollkommen aus. Eine Installation direkt auf dem Host ist aber möglich.
Paperless-NGX lässt sich mit verschiedenen Datenbanken vermählen und setzt zudem einen Redis-Container voraus. Am besten ist die Integration in Unraid, das die Integration der Plugins Apache TIKA und Gotenberg bereits vorbereitet hat. Die beiden Erweiterungen sorgen dafür, dass neben PDF und einfachen Textformaten auch die Office-Formate von Microsoft und deren Open-Source-Entsprechungen verarbeitet werden können. Zudem können E-Mails damit als EML eingelesen werden. Unter Beibehaltung der Originale speichert Paperless-NGX die Dokumente als PDF. In Portainer lässt sich Paperless-NGX per Docker Compose ebenfalls mühelos aufsetzen.
Automatisierung
Bei Paperless-NGX wird Automatisierung großgeschrieben. So können E-Mails samt Anhang von einmal definierten Accounts anhand vieler Filterregeln automatisch eingelesen werden. Flachbett- und netzwerkfähige Einzugsscanner können so eingebunden werden, dass ein Knopfdruck genügt, um vielseitige Dokumente beidseitig einzulesen. Eine lernfähige KI sorgt dafür, dass mit der Zeit die Dokumente automatisch korrekt verschlagwortet werden.
Bei Paperless-NGX empfiehlt sich eine langsame Herangehensweise, die vom Lesen der ausführlichen Dokumentation begleitet wird. Noch detaillierter wird Paperless-NGX auf der deutschen Webseite Digital Cleaning erklärt.
Alternativen
Viele Anwender im Heimbereich und in kleinen Büros werden bereits mit Paperwork zufriedengestellt sein. Wenn das Anforderungsprofil auch die Möglichkeiten von Paperless-NGX übersteigt, dann sind Papermerge oder Mayan EDMS einen Blick wert. Bei mir läuft mittlerweile Paperless-NGX auf einem Unraid-Server und das schnelle Auffinden von Dokumenten ist für mich, der ich gerne schludrig mit Dokumenten umgehe, ein wahrer Segen. Zudem hat sich der Papierberg deutlich reduziert, da vieles nach dem Einlesen nicht aufbewahrt werden muss. Wie geht ihr denn mit der Papierflut um?
Im LinuxUser LU 10/2024 habe ich beiden Anwendungen jeweils einen Artikel gewidmet.
Artikelfoto Foto von Pixabay