Ich habe mich in letzter Zeit intensiv mit Dokumentenmanagement-Software (DMS) befasst. Dabei geht es um Digitalisieren und Indexieren von Dokumenten, um einerseits die Papierflut einzudämmen und andererseits Dokumente schnell auffindbar zu machen. Nach meiner Erkenntnis ist der größte Vorteil eines DMS gegenüber der Ablage im Dateisystem, dass ich nicht entscheiden muss, in welchen Ordner ein Dokument gehört, sondern es via Tags mehreren Bereichen zuordnen kann.
Nach Durchsicht der im Open-Source-Umfeld verfügbaren Software bleiben bei mir zwei Anwendungen hängen, die das Spektrum relativ gut abdecken. Die Einstiegsdroge heißt Paperwork und ist in einer halben Stunde erlernbar. Aus dem oberen Mittelfeld stammt Paperless-NGX, das ob seiner erweiterten Möglichkeiten mit einer Lernkurve daherkommt, die nicht an einem Tag zu bewältigen ist.
Paperwork
Das in Python 3 verfasste Paperwork steht für Linux, macOS und Windows zur Verfügung. Das Prinzip lautet »scan & forget« und genauso schnörkellos ist die Bedienung. Die Anwendung liest Dokumente in den Formaten PDF, JPEG, PNG, GIF, BMP und TIFF über sane-kompatible Scanner und von Festplatten im Dateisystem ein und speichert sie als PDF ab. Während des Einlesens läuft eine Texterkennung mit der OCR-Software Tesseract. Paperwork verzichtet auf eine Datenbank, die Dokumente liegen im Home im Ordner papers.
Schnell installiert – schnell kapiert
Die Verbreitung in den Archiven der Distributionen ist gut, zudem ist die Software als Flatpak oder AppImage verfügbar. Bei letzteren muss allerdings die Sane-Schnittstelle händisch eingebunden werden. Ansonsten werden kompatible Scanner nach der Installation erkannt und sind sofort einsatzbereit. Dann sind lediglich noch die Sprachen festzulegen, mit denen die OCR Texte indexieren soll. Jetzt können Dokumente vom Scanner oder aus dem Dateisystem direkt aus der Anwendung eingelesen werden. Im Nachgang können diese mit Schlagworten versehen werden, die bei Paperwork Label heißen. Was der Anwendung noch fehlt, sind Apps für Mobilgeräte und eine native Synchronisation.

Paperless-NGX
Paperless-NGX ist ein anderes Kaliber und bietet in jeder Hinsicht mehr Möglichkeiten. Die bevorzugte Installationsmethode ist per Docker auf einem Home-Server oder NAS. Ein Raspberry Pi 4 oder 5 mit angehängter SSD reicht hier vollkommen aus. Eine Installation direkt auf dem Host ist aber möglich.
Paperless-NGX lässt sich mit verschiedenen Datenbanken vermählen und setzt zudem einen Redis-Container voraus. Am besten ist die Integration in Unraid, das die Integration der Plugins Apache TIKA und Gotenberg bereits vorbereitet hat. Die beiden Erweiterungen sorgen dafür, dass neben PDF und einfachen Textformaten auch die Office-Formate von Microsoft und deren Open-Source-Entsprechungen verarbeitet werden können. Zudem können E-Mails damit als EML eingelesen werden. Unter Beibehaltung der Originale speichert Paperless-NGX die Dokumente als PDF. In Portainer lässt sich Paperless-NGX per Docker Compose ebenfalls mühelos aufsetzen.
Automatisierung
Bei Paperless-NGX wird Automatisierung großgeschrieben. So können E-Mails samt Anhang von einmal definierten Accounts anhand vieler Filterregeln automatisch eingelesen werden. Flachbett- und netzwerkfähige Einzugsscanner können so eingebunden werden, dass ein Knopfdruck genügt, um vielseitige Dokumente beidseitig einzulesen. Eine lernfähige KI sorgt dafür, dass mit der Zeit die Dokumente automatisch korrekt verschlagwortet werden.
Bei Paperless-NGX empfiehlt sich eine langsame Herangehensweise, die vom Lesen der ausführlichen Dokumentation begleitet wird. Noch detaillierter wird Paperless-NGX auf der deutschen Webseite Digital Cleaning erklärt.

Alternativen
Viele Anwender im Heimbereich und in kleinen Büros werden bereits mit Paperwork zufriedengestellt sein. Wenn das Anforderungsprofil auch die Möglichkeiten von Paperless-NGX übersteigt, dann sind Papermerge oder Mayan EDMS einen Blick wert. Bei mir läuft mittlerweile Paperless-NGX auf einem Unraid-Server und das schnelle Auffinden von Dokumenten ist für mich, der ich gerne schludrig mit Dokumenten umgehe, ein wahrer Segen. Zudem hat sich der Papierberg deutlich reduziert, da vieles nach dem Einlesen nicht aufbewahrt werden muss. Wie geht ihr denn mit der Papierflut um?
Im LinuxUser LU 10/2024 habe ich beiden Anwendungen jeweils einen Artikel gewidmet.
Artikelfoto Foto von Pixabay

Wenn ich es recht verstehe, stehen und fallen diese Programme mit dem OCR. Beide nutzen wohl tesseract.
Tesseract hatte ich vor einiger Zeit mal standalone probiert und fand es einfach nur furchtbar. Wenn man die Kommentare liest, scheint es aber gut zu funktionieren. Trotzdem hätte ich immer Angst, dass zumindest Details falsch oder gar nicht erkannt werden.
Auf welche Weise könnte man ggf. die Erkennung optimieren? Andere Programme, irgendwelche Einstellungen, Scanner, etc?
Danke.
Die Erkennungsrate der OCR hängt wohl sehr von der Art, Struktur und Sprache der eingescannten Dokumente ab. Aus meiner Erfahrung funktioniert sie bei deutsch- und englischsprachigen Dokumenten sehr gut.
Ist in 24.04 (Ubuntu Budgie) nicht vorhanden.
https://www.openpaper.work/de/download/linux#debian
Das Paket heißt
paperwork-gtkoderpaperwork-cli, falls du das bevorzugst.Gibbet nich.
Was hast du da für ein OS installiert? Die Pakete sind in Unstable, Stable und Oldstable. Siehe https://packages.debian.org/search?keywords=+paperwork-gtk&searchon=names&suite=all§ion=all
Edit: Ich sehe gerade: Ubuntu 24.04. Sehr Schwache Leistung. Alternative: https://flathub.org/apps/work.openpaper.Paperwork
Benutze paperwork seit ca. 2 1/2 Jahren.
Briefe bekommen einen Eingangsstempel (oder per Hand geschrieben) mit Datum, Rechnungen zusätzlich einen “Haken” mit dem Bezahldatum. Danach geht es in den Scanner, in paperwork wird noch das korrekte Datum (das Erstelldatum vom Absender) gesetzt und nix verschlagwortet; dafür hat es die Suchfunktion und OCR 😉
Danach kommen die Briefe nach Datum sortiert in den einen, bzw. wenn voll den zweiten, Aktenordner. Feddig.
Gruß
Ich habe paperless-ngx auch am Start.
Die Multiuser Einrichtung mit der Zuweisung der entsprechenden Rechte ist etwas Frickelei.
Letztendlich habe ich es über Arbeitsabläufe mit 2 Aktionen hinbekommen und lasse bei Dokumentenänderung erst alle relevanten Berechtigungen entfernen um sie mit der 2. Aktion dann richtig zu setzen…
Die Autoerkennung für die Einordnung der Dokumente funktioniert erstaunlich gut.
Außerdem sind auch viele Informationen und gute Dokumentation im Netz zu paperless-ngx verfügbar.
Also für mich ein super Tool, was ich nicht mehr missen möchte.
Hier läuft schon recht lange erst paperless und jetzt paperless-ngx auf einem kleinen Debian-Proxmox-Rechner. Ich bin allerdings immer noch (>2000 Dokumente) unzufrieden mit meinem Workflow. Kennt jemand ein Beispiel-Setup für einen Privathaushalt, was Dokumenttypen, Tags, etc. angeht? Ich finde zwar alles, habe aber manches vermutlich redundant, gerade bei den Tags.
z.B. Tag “Geld” bei Korrespondent “Bank XY” ist ja eigentlich überflüssig…
Vielleicht hilft das: https://paperless.codeberg.page/paperless/2022-02/paperless-tags/
Vielen Dank für diesen Artikel. Das ist genau das was ich schon gesucht habe. Super. Das wird zuhause gleich ausprobiert!
Viel Spaß. Paperless-NGX hat übrigens auch eine Demo
Der Link funktioniert nicht, Page 404 Fehler
Ansonsten auch von mir vielen Dank!
Ist genau das was, nach Einführung von Joplin vor ein paar Jahren, als nächstes für mich zu entdecken gilt.
Mit Suchen verbringt ein Mitarbeiter ca 7% seiner Bürozeit…
Die Demo-Version wird regelmäßig wieder auf den Zustand nach der Installation zurückgesetzt. Vermutlich hast du genau diesen Zeitpunkt erwischt. Derzeit ist die Demo-Installation erreichbar.
Danke. Herr Thommes bitte mehr von solchen Programmvorstellungen. Ich bin gerade richtig entzückt von Paperwork und fleißig am importieren. Einfach nur Klasse dieses Programm.