Papers

Das papierlose Büro: Paperwork und Paperless-NGX

Ich habe mich in letzter Zeit intensiv mit Dokumentenmanagement-Software (DMS) befasst. Dabei geht es um Digitalisieren und Indexieren von Dokumenten, um einerseits die Papierflut einzudämmen und andererseits Dokumente schnell auffindbar zu machen. Nach meiner Erkenntnis ist der größte Vorteil eines DMS gegenüber der Ablage im Dateisystem, dass ich nicht entscheiden muss, in welchen Ordner ein Dokument gehört, sondern es via Tags mehreren Bereichen zuordnen kann.

Nach Durchsicht der im Open-Source-Umfeld verfügbaren Software bleiben bei mir zwei Anwendungen hängen, die das Spektrum relativ gut abdecken. Die Einstiegsdroge heißt Paperwork und ist in einer halben Stunde erlernbar. Aus dem oberen Mittelfeld stammt Paperless-NGX, das ob seiner erweiterten Möglichkeiten mit einer Lernkurve daherkommt, die nicht an einem Tag zu bewältigen ist.

Paperwork

Das in Python 3 verfasste Paperwork steht für Linux, macOS und Windows zur Verfügung. Das Prinzip lautet »scan & forget« und genauso schnörkellos ist die Bedienung. Die Anwendung liest Dokumente in den Formaten PDF, JPEG, PNG, GIF, BMP und TIFF über sane-kompatible Scanner und von Festplatten im Dateisystem ein und speichert sie als PDF ab. Während des Einlesens läuft eine Texterkennung mit der OCR-Software Tesseract. Paperwork verzichtet auf eine Datenbank, die Dokumente liegen im Home im Ordner papers.

Schnell installiert – schnell kapiert

Die Verbreitung in den Archiven der Distributionen ist gut, zudem ist die Software als Flatpak oder AppImage verfügbar. Bei letzteren muss allerdings die Sane-Schnittstelle händisch eingebunden werden. Ansonsten werden kompatible Scanner nach der Installation erkannt und sind sofort einsatzbereit. Dann sind lediglich noch die Sprachen festzulegen, mit denen die OCR Texte indexieren soll. Jetzt können Dokumente vom Scanner oder aus dem Dateisystem direkt aus der Anwendung eingelesen werden. Im Nachgang können diese mit Schlagworten versehen werden, die bei Paperwork Label heißen. Was der Anwendung noch fehlt, sind Apps für Mobilgeräte und eine native Synchronisation.

Paperless-NGX

Paperless-NGX ist ein anderes Kaliber und bietet in jeder Hinsicht mehr Möglichkeiten. Die bevorzugte Installationsmethode ist per Docker auf einem Home-Server oder NAS. Ein Raspberry Pi 4 oder 5 mit angehängter SSD reicht hier vollkommen aus. Eine Installation direkt auf dem Host ist aber möglich.

Paperless-NGX lässt sich mit verschiedenen Datenbanken vermählen und setzt zudem einen Redis-Container voraus. Am besten ist die Integration in Unraid, das die Integration der Plugins Apache TIKA und Gotenberg bereits vorbereitet hat. Die beiden Erweiterungen sorgen dafür, dass neben PDF und einfachen Textformaten auch die Office-Formate von Microsoft und deren Open-Source-Entsprechungen verarbeitet werden können. Zudem können E-Mails damit als EML eingelesen werden. Unter Beibehaltung der Originale speichert Paperless-NGX die Dokumente als PDF. In Portainer lässt sich Paperless-NGX per Docker Compose ebenfalls mühelos aufsetzen.

Automatisierung

Bei Paperless-NGX wird Automatisierung großgeschrieben. So können E-Mails samt Anhang von einmal definierten Accounts anhand vieler Filterregeln automatisch eingelesen werden. Flachbett- und netzwerkfähige Einzugsscanner können so eingebunden werden, dass ein Knopfdruck genügt, um vielseitige Dokumente beidseitig einzulesen. Eine lernfähige KI sorgt dafür, dass mit der Zeit die Dokumente automatisch korrekt verschlagwortet werden.

Bei Paperless-NGX empfiehlt sich eine langsame Herangehensweise, die vom Lesen der ausführlichen Dokumentation begleitet wird. Noch detaillierter wird Paperless-NGX auf der deutschen Webseite Digital Cleaning erklärt.

Alternativen

Viele Anwender im Heimbereich und in kleinen Büros werden bereits mit Paperwork zufriedengestellt sein. Wenn das Anforderungsprofil auch die Möglichkeiten von Paperless-NGX übersteigt, dann sind Papermerge oder Mayan EDMS einen Blick wert. Bei mir läuft mittlerweile Paperless-NGX auf einem Unraid-Server und das schnelle Auffinden von Dokumenten ist für mich, der ich gerne schludrig mit Dokumenten umgehe, ein wahrer Segen. Zudem hat sich der Papierberg deutlich reduziert, da vieles nach dem Einlesen nicht aufbewahrt werden muss. Wie geht ihr denn mit der Papierflut um?

Im LinuxUser LU 10/2024 habe ich beiden Anwendungen jeweils einen Artikel gewidmet.

Artikelfoto Foto von Pixabay

Teilt den Beitrag, falls ihr mögt

15 Kommentare

  1. Wenn ich es recht verstehe, stehen und fallen diese Programme mit dem OCR. Beide nutzen wohl tesseract.
    Tesseract hatte ich vor einiger Zeit mal standalone probiert und fand es einfach nur furchtbar. Wenn man die Kommentare liest, scheint es aber gut zu funktionieren. Trotzdem hätte ich immer Angst, dass zumindest Details falsch oder gar nicht erkannt werden.

    Auf welche Weise könnte man ggf. die Erkennung optimieren? Andere Programme, irgendwelche Einstellungen, Scanner, etc?
    Danke.

    0
      1. root@ideapad:/home/user# apt install paperwork-gtk paperwork-gtk-l10n-de paperwork-shell paperwork-cli paperwork-json
        Paketlisten werden gelesen… Fertig
        Abhängigkeitsbaum wird aufgebaut… Fertig
        Statusinformationen werden eingelesen… Fertig
        E: Paket paperwork-gtk kann nicht gefunden werden.
        E: Paket paperwork-gtk-l10n-de kann nicht gefunden werden.
        E: Paket paperwork-shell kann nicht gefunden werden.
        E: Paket paperwork-cli kann nicht gefunden werden.
        E: Paket paperwork-json kann nicht gefunden werden.
        root@ideapad:/home/user#
        

        Gibbet nich.

        0
  2. Benutze paperwork seit ca. 2 1/2 Jahren.
    Briefe bekommen einen Eingangsstempel (oder per Hand geschrieben) mit Datum, Rechnungen zusätzlich einen “Haken” mit dem Bezahldatum. Danach geht es in den Scanner, in paperwork wird noch das korrekte Datum (das Erstelldatum vom Absender) gesetzt und nix verschlagwortet; dafür hat es die Suchfunktion und OCR 😉

    Danach kommen die Briefe nach Datum sortiert in den einen, bzw. wenn voll den zweiten, Aktenordner. Feddig.

    Gruß

    1
  3. Ich habe paperless-ngx auch am Start.

    Die Multiuser Einrichtung mit der Zuweisung der entsprechenden Rechte ist etwas Frickelei.

    Letztendlich habe ich es über Arbeitsabläufe mit 2 Aktionen hinbekommen und lasse bei Dokumentenänderung erst alle relevanten Berechtigungen entfernen um sie mit der 2. Aktion dann richtig zu setzen…

    Die Autoerkennung für die Einordnung der Dokumente funktioniert erstaunlich gut.

    Außerdem sind auch viele Informationen und gute Dokumentation im Netz zu paperless-ngx verfügbar.

    Also für mich ein super Tool, was ich nicht mehr missen möchte.

    1
  4. Hier läuft schon recht lange erst paperless und jetzt paperless-ngx auf einem kleinen Debian-Proxmox-Rechner. Ich bin allerdings immer noch (>2000 Dokumente) unzufrieden mit meinem Workflow. Kennt jemand ein Beispiel-Setup für einen Privathaushalt, was Dokumenttypen, Tags, etc. angeht? Ich finde zwar alles, habe aber manches vermutlich redundant, gerade bei den Tags.
    z.B. Tag “Geld” bei Korrespondent “Bank XY” ist ja eigentlich überflüssig…

    0
      1. Der Link funktioniert nicht, Page 404 Fehler
        Ansonsten auch von mir vielen Dank!
        Ist genau das was, nach Einführung von Joplin vor ein paar Jahren, als nächstes für mich zu entdecken gilt.

        Mit Suchen verbringt ein Mitarbeiter ca 7% seiner Bürozeit…

        0

Kommentar hinterlassen