Das papierlose Büro: Paperwork und Paperless-NGX

19. August 2024 Ferdinand News 15 Kommentare

Ich habe mich in letzter Zeit intensiv mit Dokumentenmanagement-Software (DMS) befasst. Dabei geht es um Digitalisieren und Indexieren von Dokumenten, um einerseits die Papierflut einzudämmen und andererseits Dokumente schnell auffindbar zu machen. Nach meiner Erkenntnis ist der größte Vorteil eines DMS gegenüber der Ablage im Dateisystem, dass ich nicht entscheiden muss, in welchen Ordner ein Dokument gehört, sondern es via Tags mehreren Bereichen zuordnen kann.

Nach Durchsicht der im Open-Source-Umfeld verfügbaren Software bleiben bei mir zwei Anwendungen hängen, die das Spektrum relativ gut abdecken. Die Einstiegsdroge heißt Paperwork und ist in einer halben Stunde erlernbar. Aus dem oberen Mittelfeld stammt Paperless-NGX, das ob seiner erweiterten Möglichkeiten mit einer Lernkurve daherkommt, die nicht an einem Tag zu bewältigen ist.

Paperwork

Das in Python 3 verfasste Paperwork steht für Linux, macOS und Windows zur Verfügung. Das Prinzip lautet »scan & forget« und genauso schnörkellos ist die Bedienung. Die Anwendung liest Dokumente in den Formaten PDF, JPEG, PNG, GIF, BMP und TIFF über sane-kompatible Scanner und von Festplatten im Dateisystem ein und speichert sie als PDF ab. Während des Einlesens läuft eine Texterkennung mit der OCR-Software Tesseract. Paperwork verzichtet auf eine Datenbank, die Dokumente liegen im Home im Ordner papers.

Schnell installiert – schnell kapiert

Die Verbreitung in den Archiven der Distributionen ist gut, zudem ist die Software als Flatpak oder AppImage verfügbar. Bei letzteren muss allerdings die Sane-Schnittstelle händisch eingebunden werden. Ansonsten werden kompatible Scanner nach der Installation erkannt und sind sofort einsatzbereit. Dann sind lediglich noch die Sprachen festzulegen, mit denen die OCR Texte indexieren soll. Jetzt können Dokumente vom Scanner oder aus dem Dateisystem direkt aus der Anwendung eingelesen werden. Im Nachgang können diese mit Schlagworten versehen werden, die bei Paperwork Label heißen. Was der Anwendung noch fehlt, sind Apps für Mobilgeräte und eine native Synchronisation.

Paperless-NGX

Paperless-NGX ist ein anderes Kaliber und bietet in jeder Hinsicht mehr Möglichkeiten. Die bevorzugte Installationsmethode ist per Docker auf einem Home-Server oder NAS. Ein Raspberry Pi 4 oder 5 mit angehängter SSD reicht hier vollkommen aus. Eine Installation direkt auf dem Host ist aber möglich.

Paperless-NGX lässt sich mit verschiedenen Datenbanken vermählen und setzt zudem einen Redis-Container voraus. Am besten ist die Integration in Unraid, das die Integration der Plugins Apache TIKA und Gotenberg bereits vorbereitet hat. Die beiden Erweiterungen sorgen dafür, dass neben PDF und einfachen Textformaten auch die Office-Formate von Microsoft und deren Open-Source-Entsprechungen verarbeitet werden können. Zudem können E-Mails damit als EML eingelesen werden. Unter Beibehaltung der Originale speichert Paperless-NGX die Dokumente als PDF. In Portainer lässt sich Paperless-NGX per Docker Compose ebenfalls mühelos aufsetzen.

Automatisierung

Bei Paperless-NGX wird Automatisierung großgeschrieben. So können E-Mails samt Anhang von einmal definierten Accounts anhand vieler Filterregeln automatisch eingelesen werden. Flachbett- und netzwerkfähige Einzugsscanner können so eingebunden werden, dass ein Knopfdruck genügt, um vielseitige Dokumente beidseitig einzulesen. Eine lernfähige KI sorgt dafür, dass mit der Zeit die Dokumente automatisch korrekt verschlagwortet werden.

Bei Paperless-NGX empfiehlt sich eine langsame Herangehensweise, die vom Lesen der ausführlichen Dokumentation begleitet wird. Noch detaillierter wird Paperless-NGX auf der deutschen Webseite Digital Cleaning erklärt.

Alternativen

Viele Anwender im Heimbereich und in kleinen Büros werden bereits mit Paperwork zufriedengestellt sein. Wenn das Anforderungsprofil auch die Möglichkeiten von Paperless-NGX übersteigt, dann sind Papermerge oder Mayan EDMS einen Blick wert. Bei mir läuft mittlerweile Paperless-NGX auf einem Unraid-Server und das schnelle Auffinden von Dokumenten ist für mich, der ich gerne schludrig mit Dokumenten umgehe, ein wahrer Segen. Zudem hat sich der Papierberg deutlich reduziert, da vieles nach dem Einlesen nicht aufbewahrt werden muss. Wie geht ihr denn mit der Papierflut um?

Im LinuxUser LU 10/2024 habe ich beiden Anwendungen jeweils einen Artikel gewidmet.

Artikelfoto Foto von Pixabay

15 Kommentare

cas sagt:

1. September 2024 um 14:26 Uhr

Wenn ich es recht verstehe, stehen und fallen diese Programme mit dem OCR. Beide nutzen wohl tesseract.
Tesseract hatte ich vor einiger Zeit mal standalone probiert und fand es einfach nur furchtbar. Wenn man die Kommentare liest, scheint es aber gut zu funktionieren. Trotzdem hätte ich immer Angst, dass zumindest Details falsch oder gar nicht erkannt werden.

Auf welche Weise könnte man ggf. die Erkennung optimieren? Andere Programme, irgendwelche Einstellungen, Scanner, etc?
Danke.

0

Zum Antworten anmelden
1. adminx sagt:
  
  2. September 2024 um 7:31 Uhr
  
  Die Erkennungsrate der OCR hängt wohl sehr von der Art, Struktur und Sprache der eingescannten Dokumente ab. Aus meiner Erfahrung funktioniert sie bei deutsch- und englischsprachigen Dokumenten sehr gut.
  
  1
  
  Zum Antworten anmelden
Monsieur Hulot sagt:

20. August 2024 um 19:10 Uhr
```
root@ideapad:/home/user# apt search paperwork
Sortierung… Fertig
Volltextsuche… Fertig
root@ideapad:/home/user#
```
Ist in 24.04 (Ubuntu Budgie) nicht vorhanden.
https://www.openpaper.work/de/download/linux#debian

0
Zum Antworten anmelden
1. adminx sagt:
  
  20. August 2024 um 22:46 Uhr
  
  Das Paket heißt paperwork-gtk oder paperwork-cli, falls du das bevorzugst.
  
  0
  
  Zum Antworten anmelden
  1. Monsieur Hulot sagt:
    
    21. August 2024 um 18:09 Uhr
    root@ideapad:/home/user# apt install paperwork-gtk paperwork-gtk-l10n-de paperwork-shell paperwork-cli paperwork-json Paketlisten werden gelesen… Fertig Abhängigkeitsbaum wird aufgebaut… Fertig Statusinformationen werden eingelesen… Fertig E: Paket paperwork-gtk kann nicht gefunden werden. E: Paket paperwork-gtk-l10n-de kann nicht gefunden werden. E: Paket paperwork-shell kann nicht gefunden werden. E: Paket paperwork-cli kann nicht gefunden werden. E: Paket paperwork-json kann nicht gefunden werden. root@ideapad:/home/user#
    
    Gibbet nich.
    
    0
    Zum Antworten anmelden
    1. adminx sagt:
      
      21. August 2024 um 20:46 Uhr
      
      Was hast du da für ein OS installiert? Die Pakete sind in Unstable, Stable und Oldstable. Siehe https://packages.debian.org/search?keywords=+paperwork-gtk&searchon=names&suite=all&section=all
      
      Edit: Ich sehe gerade: Ubuntu 24.04. Sehr Schwache Leistung. Alternative: https://flathub.org/apps/work.openpaper.Paperwork
      
      0
      
      Zum Antworten anmelden
sebastian sagt:

19. August 2024 um 21:58 Uhr

Benutze paperwork seit ca. 2 1/2 Jahren.
Briefe bekommen einen Eingangsstempel (oder per Hand geschrieben) mit Datum, Rechnungen zusätzlich einen “Haken” mit dem Bezahldatum. Danach geht es in den Scanner, in paperwork wird noch das korrekte Datum (das Erstelldatum vom Absender) gesetzt und nix verschlagwortet; dafür hat es die Suchfunktion und OCR 😉

Danach kommen die Briefe nach Datum sortiert in den einen, bzw. wenn voll den zweiten, Aktenordner. Feddig.

Gruß

1

Zum Antworten anmelden
denis.robel sagt:

19. August 2024 um 11:15 Uhr

Ich habe paperless-ngx auch am Start.

Die Multiuser Einrichtung mit der Zuweisung der entsprechenden Rechte ist etwas Frickelei.

Letztendlich habe ich es über Arbeitsabläufe mit 2 Aktionen hinbekommen und lasse bei Dokumentenänderung erst alle relevanten Berechtigungen entfernen um sie mit der 2. Aktion dann richtig zu setzen…

Die Autoerkennung für die Einordnung der Dokumente funktioniert erstaunlich gut.

Außerdem sind auch viele Informationen und gute Dokumentation im Netz zu paperless-ngx verfügbar.

Also für mich ein super Tool, was ich nicht mehr missen möchte.

1

Zum Antworten anmelden
helge sagt:

19. August 2024 um 10:44 Uhr

Hier läuft schon recht lange erst paperless und jetzt paperless-ngx auf einem kleinen Debian-Proxmox-Rechner. Ich bin allerdings immer noch (>2000 Dokumente) unzufrieden mit meinem Workflow. Kennt jemand ein Beispiel-Setup für einen Privathaushalt, was Dokumenttypen, Tags, etc. angeht? Ich finde zwar alles, habe aber manches vermutlich redundant, gerade bei den Tags.
z.B. Tag “Geld” bei Korrespondent “Bank XY” ist ja eigentlich überflüssig…

0

Zum Antworten anmelden
1. adminx sagt:
  
  21. August 2024 um 20:53 Uhr
  
  Vielleicht hilft das: https://paperless.codeberg.page/paperless/2022-02/paperless-tags/
  
  0
  
  Zum Antworten anmelden
sagt:

19. August 2024 um 10:09 Uhr

Vielen Dank für diesen Artikel. Das ist genau das was ich schon gesucht habe. Super. Das wird zuhause gleich ausprobiert!

0

Zum Antworten anmelden
1. adminx sagt:
  
  19. August 2024 um 10:25 Uhr
  
  Viel Spaß. Paperless-NGX hat übrigens auch eine Demo
  
  1
  
  Zum Antworten anmelden
  1. kai452 sagt:
    
    19. August 2024 um 11:05 Uhr
    
    Der Link funktioniert nicht, Page 404 Fehler
    Ansonsten auch von mir vielen Dank!
    Ist genau das was, nach Einführung von Joplin vor ein paar Jahren, als nächstes für mich zu entdecken gilt.
    
    Mit Suchen verbringt ein Mitarbeiter ca 7% seiner Bürozeit…
    
    0
    
    Zum Antworten anmelden
    1. Fryboyter sagt:
      
      20. August 2024 um 12:19 Uhr
      
      Die Demo-Version wird regelmäßig wieder auf den Zustand nach der Installation zurückgesetzt. Vermutlich hast du genau diesen Zeitpunkt erwischt. Derzeit ist die Demo-Installation erreichbar.
      
      0
      
      Zum Antworten anmelden
  2. sagt:
    
    19. August 2024 um 18:19 Uhr
    
    Danke. Herr Thommes bitte mehr von solchen Programmvorstellungen. Ich bin gerade richtig entzückt von Paperwork und fleißig am importieren. Einfach nur Klasse dieses Programm.
    
    0
    
    Zum Antworten anmelden

Kommentar hinterlassen Antwort abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.