Wie kann man herausfinden, ob beim Documentviewer OCR aktiv ist? Meldung "ocr is disabled"
Der Documentviewer kann durchsuchbare Vorschauen erstellen und enthält seit enaio 7.10 auch die Daten für den Volltext. Bei Bilddokumenten und einigen PDFs wird daher u.U. eine OCR-Erkennung benötigt, um den Text auszulesen. Der Documentviewer beinhaltet eine Vielzahl an Convertern, die aus den verschiedensten Dateiformaten versuchen die Texte auszulesen.
Es gibt mehrere OCR-Tools, z. Bsp. Cuneiform oder andere externe Converter. Bei diesen erwartet der Documentviewer die externe Bereitstellung der Texte für den Volltext. Es kümmert sich quasi nicht um die Text-Erstellung und erstellt sich auch keine OCR-Jobs. Empfehlung: Finereader aktivieren. Damit erstellt sich der Documentviewer OCR-Jobs, die vom OCRService angeholt werden können. Ab enaio 11.10 kann der OCRService neben Abbyy Finereader auch Tesseract benutzen. Hierfür muss beim Documentviewer nur Finereader aktiviert werden. Verarbeitungskette, siehe:
Wie wird ein Dokument verarbeitet (CPQueue-Fluss)
Lediglich der OCRService benötigt die Lizenz SMU und eine gültige Lizenz für den Abbyy Finereader bzw. TES für Tesseract.
Standardmäßig ist die OCR-Engine bei Neuinstallation im Documentviewer deaktiviert. Das hat die Meldung "ocr is disabled" zur Folge. Um es noch deutlicher sichtbar zu machen, wird auch im Documentviewer-Cache-Verzeichnis die Marker-Datei im Text-Verzeichnis entsprechend benannt.
Wichtig: Wenn nachträglich Finereader aktiviert wird, wirkt sich das nur auf neue Dokumente aus. Die Daten im Documentviewer-Cache werden NICHT automatisch angepasst. Sollen diese nachträglich auch geändert werden, bitte den Cache neu aufbauen, siehe Wie kann man den Documentviewer-Cache neu aufbauen?
Bitte auch beachten: Der Documentviewer legt grundsätzlich eine ocr_error-Marker-Datei in das Documentviewer\Cache-Verzeichnis. Wenn die OCR fertig ist, wird diese Datei ausgetauscht. Ansonsten bleibt sie liegen.
Schritt-für-Schritt-Anleitung
Vor den Anpassungen empfiehlt es sich die Konfiguration des Documentviewers zu sichern.
Gesicherten werden sollten die config-Dateien von webapps\RenditionCache- und webapps\RenditionPlus-Einstellungen, siehe Übersicht der Config-Dateien der Kerndienste
Über die Documentviewer-Admin-Seite:
Falls man nicht über die Admin-Oberfläche gehen möchte:
Zusätzliche Formate freischalten, sprich: wenn der Dokumenttyp nicht TIF oder PDF ist, z. Bsp. JPG oder PNG
Vor den Anpassungen empfiehlt es sich die Konfiguration des Documentviewers zu sichern.
Gesicherten werden sollten die config-Dateien von webapps\RenditionCache- und webapps\RenditionPlus-Einstellungen, siehe Übersicht der Config-Dateien der Kerndienste
Verwandte Artikel