Wie kann man herausfinden, ob beim Documentviewer OCR aktiv ist? Meldung "ocr is disabled"

Wie kann man herausfinden, ob beim Documentviewer OCR aktiv ist? Meldung "ocr is disabled"

Der Documentviewer kann durchsuchbare Vorschauen erstellen und enthält seit enaio 7.10 auch die Daten für den Volltext. Bei Bilddokumenten und einigen PDFs wird daher u.U. eine OCR-Erkennung benötigt, um den Text auszulesen. Der Documentviewer beinhaltet eine Vielzahl an Convertern, die aus den verschiedensten Dateiformaten versuchen die Texte auszulesen. 

Es gibt mehrere OCR-Tools, z. Bsp. Cuneiform oder andere externe Converter. Bei diesen erwartet der Documentviewer die externe Bereitstellung der Texte für den Volltext. Es kümmert sich quasi nicht um die Text-Erstellung und erstellt sich auch keine OCR-Jobs. Empfehlung: Finereader aktivieren. Damit erstellt sich der Documentviewer OCR-Jobs, die vom OCRService angeholt werden können. Ab enaio 11.10 kann der OCRService neben Abbyy Finereader auch Tesseract benutzen. Hierfür muss beim Documentviewer nur Finereader aktiviert werden. Verarbeitungskette, siehe: 
Wie wird ein Dokument verarbeitet (CPQueue-Fluss)
Lediglich der OCRService benötigt die Lizenz SMU und eine gültige Lizenz für den Abbyy Finereader bzw. TES für Tesseract.

Standardmäßig ist die OCR-Engine bei Neuinstallation im Documentviewer deaktiviert. Das hat die Meldung "ocr is disabled" zur Folge. Um es noch deutlicher sichtbar zu machen, wird auch im Documentviewer-Cache-Verzeichnis die Marker-Datei im Text-Verzeichnis entsprechend benannt.

Wichtig: Wenn nachträglich Finereader aktiviert wird, wirkt sich das nur auf neue Dokumente aus. Die Daten im Documentviewer-Cache werden NICHT automatisch angepasst. Sollen diese nachträglich auch geändert werden, bitte den Cache neu aufbauen, siehe Wie kann man den Documentviewer-Cache neu aufbauen?

Bitte auch beachten: Der Documentviewer legt grundsätzlich eine ocr_error-Marker-Datei in das Documentviewer\Cache-Verzeichnis. Wenn die OCR fertig ist, wird diese Datei ausgetauscht. Ansonsten bleibt sie liegen. 

 

Schritt-für-Schritt-Anleitung

Vor den Anpassungen empfiehlt es sich die Konfiguration des Documentviewers zu sichern. 
Gesicherten werden sollten die config-Dateien von webapps\RenditionCache- und webapps\RenditionPlus-Einstellungen, siehe Übersicht der Config-Dateien der Kerndienste

 

Über die Documentviewer-Admin-Seite:

  1. Die enaio Documentviewer-Admin-Seite öffnen und prüfen, ob Finereader aktiviert ist - Tab Renditioncache. Falls die Admin-Seite nicht geöffnet werden, kann, bitte wie folgt lösen: 
    Documentviewer - Adminseite
    Beispiel-Seite:

  2. Ist "Finereader" nicht aktiv, aktivieren, speichern und den enaio Documentviewer neu starten.

  3. Sollten mehrere Documentviewer aktiv sein, bitte bei allen Documentviewern prüfen - auch bei Documentviewern mit "cbp=false"!  

  4. Danach im Client ein Bilddokument recherchieren und die Vorschau neu erstellen. In den Documentviewer-Logs (renditioncache und renditionplus) sowie im Documentivewer-Cache prüfen, ob das Problem behoben ist.

 

Falls man nicht über die Admin-Oberfläche gehen möchte:

  1. In das Verzeichnis services\documentviewer\webapps\osrenditioncache\web-inf\classes\config\ wechseln.

  2. Die Datei route.properties öffnen und den Eintrag ocr-engine auf "finereader" stellen. Bitte auf Groß-Kleinschreibung achten. 

  3. nur in enaio 9.10 musste in der config.properties noch der Parameter "finereader.active=true" gesetzt werden. In den aktuellen Versionen wird dies nicht benötigt. Wenn man diese Eintrag in aktuellen enaio Versionen einfügt und den Documentviewer-Dienst neu startet, wird er entfernt. 

 

Zusätzliche Formate freischalten, sprich: wenn der Dokumenttyp nicht TIF oder PDF ist, z. Bsp. JPG oder PNG

  1. In das Verzeichnis services\documentviewer\webapps\osrenditioncache\web-inf\classes\config\ wechseln.

  2. Die Datei config.properties öffnen und den Eintrag "rendition.ocrSelectionPredicate" erweitern um den Dokumenttyp. Bilddateien beginnen immer mit "image/". Beispiel für png:

  3. Danach speichern und den Dienst enaio Documentviewer neu starten. Erst ab diesem Zeitpunkt werden für alle Dokumente, die erstellt oder geändert oder die Vorschau neu erstellt wird, auch OCR ausgeführt. 

 

Vor den Anpassungen empfiehlt es sich die Konfiguration des Documentviewers zu sichern. 
Gesicherten werden sollten die config-Dateien von webapps\RenditionCache- und webapps\RenditionPlus-Einstellungen, siehe Übersicht der Config-Dateien der Kerndienste

 

Verwandte Artikel