Woodmark Blog

Wählen Sie Ihre Themengebiete
| von Johannes Peter

Apache Tika OCR zum Parsen von Text in Bilddateien oder eingebetteten Bildern PDFs

Das Parsen und Standardisieren von Inhalten aus unterschiedlichen Quellen und Dateitypen ist eine der Hauptanforderungen, um z. B. Inhalte durchsuchbar zu machen. So haben zum Beispiel Dateien aus gemeinsam genutzten Ressourcen selten gemeinsame Kodierungen...

mehr erfahren