Public OCR API (kurz: POA) ist ein HTTP-Webservice (basierend auf NodeJS), der als REST Schnittstelle den Standard Public OCR API Definition (POAD) implementiert.
Als POA wird jeder OCR Dienst bezeichnet, der die POAD Schnittstelle anbietet. Unabhängig vom Hersteller.
Diese POA-Implementierung ist Open Source. Sie kann ganz einfach zur OCR-Erkennung für Ihre Business Anwendung(en) aktiviert werden. Einfach einschalten und schon haben Sie Ihren eigenen, kostenfreien OCR-Dienst einsatzbereit; in Sekundenschnelle.
Sie können damit Texte von Bildern oder PDF Dokumenten extrahieren. Außerdem können Sie PDF/A Dateien aus Ihren Eingangsformaten erzeugen. Der erkannte Text wird in einer unsichtbaren Ebene über das Ursprungsdokument gelegt, sodass "auf" dem originalen Bild der Text selektiert (für Copy&Paste) werden kann.
Die eingesetzten Bibliotheken sind ebenfalls OpenSource und vielen bekannt, die sich bereits mit dem Thema beschäftigt haben. Die Basis Erkennungstechnologie heißt tesseract, aus dem Hause HP bzw. Google (seit Veröffentlichung).
Sie ist "unter der Haube" in vielen "Real-life Anwendungen", aber auch als Basis von unterschiedlichen proprietären Lösungen im Einsatz.
Eine unvollständige Liste finden Sie auf Wikipedia.
Gleich testen?
Bevor Sie Zeit zur Installation verwenden, können Sie unseren Dienst direkt in unserer Sandbox testen.
Für kleinere Datenaufkommen (bis 50 pro Tag) können Sie unseren Dienst auch direkt kostenfrei einsetzen.
Berücksichtigen Sie aber bitte, dass wir keinerlei Verbindlichkeiten zur Verfügbarkeit etc. für diesen kostenfreien Dienst eingehen.
Sie wollen den Funktionsumfang erweitern?
Sie können jederzeit einen Fork von unserem Github Repository erstellen und die Funktionalität nach Belieben erweitern. Über nützliche Pull-Requests freuen wir uns auch jederzeit!