Extrahieren Sie Text aus Dokumenten in Java

Extrahieren Sie Text aus Dokumenten mit ein paar Zeilen Java-Code.


Download kostenlose Testversion

Wie extrahiere ich einen Text aus der Datei-API Java?

GroupDocs.Parser for Java ist eine Text-, Bild- und Metadaten-Extraktor-API, die mehr als 50 gängige Dokumenttypen unterstützt, um die Erstellung von Geschäftsanwendungen mit Funktionen zum Parsen von rohem, strukturiertem und formatiertem Text zu unterstützen. Es unterstützt auch das Parsen von Dokumenten mithilfe vordefinierter Vorlagen und ermöglicht das schnelle und genaue Extrahieren komplexer Daten aus Rechnungen und anderen typischen Dokumenten. Mit GroupDocs.Parser for Java können Sie Text und Metadaten aus passwortgeschützten Dateien aller gängigen Formate extrahieren, einschließlich Word Verarbeitungsdokumenten, Excel Tabellenkalkulationen, PowerPoint Präsentationen, OneNote, PDF Dateien und ZIP Archiven.

Die GroupDocs.Parser API ist die richtige Wahl für Unternehmenslösungen, die eine Funktion zum Extrahieren von Dateitext benötigen. Diese APIs werden auf allen wichtigen Betriebssystemen und Plattformen, einschließlich Java runtime: J2SE 6.0 and above, gut unterstützt.

Extrahieren Sie Text aus Dokumenten in Java

GroupDocs.Parser for Java erleichtert Java Entwicklern das Extrahieren eines Textes aus Dokumenten durch die Implementierung einiger einfacher Schritte.

  • Instanziieren Sie das Parser-Objekt für das ursprüngliche Dokument.
  • Rufen Sie die Methode getText auf und rufen Sie TextReader-Objekt;
  • Überprüfen Sie, ob der Reader nicht null ist (Textextraktion wird für das Dokument unterstützt);
  • Lesen Sie einen Text vom Leser.

So extrahieren Sie Text aus Dokumenten mithilfe des Beispielcodes Java

// Extrahieren Sie Text aus Dokumenten mithilfe der GroupDocs.Parser-API
// Erstellen Sie eine Instanz der Parser-Klasse
try (Parser parser = new Parser(filePath)) {
    // Extrahieren Sie einen Text in den Reader
    try (TextReader reader = parser.getText()) {
        // Drucken Sie einen Text aus dem Dokument
        // Wenn die Textextraktion nicht unterstützt wird, ist ein Leser null
        System.out.println(reader == null ? "Textextraktion wird nicht unterstützt" : reader.readToEnd());
    }
}

System Anforderungen

GroupDocs.Parser for Java APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind.

  • Betriebssysteme: Microsoft Windows, Linux, MacOS
  • Entwicklungsumgebungen: NetBeans, Intellij IDEA, Eclipse, etc.
  • Rahmenwerke
  • Laden Sie die neueste Version von GroupDocs.Parser for Java von Maven herunter.

Warum GroupDocs.Parser for Java verwenden?

  • Unterstützung für die Extraktion von Klartext aus allen unterstützten Dokumenten
  • Parsen von Dokumenten über benutzerdefinierte Vorlagen
  • Vollständige Unterstützung der strukturierten Textextraktion
  • Textsuche über Schlüsselwörter sowie reguläre Ausdrücke
  • Extrahieren Sie formatierten Text, Metadaten, Bilder, Container und Anhänge
  • Extrahieren Sie das Inhaltsverzeichnis für einige unterstützte Dokumentformate
  • Analysieren Sie Formulardaten aus PDF-Dokumenten
  • Extrahieren Sie Hyperlinks aus dem Dokument

Live-Demos – Text aus Dokumenten online extrahieren

Extrahieren Sie jetzt Text aus Dokumenten, indem Sie die Website GroupDocs.Parser Live Demos besuchen. Die Live-Demo bietet folgende Vorteile.

Sie müssen die GroupDocs-API nicht herunterladen

Es muss kein Code geschrieben werden

Laden Sie einfach die Quelldatei hoch, um eine sofortige Anzeige zu erhalten

Holen Sie sich den Download-Link, um die Datei auf Ihrem Computer zu speichern

Extrahieren Sie Text aus anderen Dokumentformaten

Java API zum Parsen und Extrahieren von Dokumenten für Dateiformate und Bilder. Extrahieren Sie Daten für einige der gängigen Dateiformate, wie unten aufgeführt.

DOC

(Microsoft Word Binary Format)

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Deutsch