Text aus ODT in Java extrahieren

Extrahieren Sie Text aus ODT mit ein paar Zeilen Java-Code.


Download kostenlose Testversion

Wie extrahiere ich einen Text aus der ODT-API der Datei Java?

GroupDocs.Parser for Java ist eine Text-, Bild- und Metadaten-Extraktor-API, die mehr als 50 gängige Dokumenttypen unterstützt, um die Erstellung von Geschäftsanwendungen mit Funktionen zum Parsen von rohem, strukturiertem und formatiertem Text zu unterstützen. Es unterstützt auch das Parsen von Dokumenten mithilfe vordefinierter Vorlagen und ermöglicht das schnelle und genaue Extrahieren komplexer Daten aus Rechnungen und anderen typischen Dokumenten. Mit GroupDocs.Parser for Java können Sie Text und Metadaten aus passwortgeschützten Dateien aller gängigen Formate extrahieren, einschließlich Word Verarbeitungsdokumenten, Excel Tabellenkalkulationen, PowerPoint Präsentationen, OneNote, PDF Dateien und ZIP Archiven.

Die GroupDocs.Parser API ist die richtige Wahl für Unternehmenslösungen, die eine Funktion zum Extrahieren von Dateitext benötigen. Diese APIs werden auf allen wichtigen Betriebssystemen und Plattformen, einschließlich Java runtime: J2SE 6.0 and above, gut unterstützt.

Text aus ODT in Java extrahieren

GroupDocs.Parser for Java erleichtert Java-Entwicklern das Extrahieren eines Textes aus einer ODT-Datei durch die Implementierung einiger einfacher Schritte.

  • Instanziieren Sie das Parser-Objekt für das ursprüngliche Dokument.
  • Rufen Sie die Methode getText auf und rufen Sie TextReader-Objekt;
  • Überprüfen Sie, ob der Reader nicht null ist (Textextraktion wird für das Dokument unterstützt);
  • Lesen Sie einen Text vom Leser.

So extrahieren Sie Text aus der Datei ODT mithilfe des Beispielcodes Java

// Extrahieren Sie Text aus der Datei ODT mit der API GroupDocs.Parser
// Erstellen Sie eine Instanz der Parser-Klasse
try (Parser parser = new Parser(filePath)) {
    // Extrahieren Sie einen Text in den Reader
    try (TextReader reader = parser.getText()) {
        // Drucken Sie einen Text aus dem Dokument
        // Wenn die Textextraktion nicht unterstützt wird, ist ein Leser null
        System.out.println(reader == null ? "Textextraktion wird nicht unterstützt" : reader.readToEnd());
    }
}

System Anforderungen

GroupDocs.Parser for Java APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind.

  • Betriebssysteme: Microsoft Windows, Linux, MacOS
  • Entwicklungsumgebungen: NetBeans, Intellij IDEA, Eclipse, etc.
  • Rahmenwerke
  • Laden Sie die neueste Version von GroupDocs.Parser for Java von Maven herunter.

Warum GroupDocs.Parser for Java verwenden?

  • Unterstützung für die Extraktion von Klartext aus allen unterstützten Dokumenten
  • Parsen von Dokumenten über benutzerdefinierte Vorlagen
  • Vollständige Unterstützung der strukturierten Textextraktion
  • Textsuche über Schlüsselwörter sowie reguläre Ausdrücke
  • Extrahieren Sie formatierten Text, Metadaten, Bilder, Container und Anhänge
  • Extrahieren Sie das Inhaltsverzeichnis für einige unterstützte Dokumentformate
  • Analysieren Sie Formulardaten aus PDF-Dokumenten
  • Extrahieren Sie Hyperlinks aus dem Dokument

Live-Demos – Extrahieren Sie Text aus ODT Online

Extrahieren Sie jetzt Text aus der Datei ODT, indem Sie die Website GroupDocs.Parser Live Demos besuchen. Die Live-Demo bietet folgende Vorteile.

Sie müssen die GroupDocs-API nicht herunterladen

Es muss kein Code geschrieben werden

Laden Sie einfach die Quelldatei hoch, um eine sofortige Anzeige zu erhalten

Holen Sie sich den Download-Link, um die Datei auf Ihrem Computer zu speichern

Extrahieren Sie Text aus anderen Dokumentformaten

Java API zum Parsen und Extrahieren von Dokumenten für Dateiformate und Bilder. Extrahieren Sie Daten für einige der gängigen Dateiformate, wie unten aufgeführt.

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

PPS

(PowerPoint Slide Show)

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

Back to top
 Deutsch