GroupDocs.Parser for Java

Text aus XML mit Java abrufen

Ziehen Sie problemlos lesbaren oder strukturierten Text aus Dateien wie PDF, Word, Excel und mehr mithilfe von GroupDocs.Parser in Ihren Java-Entwicklungsprojekten.

Wie man Text aus Xml mit Java abruft

Befolgen Sie die folgenden Schritte, um Text aus XML-Dateien mithilfe von GroupDocs.Parser in Ihrem Java-Projekt zu extrahieren:

  1. Laden Sie das XML-Dokument mit der Parser-Klasse.
  2. Führen Sie die Textextraktion aus dem Dateinhalt durch.
  3. Überprüfen Sie, ob der Text erfolgreich abgerufen wurde.
  4. Verwenden Sie die Textdaten in Such-, Analyse- oder Automatisierungssystemen.
// Initialisieren Sie Parser mit Ihrem Dokument
try (Parser parser = new Parser("input.xml"))
{
    // Lesen und extrahieren Sie alle Textdaten
    try (TextReader reader = parser.getText())
    {
        // Geben Sie null zurück, wenn der Textinhalt fehlt
        // Integrieren Sie den extrahierten Text in Ihren Workflow
        System.out.println(reader == null ? 
            "Überspringen Sie nicht unterstützte Textformate" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Klicken zum Kopieren
Kopiert
Weitere Beispiele Dokumentation

Umfassende Funktionen zur Textextraktion

GroupDocs.Parser geht über die einfache Textextraktion hinaus und unterstützt die Abfrage von Bildern, Metadaten und strukturierten Daten zur Verbesserung von Inhaltsverarbeitungsaufgaben.

Textinhalte aus Dokumenten extrahieren und strukturieren

Funktioniert mit zahlreichen Dokumentformaten

Erfassen Sie sowohl Roh- als auch strukturierten Text aus DOCX, XLSX, PPTX, PDF, HTML und verschiedenen anderen Formaten.

Textextraktion aus visuellen und textuellen Inhalten

Analysieren Sie Text aus gescannten Dokumenten, Folien, Tabellenkalkulationen und anderen Dateitypen, während Sie die logische Struktur beibehalten.

Detaillierte Kontrolle über den Extraktionsprozess

Konfigurieren Sie Seitenbereiche, Layoutzonen und Genauigkeitsparameter für eine präzise Textextraktion.

Beispiel: Extraktion von Textregionen aus einem PPTX-Dokument

Dieses Beispiel demonstriert die Extraktion von Textblöcken sowie deren räumlichen Koordinaten aus einer PowerPoint-Präsentation mit GroupDocs.Parser.

Java

//  Laden Sie Ihre PPTX-Datei mit der Parser-API
try (Parser parser = new Parser("input.pptx"))
{
    // Holen Sie sich alle rechteckigen Textzonen
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Beenden Sie, wenn diese Funktion nicht unterstützt wird
    if (areas == null)
    {
        return;
    }

    // Durchlaufen Sie Textbereiche nach Seite
    for (PageTextArea a : areas)
    {
        // Verarbeiten Sie jeden Textblock mit seiner Seitennummer und dem umschreibenden Rechteck
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Einführung in die GroupDocs.Parser for Java API

GroupDocs.Parser ist ein leistungsstarker und skalierbarer Dokumentenparser, der für Java-Entwickler konzipiert wurde. Er bietet die Möglichkeit, Texte, Tabellen, Bilder und strukturierte Komponenten aus verschiedenen Formaten wie PDF, DOCX, XLSX, PPTX und anderen genau zu extrahieren – ganz ohne externe Hilfsprogramme.
Mehr erfahren
About illustration

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Unterstützte Dateitypen zur Textextraktion

GroupDocs.Parser ist in der Lage, Textinhalte aus zahlreichen Datei- und Bildformaten zu extrahieren. Nachfolgend sind die am häufigsten verwendeten Typen aufgeführt, die unterstützt werden.

Tipps zur temporären Lizenz

1
Melden Sie sich mit Ihrer geschäftlichen E-Mail-Adresse an. Kostenlose E-Mail-Dienste sind nicht zulässig.
2
Klicken Sie im zweiten Schritt auf die Schaltfläche Provisorische Lizenz anfordern.
 Deutsch