GroupDocs.Parser for Java

Daten aus XLSX-Dokumenten in Java extrahieren

Extrahieren Sie nahtlos strukturierte Inhalte wie Text, Metadaten, Tabellen und Grafiken aus PDFs, Word-, Excel- und bildbasierten Dokumenten mithilfe von GroupDocs.Parser in Ihren Java-Apps.

Maven-Download

Kostenlose Testversion starten

Wie man Daten aus Xlsx mit Java extrahiert

Um nützliche Informationen aus XLSX-Dokumenten in Ihren Java-Projekten mit GroupDocs.Parser zu extrahieren, folgen Sie diesen Anweisungen:

Öffnen Sie die XLSX-Datei mit einem Parser-Objekt.
Verwenden Sie den Parser, um die erforderlichen Daten (Text, Tabellen, Metadaten usw.) abzurufen.
Stellen Sie sicher, dass die Ausgabe korrekt und vollständig ist.
Integrieren Sie den geparsten Inhalt in Ihren Datenfluss, Geschäftsprozesse oder Anwendungen.

Kopieren

// Initialisieren Sie Ihren Parser mit dem Eingabedokument
try (Parser parser = new Parser("input.xlsx"))
{
    // Rufen Sie den gesamten verfügbaren Textinhalt aus dem Dokument ab
    try (TextReader reader = parser.getText())
    {
        // Wenn kein Text gefunden wird, ist der Rückgabewert null
        // Integrieren Sie den extrahierten Inhalt in Ihre Lösung
        System.out.println(reader == null ? 
            "Dieses Format unterstützt möglicherweise keine Textextraktion" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Klicken zum Kopieren

Kopiert

Weitere Beispiele Dokumentation

Vielseitige Parsing-Funktionalitäten von Dokumenten

GroupDocs.Parser bietet mehr als nur Textextraktion – es unterstützt das vollständige Parsen von Barcodes, Metadaten, Bildern, Tabellen und anderen Daten, um intelligente Automatisierung und datengestützte Anwendungen zu ermöglichen.

Visuelle Übersicht über das Parsen und die Extraktion von Dokumentendaten

Extraktion aus mehreren Dateiformaten

Greifen Sie auf Daten wie Text, Tabellen und Medien aus weit verbreiteten Dateitypen wie PDF, Word, Excel, PowerPoint, HTML und anderen zu.

Inhalte aus digitalen und gescannten Quellen parsen

Verarbeiten Sie Inhalte aus sowohl nativen digitalen Dateien als auch gescannten Bildern, wobei OCR bei Bedarf zum Interpretieren eingebetteter Texte eingesetzt wird.

Flexible Konfigurationsoptionen

Passen Sie Ihr Parsing mit Einstellungen zur Seitenauswahl, Layoutzonen und benutzerdefinierten Feldvorlagen an, um spezifische Extraktionsbedürfnisse zu erfüllen.

PDF mit einer Datenauszugsvorlage parsen

Dieses Beispiel zeigt, wie man strukturierte Felder aus einem PDF mit einer benutzerdefinierten Vorlage über GroupDocs.Parser extrahiert.

Java

//  Öffnen Sie das PDF mit der Parser-Klasse
try (Parser parser = new Parser("input.pdf"))
{
    // Wenden Sie die Parsing-Vorlage an, um die definierten Daten zu extrahieren
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Überprüfen Sie, ob die extrahierte Vorlagenbasierte Funktion verfügbar ist
    if (data == null) {
        return;
    }

    // Arbeiten Sie mit den extrahierten Datenfeldern
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Definieren Sie die Einstellungen für den Detektor zur Extraktion des Abschnitts 'Details'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Was ist GroupDocs.Parser for Java?

GroupDocs.Parser ist eine leistungsstarke API, die für Java-Entwickler entwickelt wurde und fortschrittliche Dokumentenparsing-Funktionalitäten bietet. Sie ermöglicht es Ihnen, textuelle Daten, Bilder, Tabellen, strukturierte Felder und Barcodes aus zahlreichen Formaten wie PDF, DOCX, XLSX, PPTX und mehr zu extrahieren und zu verarbeiten – alles ohne zusätzliche Bibliotheken installieren zu müssen.

Mehr erfahren

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Maven-Download

Kostenlose Testversion starten

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Bezahlte Unterstützung

Unterstützte Dateitypen für die Inhalteextraktion

GroupDocs.Parser ist mit einer Vielzahl von Dokumenten- und Bilddateitypen kompatibel, wodurch die Informationen aus gängigen Formaten in Parsing- und Datenautomatisierungsszenarien leicht extrahiert werden können.

PDF parsen
(Portable Document Format)
DOCX parsen
(Office 2007+ Word-Dokument)
PPTX parsen
(Open XML-Präsentationsformat)
TXT parsen
(Textdatei)
RTF parsen
(Rich Text Format)
XML parsen
(eXtensible Markup Language)
EPUB parsen
(Open eBook-Datei)