GroupDocs.Parser Übersicht

API zum Durchführen der Dokumentenanalyse in Java-Anwendungen

Illustration parser

Extrahieren Sie Daten aus Dokumenten

Mit der Java-API können Sie Text, Metadaten und Bilder aus einer Vielzahl von Dateiformaten wie Office-Dokumenten, E-Mails, Anhängen und Archiven abrufen. Dieses leistungsstarke Tool hilft Ihnen, effizient auf die in diesen Dateien enthaltenen wertvollen Informationen zuzugreifen und diese für verschiedene Anwendungen wie Datenanalyse, Suchmaschinenindizierung oder Content-Management-Systeme zu verarbeiten.

Dokumente analysieren

Extrahieren Sie verschiedene Elemente wie Hyperlinks, Tabellen, QR-Codes, Barcodes und Daten aus PDF-Formularen. Analysieren Sie außerdem alle gewünschten Informationen aus Dokumenten mithilfe benutzerdefinierter Vorlagen.

Anpassen der Ergebnisse

Mit der Java API können Sie Daten in verschiedenen Formaten abrufen, z. B. roh, strukturiert, HTML oder Markdown. Darüber hinaus bietet die API eine Suchfunktion zum Auffinden bestimmter Wörter oder Phrasen im Text von Dokumenten.

Plattformunabhängigkeit

GroupDocs.Parser for Java unterstützt die folgenden Betriebssysteme, Frameworks und Paketmanager

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Unterstützte Dateiformate

GroupDocs.Parser for Java unterstützt Vorgänge mit den folgenden Dateiformaten.

Microsoft Office Formate

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Bilder und andere Formate

  • Portable: PDF
  • Bilder: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • Andere Büroformate: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Andere Formate

  • Netz: HTML, MHTML
  • Archiv: ZIP, TAR, 7Z
  • E-Books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser Funktionen

Extrahieren Sie Daten aus PDFs, Office-Dokumenten und Bildern schnell und genau.

Feature icon

Text extrahieren

Extrahieren Sie Textinformationen aus verschiedenen Dateiformaten wie Office-Dokumenten, PDF-Dateien und Bildern für eine einfache Lesbarkeit und Analyse.

Feature icon

Bilder extrahieren

Rufen Sie visuelle Inhalte aus verschiedenen Quellen wie Office-Dokumenten und PDF Dateien ab, um bequem darauf zuzugreifen und sie zu verwenden.

Feature icon

QR-Codes scannen

Erkennen und dekodieren Sie QR-Codes in Bürodokumenten, PDF Dateien oder visuellen Inhalten für einen effizienten Informationsabruf.

Feature icon

Extrahieren Sie Daten aus E-Mail-Anhängen und Archiven

Sammeln Sie wertvolle Informationen aus E-Mail-Nachrichten, Dateianhängen und komprimierten Datenquellen für eine effektive Analyse und Nutzung.

Feature icon

Tabellen extrahieren

Identifizieren und extrahieren Sie tabellarische Daten aus PDF Dokumenten zur organisierten Analyse und Verwendung.

Feature icon

Extrahieren Sie Hyperlinks

Suchen und extrahieren Sie Hyperlinks und E-Mail-Adressen in Office-Dokumenten oder PDF-Dateien für einen effizienten Zugriff.

Feature icon

Analysieren Sie PDF-Formulare

PDF Formulare sind digitale Dokumente mit ausfüllbaren Feldern für die Benutzerinteraktion, die es ihnen ermöglichen, Informationen elektronisch einzugeben. Mithilfe der Java-API können Daten aus diesen Formularen für eine effiziente Verarbeitung extrahiert werden.

Feature icon

Analysieren Sie Daten nach Vorlagen

Erstellen Sie benutzerdefinierte Vorlagen und nutzen Sie diese mit der Java-API, um bestimmte Informationen aus PDF-Dateien zu analysieren und so Datenextraktionsprozesse zu vereinfachen.

Feature icon

Suchen Sie einen Text in Dokumenten

Finden Sie schnell bestimmte Wörter oder Muster in Dokumenten.

Codebeispiel

Einige Anwendungsfälle typischer GroupDocs.Parser for Java-Vorgänge

Extrahieren Sie Bilder aus PDF-Dokumenten

Die Java-API erleichtert Java-Entwicklern das Extrahieren von Bildern aus Dokumenten durch die Implementierung einiger einfacher Schritte.

Extrahieren Sie Bilder aus PDF Dokumenten in Java

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

Barcodes aus Bildern extrahieren

Die Java-API erleichtert Java-Entwicklern das Extrahieren von Barcodes aus Dokumenten durch die Implementierung einiger einfacher Schritte.

Barcodes aus Bildern extrahieren

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}
 Deutsch