GroupDocs.Parser Übersicht

API zum Durchführen der Dokumentenanalyse in .NET-Anwendungen

Illustration parser

Extrahieren Sie Daten aus Dokumenten

Mit der .NET API können Sie Text, Metadaten und Bilder aus einer Vielzahl von Dateiformaten wie Office-Dokumenten, E-Mails, Anhängen und Archiven abrufen. Dieses leistungsstarke Tool hilft Ihnen, effizient auf die in diesen Dateien enthaltenen wertvollen Informationen zuzugreifen und diese für verschiedene Anwendungen wie Datenanalyse, Suchmaschinenindizierung oder Content-Management-Systeme zu verarbeiten.

Dokumente analysieren

Extrahieren Sie verschiedene Elemente wie Hyperlinks, Tabellen, QR-Codes, Barcodes und Daten aus PDF-Formularen. Analysieren Sie außerdem alle gewünschten Informationen aus Dokumenten mithilfe benutzerdefinierter Vorlagen.

Anpassen der Ergebnisse

Mit der .NET API können Sie Daten in verschiedenen Formaten abrufen, z. B. roh, strukturiert, HTML oder Markdown. Darüber hinaus bietet die API eine Suchfunktion zum Auffinden bestimmter Wörter oder Phrasen im Text von Dokumenten.

Plattformunabhängigkeit

GroupDocs.Parser for .NET unterstützt die folgenden Betriebssysteme, Frameworks und Paketmanager

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Unterstützte Dateiformate

GroupDocs.Parser for .NET unterstützt Vorgänge mit den folgenden Dateiformaten.

Microsoft Office Formate

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Bilder und andere Formate

  • Portable: PDF
  • Bilder: JPG, BMP, PNG, TIFF, GIF
  • Andere Büroformate: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Andere Formate

  • Netz: HTML, MHTML
  • Archiv: ZIP, TAR, 7Z
  • E-Books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser Funktionen

Extrahieren Sie Daten aus PDFs, Office-Dokumenten und Bildern schnell und genau.

Feature icon

Text extrahieren

Extrahieren Sie Textinformationen aus verschiedenen Dateiformaten wie Office-Dokumenten, PDF-Dateien und Bildern für eine einfache Lesbarkeit und Analyse.

Feature icon

Bilder extrahieren

Rufen Sie visuelle Inhalte aus verschiedenen Quellen wie Office-Dokumenten und PDF Dateien ab, um bequem darauf zuzugreifen und sie zu verwenden.

Feature icon

QR-Codes scannen

Erkennen und dekodieren Sie QR-Codes in Bürodokumenten, PDF Dateien oder visuellen Inhalten für einen effizienten Informationsabruf.

Feature icon

Extrahieren Sie Daten aus E-Mail-Anhängen und Archiven

Sammeln Sie wertvolle Informationen aus E-Mail-Nachrichten, Dateianhängen und komprimierten Datenquellen für eine effektive Analyse und Nutzung.

Feature icon

Tabellen extrahieren

Identifizieren und extrahieren Sie tabellarische Daten aus PDF Dokumenten zur organisierten Analyse und Verwendung.

Feature icon

Extrahieren Sie Hyperlinks

Suchen und extrahieren Sie Hyperlinks und E-Mail-Adressen in Office-Dokumenten oder PDF-Dateien für einen effizienten Zugriff.

Feature icon

Analysieren Sie PDF-Formulare

PDF Formulare sind digitale Dokumente mit ausfüllbaren Feldern für die Benutzerinteraktion, die es ihnen ermöglichen, Informationen elektronisch einzugeben. Die .NET API kann verwendet werden, um Daten aus diesen Formularen für eine effiziente Verarbeitung zu extrahieren.

Feature icon

Analysieren Sie Daten nach Vorlagen

Erstellen Sie benutzerdefinierte Vorlagen und nutzen Sie diese mit der .NET-API, um bestimmte Informationen aus PDF-Dateien zu analysieren und so Datenextraktionsprozesse zu vereinfachen.

Feature icon

Suchen Sie einen Text in Dokumenten

Finden Sie schnell bestimmte Wörter oder Muster in Dokumenten.

Codebeispiel

Einige Anwendungsfälle typischer Vorgänge

Extrahieren Sie Bilder aus PDF-Dokumenten

Die .NET API erleichtert C#-Entwicklern das Extrahieren von Bildern aus Dokumenten durch die Implementierung einiger einfacher Schritte.

Bilder aus PDF-Dokumenten in C# extrahieren

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Extract images
    var images = parser.GetImages();

    // Check if images extraction is supported
    if (images != null)
    {
        var imageIndex = 0;

        // Iterate over images
        foreach (var image in images)
        {
            // Save the image to the file
            image.Save($"{++imageIndex}{image.FileType.Extension}");
        }
    }
}

Barcodes aus Bildern extrahieren

Die .NET API erleichtert C#-Entwicklern das Extrahieren von Barcodes aus Dokumenten durch die Implementierung einiger einfacher Schritte.

Barcodes aus Bildern extrahieren

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Check if the file supports barcode extracting
    if (parser.Features.Barcodes)
    {
        // Extract barcodes from the file.
        var barcodes = parser.GetBarcodes();

        // Iterate over barcodes
        foreach (var barcode in barcodes)
        {
            // Print the page index
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Print the barcode value
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}
 Deutsch