GroupDocs.Parser for .NET

PDF-Dokumente mit C# parsen

Effiziente Extraktion von Text, Metadaten, Tabellen und Bildern aus PDF-, Word-, Excel- und Bilddateien unter Verwendung von GroupDocs.Parser in Ihren .NET-Projekten.

NuGet-Download

Kostenlose Testversion starten

Schritte zur Extraktion von Daten aus Pdf in C#

Befolgen Sie diese Schritte, um Inhalte aus PDF-Dokumenten in Ihren .NET-Apps mithilfe von GroupDocs.Parser zu parsen:

Laden Sie das PDF-Dokument mithilfe einer Parser-Instanz.
Extrahieren Sie den gewünschten Inhalt wie Text, Tabellen oder Metadaten.
Überprüfen Sie, ob die extrahierten Daten gültig sind.
Verwenden Sie die geparsten Ausgaben in Ihren nachgelagerten Prozessen, Automatisierungen oder Geschäftssystemen.

Kopieren

// Laden Sie Ihr Dokument in Parser
using (Parser parser = new Parser("input.pdf")) {

    // Extrahieren Sie den gesamten Textinhalt aus der Datei
    using (TextReader reader = parser.GetText()) 
    {
        // Wenn der Text nicht verfügbar ist, ist das Ergebnis null
        // Verwenden Sie den extrahierten Text in Ihrer Anwendung
        Console.WriteLine(reader == null ? 
            "Die Textextraktion wird für dieses Format nicht unterstützt" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

Klicken zum Kopieren

Kopiert

Weitere Beispiele Dokumentation

Umfangreiche Dokumentenverarbeitungsfunktionen

GroupDocs.Parser bietet mehr als nur das Lesen von Text – es unterstützt die Extraktion von Barcodes, das Parsen von Bildern, den Zugriff auf Metadaten und die Verarbeitung strukturierter Daten für fortschrittliche Automatisierung und Datenanalyse.

Dokumenteninhalts-Extraktions- und Verarbeitungsfunktionen

Unterstützung für verschiedene Dateitypen

Extrahieren Sie Daten, einschließlich Text, Bilder, Tabellen und Felder aus Dokumentformaten wie PDF, Word, Excel, HTML und mehr.

Arbeiten Sie mit gescannten und digitalen Dateien

Parsen Sie Daten sowohl aus gescannten Dokumenten als auch aus digital geborenen Dateien, mit Unterstützung für OCR und layoutbewusste Extraktionen.

Konfigurierbare Extraktionsparameter

Passen Sie die Parsing-Logik mit flexiblen Optionen wie Seitenbereichsauswahl, Zielregionen und Felderkennungsvorlagen an.

Wie man PDF anhand von Vorlagen parst

Dieses Beispiel zeigt, wie man strukturierte Daten aus einem PDF mithilfe einer vordefinierten Parsing-Vorlage mit GroupDocs.Parser extrahiert.

C#

//  Laden Sie die PDF-Datei mit der Parser-Klasse
using (Parser parser = new Parser("input.pdf"))
{
    // Parsen Sie das Dokument gemäß der Vorlage
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Überprüfen Sie, ob die Formulartextraktion unterstützt wird
    if (data == null)
    {
        return;
    }

    // Verarbeiten Sie die erhaltenen Felder
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Erstellen Sie die Detektorparameter für die Tabelle 'Details'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

Über die GroupDocs.Parser for .NET-API

GroupDocs.Parser ist eine funktionsreiche Dokumentenverarbeitungs-API, die für .NET-Entwickler entwickelt wurde. Sie unterstützt die Extraktion von einfachem und strukturiertem Text, Metadaten, Bildern, Tabellen und Barcodes aus gängigen Formaten wie PDF, DOCX, XLSX, PPTX und mehr – ganz ohne zusätzliche Software-Abhängigkeiten.

Mehr erfahren

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

NuGet-Download

Kostenlose Testversion starten

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Bezahlte Unterstützung

Unterstützte Formate für die Datenextraktion

GroupDocs.Parser ermöglicht das Parsen über ein breites Spektrum an Dokumenten- und Bildformaten. Entdecken Sie die unterstützten Dateitypen, die häufig in Datenextraktions-Workflows verwendet werden.

DOCX parsen
(Office 2007+ Word-Dokument)
PPTX parsen
(Open XML-Präsentationsformat)
XLSX parsen
(Open XML-Arbeitsmappe)
TXT parsen
(Textdatei)
RTF parsen
(Rich Text Format)
XML parsen
(eXtensible Markup Language)
EPUB parsen
(Open eBook-Datei)