GroupDocs.Parser for .NET

Tabellen aus EPUB mit C# extrahieren

Identifizieren und extrahieren Sie schnell Tabellenstrukturen aus PDF, Word, Excel und anderen Dateiformaten mit GroupDocs.Parser in Ihren .NET-Projekten.

Schritte zur Extraktion von Tabellen aus Epub in C#

Befolgen Sie diese Anweisungen, um Tabellen aus EPUB-Dateien mit GroupDocs.Parser in Ihrer .NET-Umgebung zu extrahieren:

  1. Initialisieren Sie eine Instanz von Parser und laden Sie Ihr EPUB-Dokument.
  2. Überprüfen Sie, ob die Tabellenerfassung für das Eingabeformat unterstützt wird.
  3. Extrahieren Sie den Tabelleninhalt aus der Datei.
  4. Verwenden Sie die strukturierten Tabellendaten für Berichte, Automatisierung oder Analytik.
// Öffnen Sie das Dokument, das Tabellendaten enthält, mit Parser
using (Parser parser = new Parser("input.epub")) {

    // Überprüfen Sie, ob das Format die Tabellenkennung unterstützt
    if (!parser.Features.Tables) {
        Console.WriteLine("Behandeln Sie Dokumente, die keine Tabellenverarbeitung unterstützen");
        return;
    }

    // Definieren Sie, wie die Tabellenstruktur erkannt werden soll
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // Geben Sie Extraktionsparameter für Tabellendaten an
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Extrahieren Sie Tabellen aus dem Dateiinhalte
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  Durchlaufen Sie jede erkannte Tabelle
    foreach (PageTableArea t in tables)
    {
    }
}
dotnet add package GroupDocs.Parser
Klicken zum Kopieren
Kopiert
Weitere Beispiele Dokumentation

Leistungsstarke Datenextraktionsmöglichkeiten

Neben der Tabellenerfassung kann GroupDocs.Parser auch reichhaltige Inhalte wie Textblöcke, Bilder, Metadaten und andere strukturierte Daten extrahieren, um die Dokumentenautomatisierung zu erleichtern.

Tabellenerkennung und Inhaltsextraktion

Präzise Erkennung von Tabellen in mehreren Formaten

Extrahieren Sie tabellarische Daten aus DOCX, XLSX, PDF, HTML und ähnlichen Formaten mit hoher Präzision.

Tabellenstrukturen aus Dateien analysieren

Rufen Sie effizient Tabellendaten aus Dokumenten und Tabellenkalkulationen ab, ohne Formatierungsverlust.

Flexible Konfiguration der Tabellenerfassung

Passen Sie die Layout-Erkennung, die Spaltenausrichtung und die Kopf-/Fußzeilenoptionen für eine präzise Kontrolle über die Ausgabe an.

So extrahieren Sie Tabellen aus Excel-Tabellenkalkulationen

Dieses Codebeispiel zeigt, wie Sie Tabellendaten in einer XLSX-Datei mit GroupDocs.Parser lesen und durchlaufen.

C#

//  Öffnen Sie die Excel-Datei mit der Parser-API
using (Parser parser = new Parser("input.xlsx"))
{
    // Beenden Sie, wenn Tabellen nicht aus der Datei extrahiert werden können
    if (!parser.Features.Tables)
    {
        return;
    }

    // Verwenden Sie Layoutregeln, um tabellarischen Inhalt zu lokalisieren
    TemplateTableLayout layout = new TemplateTableLayout(
            new double[] { 50, 95, 275, 415, 485, 545 },
            new double[] { 325, 340, 365, 395 });

    // Richten Sie Extraktionsparameter für Tabellen ein
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Führen Sie die Tabellenerfassungsoperation durch
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    // Durchlaufen Sie jede erkannte Tabellenstruktur
    foreach (PageTableArea t in tables)
    {
        // Iterieren Sie durch jede Zeile in der Tabelle
        for (int row = 0; row < t.RowCount; row++)
        {
            // Durchlaufen Sie die Zellen in jeder Reihe
            for (int column = 0; column < t.ColumnCount; column++)
            {
                // Greifen Sie auf die aktuelle Tabellenzelle zu
                PageTableAreaCell cell = t[row, column];
                if (cell != null)
                {
                    // Zeigen Sie den Textinhalt jeder Zelle an
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
        }
    }
}

Über die GroupDocs.Parser for .NET-API

GroupDocs.Parser ist eine umfassende API zur Dokumentenverarbeitung, die für .NET-Entwickler entwickelt wurde. Sie ermöglicht die genaue Extraktion von Text, Tabellen, Bildern, Hyperlinks und anderen strukturierten Elementen aus Formaten wie PDF, DOCX, XLSX, PPTX und vielen anderen – ohne die Notwendigkeit von Drittanbietersoftware.
Mehr erfahren
About illustration

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Unterstützte Formate für die Tabellenerfassung

GroupDocs.Parser kann Tabellendaten aus einer Vielzahl von Dokumenttypen extrahieren. Nachfolgend sind die am häufigsten verwendeten Formate für die strukturierte Tabellenverarbeitung aufgeführt.

Tipps zur temporären Lizenz

1
Melden Sie sich mit Ihrer geschäftlichen E-Mail-Adresse an. Kostenlose E-Mail-Dienste sind nicht zulässig.
2
Klicken Sie im zweiten Schritt auf die Schaltfläche Provisorische Lizenz anfordern.
 Deutsch