Extrahieren Sie Tabellen aus Excel-, Word-, PDF- und PowerPoint-Dokumenten über die C#.NET-API

Mit der API GroupDocs.Parser .NET können Programmierer Tabellen aus PDF, DOC, DOCX, PPT, PPTX, EML, MSG, XLS, XLSX und CSV extrahieren , ODT, RTF & EPUB Dokumente oder Seiten.


Download kostenlose Testversion

Wie extrahiere ich Tabellen aus DOC-Dateien über die .NET-API?

Eine Tabelle ist die Sammlung von Zellen, die in Zeilen und Spalten angeordnet sind. Tabellen spielen eine sehr wichtige Rolle beim Speichern und Organisieren detaillierter oder komplizierter Daten, damit die Benutzer sie leicht lesen und anzeigen können. Tabellen können auf vielfältige Weise verwendet werden, z. B. zum Erstellen von Listen, zum Vergleichen von Informationen, zum Ausrichten von Daten, zum Gruppieren von Informationen, zum Hervorheben von Trends oder Mustern in Daten und vielem mehr. GroupDocs.Parser for .NET ist eine nützliche API, die es Softwareprogrammierern ermöglicht, Lösungen zum Extrahieren von Tabellen, Text und Bildern aus verschiedenen Arten unterstützter Dokumentformate zu entwickeln, wie z. B. PDF, E-Mails, E-Books, Word (DOC, { 318}), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), E-Mail-Formate (EML, MSG) und viele mehr. Die .NET-API enthält mehrere wichtige Funktionen für die Arbeit mit Tabellen, z. B. das Extrahieren aller Tabellen aus einem Dokument, das Extrahieren einer Tabelle aus einer bestimmten Seite, das Abrufen von Tabellenzellendaten, das Abrufen der Gesamtzahl der Tabellenzeilen und -spalten sowie das Abrufen der Zeilenhöhe. Daten einer Tabelle drucken und vieles mehr.

Tabellen aus DOC in .NET extrahieren

GroupDocs.Parser for .NET erleichtert C#-Entwicklern das Extrahieren von Tabellen aus einer DOC-Datei durch die Implementierung einiger einfacher Schritte.

So extrahieren Sie Tabellen aus der Datei DOC mithilfe des Beispielcodes C#

// Extrahieren Sie Tabellen aus der Datei DOC mit der API GroupDocs.Parser
// Erstellen Sie eine Instanz der Parser-Klasse
using (Parser parser = new Parser(filePath)) {
    // Überprüfen Sie, ob das Dokument die Tabellenextraktion unterstützt
    if (!parser.Features.Tables) {
        Console.WriteLine("Das Dokument unterstützt die Tabellenextraktion nicht.");
        return;
    }
    // Erstellen Sie das Layout der Tabellen
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Erstellen Sie die Optionen für die Tabellenextraktion
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Extrahieren Sie Tabellen aus dem Dokument.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Über Tabellen iterieren
    foreach (PageTableArea t in tables) {
        // Über Zeilen iterieren
        for (int row = 0; row < t.RowCount; row++) {
            // Über Spalten iterieren
            for (int column = 0; column < t.ColumnCount; column++) {
                // Holen Sie sich die Tabellenzelle
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Drucken Sie den Text der Tabellenzelle
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

System Anforderungen

GroupDocs.Parser for .NET APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind.

  • Betriebssysteme: Microsoft Windows, Linux, MacOS
  • Entwicklungsumgebungen: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Rahmenwerke
  • Laden Sie die neueste Version von GroupDocs.Parser for .NET von Nuget herunter.

Warum GroupDocs.Parser for .NET verwenden?

  • Unterstützung für die Extraktion von Klartext aus allen unterstützten Dokumenten
  • Parsen von Dokumenten über benutzerdefinierte Vorlagen
  • Vollständige Unterstützung der strukturierten Textextraktion
  • Textsuche über Schlüsselwörter sowie reguläre Ausdrücke
  • Extrahieren Sie formatierten Text, Metadaten, Bilder, Container und Anhänge
  • Extrahieren Sie das Inhaltsverzeichnis für einige unterstützte Dokumentformate
  • Analysieren Sie Formulardaten aus PDF-Dokumenten
  • Extrahieren Sie Hyperlinks aus dem Dokument

Extrahieren Sie Tabellen aus anderen Dokumentformaten

.NET API zum Parsen und Scannen von Dokumenten für Dateiformate und Bilder. Extrahieren Sie Daten für einige der gängigen Dateiformate, wie unten aufgeführt.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Deutsch