Wie extrahiere ich Tabellen aus DOC-Dateien über die .NET-API?

Eine Tabelle ist die Sammlung von Zellen, die in Zeilen und Spalten angeordnet sind. Tabellen spielen eine sehr wichtige Rolle beim Speichern und Organisieren detaillierter oder komplizierter Daten, damit die Benutzer sie leicht lesen und anzeigen können. Tabellen können auf vielfältige Weise verwendet werden, z. B. zum Erstellen von Listen, zum Vergleichen von Informationen, zum Ausrichten von Daten, zum Gruppieren von Informationen, zum Hervorheben von Trends oder Mustern in Daten und vielem mehr. GroupDocs.Parser for .NET ist eine nützliche API, die es Softwareprogrammierern ermöglicht, Lösungen zum Extrahieren von Tabellen, Text und Bildern aus verschiedenen Arten unterstützter Dokumentformate zu entwickeln, wie z. B. PDF, E-Mails, E-Books, Word (DOC, { 318}), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), E-Mail-Formate (EML, MSG) und viele mehr. Die .NET-API enthält mehrere wichtige Funktionen für die Arbeit mit Tabellen, z. B. das Extrahieren aller Tabellen aus einem Dokument, das Extrahieren einer Tabelle aus einer bestimmten Seite, das Abrufen von Tabellenzellendaten, das Abrufen der Gesamtzahl der Tabellenzeilen und -spalten sowie das Abrufen der Zeilenhöhe. Daten einer Tabelle drucken und vieles mehr.

Tabellen aus DOC in .NET extrahieren

GroupDocs.Parser for .NET erleichtert C#-Entwicklern das Extrahieren von Tabellen aus einer DOC-Datei durch die Implementierung einiger einfacher Schritte.

Instanziieren Sie das Parser-Objekt für das ursprüngliche Dokument.
Überprüfen Sie, ob das Dokument die Tabellenextraktion unterstützt;
Instanziieren Sie PageTableAreaOptions und [TemplateTableLayout](https://reference.groupdocs.com/parser/net/groupdocs.parser .templates/templatetablelayout/)-Klassen zum Festlegen des Layouts von Tabellen
Rufen Sie die Methode GetTables auf und rufen Sie die Sammlung von PageTableArea ab.net/groupdocs.parser.data/pagetablearea) Objekte ab;

Erfahren Sie mehr über die Tabellenextraktion

So extrahieren Sie Tabellen aus der Datei DOC mithilfe des Beispielcodes C#

// Extrahieren Sie Tabellen aus der Datei DOC mit der API GroupDocs.Parser
// Erstellen Sie eine Instanz der Parser-Klasse
using (Parser parser = new Parser(filePath)) {
    // Überprüfen Sie, ob das Dokument die Tabellenextraktion unterstützt
    if (!parser.Features.Tables) {
        Console.WriteLine("Das Dokument unterstützt die Tabellenextraktion nicht.");
        return;
    }
    // Erstellen Sie das Layout der Tabellen
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Erstellen Sie die Optionen für die Tabellenextraktion
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Extrahieren Sie Tabellen aus dem Dokument.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Über Tabellen iterieren
    foreach (PageTableArea t in tables) {
        // Über Zeilen iterieren
        for (int row = 0; row < t.RowCount; row++) {
            // Über Spalten iterieren
            for (int column = 0; column < t.ColumnCount; column++) {
                // Holen Sie sich die Tabellenzelle
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Drucken Sie den Text der Tabellenzelle
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

System Anforderungen

GroupDocs.Parser for .NET APIs werden auf allen wichtigen Plattformen und Betriebssystemen unterstützt. Bevor Sie den folgenden Code ausführen, stellen Sie bitte sicher, dass die folgenden Voraussetzungen auf Ihrem System installiert sind.

Betriebssysteme: Microsoft Windows, Linux, MacOS
Entwicklungsumgebungen: Microsoft Visual Studio, Xamarin, MonoDevelop
Rahmenwerke
Laden Sie die neueste Version von GroupDocs.Parser for .NET von Nuget herunter.

Warum GroupDocs.Parser for .NET verwenden?

Unterstützung für die Extraktion von Klartext aus allen unterstützten Dokumenten
Parsen von Dokumenten über benutzerdefinierte Vorlagen
Vollständige Unterstützung der strukturierten Textextraktion
Textsuche über Schlüsselwörter sowie reguläre Ausdrücke
Extrahieren Sie formatierten Text, Metadaten, Bilder, Container und Anhänge
Extrahieren Sie das Inhaltsverzeichnis für einige unterstützte Dokumentformate
Analysieren Sie Formulardaten aus PDF-Dokumenten
Extrahieren Sie Hyperlinks aus dem Dokument

Extrahieren Sie Tabellen aus anderen Dokumentformaten

.NET API zum Parsen und Scannen von Dokumenten für Dateiformate und Bilder. Extrahieren Sie Daten für einige der gängigen Dateiformate, wie unten aufgeführt.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)