Comment extraire des tables de fichiers DOC via l'API .NET ?

Le tableau est la collection de cellules disposées en lignes et en colonnes. Les tableaux jouent un rôle très important dans le stockage et l’organisation de données détaillées ou compliquées permettant aux utilisateurs de les lire et de les visualiser facilement. Les tableaux peuvent être utilisés de plusieurs manières, telles que la création de listes, la comparaison d’informations, l’alignement de données, le regroupement d’informations, la mise en évidence de tendances ou de modèles dans les données, etc. GroupDocs.Parser for .NET est une API useufly qui permet aux programmeurs de logiciels de développer une solution pour extraire des tableaux, du texte et des images à partir de divers types de formats de documents pris en charge, tels que PDF, e-mails, livres électroniques, Word (DOC, { 318}), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), e-mails (EML, MSG) et bien d’autres. L’API .NET a inclus plusieurs fonctionnalités importantes pour travailler avec des tableaux, telles que l’extraction de tous les tableaux d’un document, l’extraction d’un tableau d’une page particulière, l’obtention de données de cellule de tableau, l’obtention du nombre total de lignes et de colonnes d’un tableau, la hauteur de ligne, imprimer les données d’une table et peut-être plus.

Extraire les tables de DOC dans .NET

GroupDocs.Parser for .NET permet aux développeurs C# d’extraire facilement des tables d’un fichier DOC en mettant en œuvre quelques étapes simples.

Instanciez l’objet Parser pour le document initial ;
Vérifiez si le document prend en charge l’extraction de table ;
Instanciez PageTableAreaOptions et [TemplateTableLayout](https://reference.groupdocs.com/parser/net/groupdocs.parser .templates/templatetablelayout/) classes pour définir la disposition des tableaux
Appelez la méthode GetTables et obtenez la collection de PageTableArea objets ;

En savoir plus sur l'extraction des tables

Comment extraire des tables du fichier DOC à l'aide de l'exemple de code C#

// Extraire les tables du fichier DOC à l'aide de l'API GroupDocs.Parser
// Créer une instance de la classe Parser
using (Parser parser = new Parser(filePath)) {
    // Vérifiez si le document prend en charge l'extraction de table
    if (!parser.Features.Tables) {
        Console.WriteLine("Le document ne prend pas en charge l'extraction de tableaux.");
        return;
    }
    // Créer la disposition des tableaux
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Créer les options d'extraction de table
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Extraire les tableaux du document.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Itérer sur les tables
    foreach (PageTableArea t in tables) {
        // Itérer sur les lignes
        for (int row = 0; row < t.RowCount; row++) {
            // Itérer sur les colonnes
            for (int column = 0; column < t.ColumnCount; column++) {
                // Obtenir la cellule du tableau
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Imprimer le texte de la cellule du tableau
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Configuration requise

GroupDocs.Parser for .NET Les API sont prises en charge sur toutes les principales plates-formes et systèmes d’exploitation. Avant d’exécuter le code ci-dessous, assurez-vous que les prérequis suivants sont installés sur votre système.

Systèmes d’exploitation : Microsoft Windows, Linux, MacOS
Environnements de développement : Microsoft Visual Studio, Xamarin, MonoDevelop
Cadres
Téléchargez la dernière version de GroupDocs.Parser for .NET depuis Nuget

Pourquoi utiliser GroupDocs.Parser for .NET

Prise en charge de l’extraction de texte brut à partir de tous les documents pris en charge
Analyse de documents via des modèles définis par l’utilisateur
Prise en charge complète de l’extraction de texte structuré
Recherche de texte par mot-clé ainsi que par expression régulière
Extraire du texte formaté, des métadonnées, des images, des conteneurs et des pièces jointes
Extraire la table des matières pour certains formats de document pris en charge
Analyser les données de formulaire de PDF documents
Extraire les hyperliens du document

Extraire des tableaux d'autres formats de document

.NET API d’analyse de documents et d’analyse de table pour les formats de fichiers et les images. Extrayez les données pour certains des formats de fichiers populaires comme indiqué ci-dessous.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)