GroupDocs.Parser for .NET

Extraire des tables à partir de DOCX en utilisant C#

Identifiez et extrayez rapidement les structures de table à partir de PDF, Word, Excel et d’autres formats de fichiers à l’aide de GroupDocs.Parser dans vos projets .NET.

Étapes pour extraire des tables à partir de Docx dans C#

Suivez ces instructions pour extraire des tables à partir de fichiers DOCX en utilisant GroupDocs.Parser dans votre environnement .NET :

  1. Initialisez une instance de Parser et chargez votre document DOCX.
  2. Vérifiez si l’extraction de tables est supportée pour le format d’entrée.
  3. Extraire le contenu de la table depuis le fichier.
  4. Utilisez les données de la table structurée pour la génération de rapports, l’automatisation ou l’analyse.
// Ouvrez le document contenant des données de table en utilisant Parser
using (Parser parser = new Parser("input.docx")) {

    // Vérifiez si le format prend en charge la reconnaissance des tables
    if (!parser.Features.Tables) {
        Console.WriteLine("Gérez les documents qui ne prennent pas en charge le parsing des tables");
        return;
    }

    // Définissez comment la structure de la table doit être reconnue
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // Spécifiez les paramètres d'extraction pour les données de table
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Extraire des tables à partir du contenu du fichier
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  Parcourez chaque table détectée
    foreach (PageTableArea t in tables)
    {
    }
}
dotnet add package GroupDocs.Parser
Cliquez pour copier
copié
Plus d'exemples Documentation

Capacités puissantes d’extraction de données

En plus du parsing des tables, GroupDocs.Parser peut extraire un contenu riche tel que des blocs de texte, des images, des métadonnées et d’autres données structurées pour faciliter l’automatisation des documents.

Reconnaissance des tables et extraction de contenu

Détection de tables multi-formats précise

Extraire des données tabulaires à partir de DOCX, XLSX, PDF, HTML et formats similaires avec une grande précision.

Analyser les structures de table à partir de fichiers

Récupérer efficacement des données de table à partir de documents et de feuilles de calcul sans perte de formatage.

Configuration flexible pour l’extraction de tables

Ajustez la détection de mise en page, l’alignement des colonnes et les options d’en-tête/pied de page pour un contrôle précis sur la sortie.

Comment extraire des tables à partir de feuilles de calcul Excel

Cet exemple de code montre comment lire et parcourir les données des tables dans un fichier XLSX en utilisant GroupDocs.Parser.

C#

//  Ouvrez le fichier Excel en utilisant l'API Parser
using (Parser parser = new Parser("input.xlsx"))
{
    // Quittez si les tables ne peuvent pas être extraites du fichier
    if (!parser.Features.Tables)
    {
        return;
    }

    // Utilisez des règles de mise en page pour localiser le contenu tabulaire
    TemplateTableLayout layout = new TemplateTableLayout(
            new double[] { 50, 95, 275, 415, 485, 545 },
            new double[] { 325, 340, 365, 395 });

    // Configurez les paramètres d'extraction pour les tables
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Effectuez l'opération d'extraction des tables
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    // Parcourez chaque structure de table détectée
    foreach (PageTableArea t in tables)
    {
        // Parcourez chaque ligne dans la table
        for (int row = 0; row < t.RowCount; row++)
        {
            // Parcourez les cellules de chaque ligne
            for (int column = 0; column < t.ColumnCount; column++)
            {
                // Accédez à la cellule de table actuelle
                PageTableAreaCell cell = t[row, column];
                if (cell != null)
                {
                    // Affichez le contenu texte de chaque cellule
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
        }
    }
}

À propos de l’API GroupDocs.Parser for .NET

GroupDocs.Parser est une API de parsing de documents complète conçue pour les développeurs .NET. Elle permet l’extraction précise de texte, tableaux, images, hyperliens et autres éléments structurés à partir de formats tels que PDF, DOCX, XLSX, PPTX et bien d’autres — sans avoir besoin d’un logiciel tiers.
En savoir plus
About illustration

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Formats pris en charge pour l’extraction de tables

GroupDocs.Parser peut extraire des données de table à partir de divers types de documents. Voici les formats les plus couramment utilisés pour le parsing de tableaux structurés.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français