GroupDocs.Parser for Java

Récupérer des données de tableau à partir de XML en utilisant Java

Détectez et extrayez sans effort des tableaux à partir de formats tels que PDF, DOCX et XLSX avec GroupDocs.Parser dans vos workflows Java.

Comment récupérer des tableaux à partir de Xml dans Java

Pour analyser des tableaux à partir de documents XML en utilisant GroupDocs.Parser, suivez ces étapes dans votre environnement Java :

  1. Créer une instance de Parser et charger le fichier XML cible.
  2. Vérifier que le fichier supporte l’extraction structurée des tableaux.
  3. Utiliser l’API pour récupérer les éléments de tableau du document.
  4. Exploiter les données extraites dans des systèmes d’analytique, de reporting ou d’automatisation.
// Charger le document d'entrée avec Parser contenant des éléments de tableau
try (Parser parser = new Parser("input.xml"))
{
    // Vérifier que le type de document permet la reconnaissance de tableaux
    if (!parser.getFeatures().isTables()) {
        System.out.println("Ajouter une logique pour les fichiers qui ne supportent pas les tableaux");
        return;
    }

    // Définir des règles pour interpréter la structure des tableaux
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Configurer les paramètres pour extraire les tableaux
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Exécuter l'extraction de tableaux sur le document chargé
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Traiter chaque tableau extrait du résultat
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
Cliquez pour copier
copié
Plus d'exemples Documentation

Outils avancés d’extraction de contenu

Au-delà de la lecture des tableaux, GroupDocs.Parser prend en charge la capture de texte brut, d’éléments visuels, de métadonnées intégrées et d’objets structurés pour améliorer les tâches de traitement de documents.

Extraction de contenu structuré et de données tabulaires

Analyse précise des tableaux à travers différents formats

Support pour l’extraction de tableaux à partir de types de documents standards tels que PDF, Word, Excel et HTML avec une grande précision.

Lire des structures tabulaires à partir de diverses sources

Récupérer des données de tableau à partir de feuilles de calcul, de documents et de rapports tout en préservant la structure et l’alignement.

Paramètres d’extraction de tableaux personnalisables

Contrôler la détection de mise en page, gérer les en-têtes et pieds de page, et affiner l’extraction avec des options de configuration flexibles.

Exemple : extraire des tableaux d’un document Excel

Cet exemple montre comment extraire et parcourir le contenu des tableaux dans un fichier Excel (XLSX) en utilisant GroupDocs.Parser.

Java

//  Initialiser Parser avec le fichier Excel
try (Parser parser = new Parser("input.pdf"))
{
    // Quitter si l'extraction de tableaux n'est pas supportée pour ce document
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // Appliquer des règles pour localiser la mise en page des tableaux
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Configurer les paramètres pour l'extraction des tableaux
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Invoker le processus d'extraction
    Iterable<PageTableArea> tables = parser.getTables(options);

    // Parcourir toutes les structures de tableau analysées
    for (PageTableArea t : tables)
    {
        // Itérer sur chaque ligne dans le tableau
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // Traiter chaque cellule de la ligne actuelle
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // Accéder et lire le contenu de la cellule actuelle
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // Afficher la valeur textuelle de chaque cellule du tableau
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

Introduction à l’API GroupDocs.Parser for Java

GroupDocs.Parser est une API riche en fonctionnalités pour l’extraction de contenu destinée aux plateformes Java. Elle permet aux développeurs d’analyser avec précision des tableaux, des textes, des graphiques, des liens et des données structurées à partir de PDF, de documents Word, de feuilles Excel, de présentations PowerPoint, et plus encore—sans nécessiter de plugins tiers.
En savoir plus
About illustration

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Types de documents supportés pour l’extraction de tableaux

GroupDocs.Parser offre une détection fiable des tableaux à travers plusieurs types de fichiers. Voici une liste des formats de documents les plus largement supportés pour l’extraction de tableaux.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français