GroupDocs.Parser for Java

Extraire des données des documents PPTX dans Java

Extrayez sans effort du contenu structuré tel que du texte, des métadonnées, des tableaux et des graphiques à partir de fichiers PDF, Word, Excel et de documents basés sur des images en utilisant GroupDocs.Parser dans vos applications Java.

Téléchargement Maven

Commencer l'essai gratuit

Comment extraire des données depuis Pptx en utilisant Java

Pour extraire des informations utiles des documents PPTX dans vos projets Java en utilisant GroupDocs.Parser, suivez ces instructions :

Ouvrez le fichier PPTX avec un objet Parser.
Utilisez le parser pour récupérer les données nécessaires (texte, tableaux, métadonnées, etc.).
Assurez-vous que la sortie est correcte et complète.
Intégrez le contenu analysé dans votre flux de données, vos processus métiers ou vos applications.

Copier

// Initialisez votre Parser avec le document d'entrée
try (Parser parser = new Parser("input.pptx"))
{
    // Récupérez tout le contenu textuel disponible du document
    try (TextReader reader = parser.getText())
    {
        // Si aucun texte n'est trouvé, la valeur de retour sera nulle
        // Intégrez le contenu extrait dans votre solution
        System.out.println(reader == null ? 
            "Ce format peut ne pas prendre en charge l'extraction de texte" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Cliquez pour copier

copié

Plus d'exemples Documentation

Fonctionnalités de parsing de documents polyvalentes

GroupDocs.Parser ne se limite pas à l’extraction de texte : il prend en charge le parsing complet des codes-barres, des métadonnées, des images, des tableaux et d’autres données pour alimenter l’automatisation intelligente et les applications orientées données.

Vue d'ensemble visuelle du parsing et de l'extraction des données documentaires

Extraire des données de plusieurs formats de fichiers

Accédez à des données comme du texte, des tableaux et des médias à partir de types de fichiers couramment utilisés tels que PDF, Word, Excel, PowerPoint, HTML, et d’autres.

Analyser du contenu provenant de sources numériques et numérisées

Traitez le contenu provenant à la fois de fichiers numériques natifs et d’images numérisées, en utilisant l’OCR si nécessaire pour interpréter le texte intégré.

Options de configuration flexibles

Personnalisez votre parsing avec des paramètres pour la sélection de pages, les zones de mise en page et des modèles de champs personnalisés pour répondre à des besoins d’extraction spécifiques.

Parsing PDF à l’aide d’un modèle d’extraction de données

Cet exemple montre comment extraire des champs structurés d’un PDF en utilisant un modèle personnalisé via GroupDocs.Parser.

Java

//  Ouvrez le PDF en utilisant la classe Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Appliquez le modèle de parsing pour extraire des données définies
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Vérifiez si l'extraction basée sur un modèle est disponible
    if (data == null) {
        return;
    }

    // Travaillez avec les champs de données extraites
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Définissez les paramètres du détecteur pour extraire la section 'Détails'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Qu’est-ce que GroupDocs.Parser for Java?

GroupDocs.Parser est une API robuste conçue pour les développeurs Java, offrant des fonctionnalités avancées de parsing de documents. Elle vous permet d’extraire et de traiter des données textuelles, des images, des tableaux, des champs structurés et des codes-barres depuis de nombreux formats tels que PDF, DOCX, XLSX, PPTX, et bien plus encore — le tout sans nécessiter l’installation de bibliothèques supplémentaires.

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Téléchargement Maven

Commencer l'essai gratuit

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Types de fichiers pris en charge pour l’extraction de contenu

GroupDocs.Parser est compatible avec une large gamme de types de fichiers documentaires et d’images, facilitant ainsi l’extraction d’informations à partir des formats couramment utilisés dans les scénarios de parsing et d’automatisation des données.

Analyse PDF
(Format de document portable)
Analyse DOCX
(Document Word 2007+)
Analyse XLSX
(Classeur Open XML)
Analyse TXT
(Fichier texte)
Analyse RTF
(Format de texte enrichi)
Analyse XML
(Langage de balisage extensible)
Analyse EPUB
(Fichier eBook Open)