GroupDocs.Parser Aperçu

API pour effectuer l’analyse de documents dans les applications Java

Illustration parser

Extraire les données des documents

L’API Java vous permet de récupérer du texte, des métadonnées et des images à partir d’un large éventail de formats de fichiers tels que des documents Office, des e-mails, des pièces jointes et des archives. Cet outil puissant vous aide à accéder et à traiter efficacement les informations précieuses contenues dans ces fichiers pour diverses applications telles que l’analyse de données, l’indexation des moteurs de recherche ou les systèmes de gestion de contenu.

Analyser des documents

Extrayez divers éléments tels que des hyperliens, des tableaux, des codes QR, des codes-barres et des données à partir de formulaires PDF. Analysez également toutes les informations souhaitées des documents à l’aide de modèles personnalisés.

Personnalisation des résultats

L’API Java vous permet de récupérer des données dans différents formats tels que bruts, structurés, HTML ou Markdown. De plus, l’API offre une fonctionnalité de recherche permettant de localiser des mots ou des expressions spécifiques dans le texte des documents.

Indépendance de la plateforme

GroupDocs.Parser for Java prend en charge les systèmes d’exploitation, les frameworks et les gestionnaires de packages suivants :

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formats de fichiers pris en charge

GroupDocs.Parser for Java prend en charge les opérations avec les formats de fichiers suivants.

Microsoft Office formats

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

  • Portable: PDF
  • Images: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • Autres formats de bureaux: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

  • la toile: HTML, MHTML
  • Les archives: ZIP, TAR, 7Z
  • Livres électroniques: CHM, EPUB, FB2, MOBI

GroupDocs.Parser fonctionnalités

Extrayez les données des PDF, des documents Office et des images de manière rapide et précise.

Feature icon

Extraire le texte

Extrayez des informations textuelles à partir de divers formats de fichiers tels que des documents bureautiques, des fichiers PDF et des images pour une lisibilité et une analyse faciles.

Feature icon

Extraire des images

Récupérez du contenu visuel à partir de diverses sources telles que des documents bureautiques et des fichiers PDF pour un accès et une utilisation pratiques.

Feature icon

Scanner les codes QR

Détectez et décodez les codes QR présents dans les documents bureautiques, les fichiers PDF ou le contenu visuel pour une récupération efficace des informations.

Feature icon

Extraire les données des pièces jointes et des archives des e-mails

Rassemblez des informations précieuses à partir de messages électroniques, de pièces jointes et de sources de données compressées pour une analyse et une utilisation efficaces.

Feature icon

Extraire des tableaux

Identifiez et extrayez les données tabulaires de documents PDF pour une analyse et une utilisation organisées.

Feature icon

Extraire les hyperliens

Recherchez et extrayez des hyperliens et des adresses e-mail dans des documents bureautiques ou des fichiers PDF pour un accès efficace.

Feature icon

Analyser les formulaires PDF

PDF Les formulaires sont des documents numériques comportant des champs à remplir pour l’interaction de l’utilisateur, lui permettant de saisir des informations par voie électronique. L’API Java peut être utilisée pour extraire les données de ces formulaires pour un traitement efficace.

Feature icon

Analyser les données par modèles

Créez des modèles personnalisés et utilisez-les avec l’API Java pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Feature icon

Rechercher un texte dans des documents

Localisez rapidement des mots ou des modèles spécifiques dans les documents.

Exemple de code

Quelques cas d’utilisation d’opérations GroupDocs.Parser for Java typiques

Extraire des images de PDF documents

L’API Java permet aux développeurs Java d’extraire facilement des images de documents en mettant en œuvre quelques étapes simples.

Extraire des images de PDF documents dans Java

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

Extraire les codes-barres des images

L’API Java permet aux développeurs Java d’extraire facilement les codes-barres des documents en mettant en œuvre quelques étapes simples.

Extraire les codes-barres des images

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}
 Français