GroupDocs.Parser en un coup d’œil

API pour effectuer l’analyse de documents dans les applications Java

Illustration parser

Extraire des données à partir de documents

L’API GroupDocs.Parser for Java vous permet de récupérer du texte, des métadonnées et des images à partir d’une large gamme de formats de fichiers tels que les documents Office, les e-mails, les pièces jointes et les archives. Cet outil puissant vous aide à accéder et à traiter efficacement des informations précieuses contenues dans ces fichiers pour diverses applications comme l’analyse de données, l’indexation par les moteurs de recherche ou les systèmes de gestion de contenu.

Analyser des documents

Extraire divers éléments tels que des hyperliens, des tableaux, des QR codes, des codes-barres et des données à partir de formulaires PDF. Analysez également toute information souhaitée à partir des documents en utilisant des modèles personnalisés.

Personnalisation des résultats

L’API Java vous permet de récupérer des données dans divers formats tels que brut, structuré, HTML ou Markdown. De plus, l’API offre une fonctionnalité de recherche pour localiser des mots ou des phrases spécifiques dans le texte des documents.

Indépendance de la plateforme

GroupDocs.Parser for Java prend en charge les systèmes d’exploitation, les frameworks et les gestionnaires de paquets suivants

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formats de fichiers pris en charge

GroupDocs.Parser for Java prend en charge les opérations avec les formats de fichiers suivants.

Formats Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

  • Portable: PDF
  • Images: JPG, BMP, PNG, TIFF, GIF
  • Autres formats de bureau: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

  • Web: HTML, MHTML
  • Archives: ZIP, TAR, 7Z
  • e-Books: CHM, EPUB, FB2, MOBI

Fonctionnalités de GroupDocs.Parser for Java

Extraire des données des PDF, des documents Office et des images rapidement et précisément

Feature icon

Extraire du texte

Extraire des informations textuelles à partir de divers formats de fichiers tels que les documents de bureau, les fichiers PDF et les images pour une lisibilité et une analyse conviviales.

Feature icon

Extraire des images

Récupérer du contenu visuel à partir de sources diverses comme les documents de bureau et les fichiers PDF pour un accès et une utilisation pratiques.

Feature icon

Scanner des QR Codes

Détecter et décoder les QR codes présents dans les documents de bureau, les fichiers PDF ou le contenu visuel pour une récupération efficace des informations.

Feature icon

Extraire des données à partir des pièces jointes d’emails et des archives

Rassembler des informations précieuses à partir des messages électroniques, des pièces jointes et des sources de données compressées pour une analyse et une utilisation efficaces.

Feature icon

Extraire des tableaux

Identifier et extraire des données tabulaires à partir de documents PDF pour une analyse et une utilisation organisées.

Feature icon

Extraire des hyperliens

Localiser et extraire des hyperliens et des adresses électroniques dans les documents de bureau ou les fichiers PDF pour un accès efficace.

Feature icon

Analyser des formulaires PDF

Les formulaires PDF sont des documents numériques comportant des champs remplissables permettant aux utilisateurs d’entrer des informations électroniquement. L’API .NET peut être utilisée pour extraire des données de ces formulaires pour un traitement efficace.

Feature icon

Analyser des données par modèles

Créez des modèles personnalisés et utilisez-les avec l’API .NET pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Feature icon

Rechercher du texte dans des documents

Localiser rapidement des mots ou des motifs spécifiques dans des documents.

Exemples de code

Quelques cas d’utilisation des opérations typiques GroupDocs.Parser for Java

Extraire des images à partir de documents PDF

GroupDocs.Parser for Java permet aux développeurs Java d’extraire des images à partir de documents :

Extraire des images à partir de documents PDF en Java

// Créez une instance de la classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Extraire des images
    Iterable<PageImageArea> images = parser.getImages();

    // Vérifiez si quelque chose a été extrait
    if (images == null) {
        return;
    }

    // Parcourez les images
    for (PageImageArea image : images) {
        // Imprimez l'index de la page, le rectangle et le type d'image
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extraire des codes-barres à partir d’images

Utilisez notre API Java pour extraire des codes-barres à partir d’images :

Extraire des codes-barres à partir d'images en Java

// Chargez l'image source dans Parser
try (Parser parser = new Parser("source.jpg")){

    // Vérifiez si le fichier prend en charge l'extraction de codes-barres
    if (!parser.getFeatures().isBarcodes()) {

        // Extraire des codes-barres du fichier
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Parcourez les codes-barres
        for (PageBarcodeArea barcode : barcodes) {
            // Imprimez l'index de la page
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Imprimez la valeur du code-barres
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français