Parser pour Java

Document Parser SDK pour Java

Ajoutez un parsing de documents rapide et précis à vos applications Java et extrayez le texte, les images, les métadonnées et les données structurées à partir de documents et d’images.

Téléchargement Maven Commencer l'essai gratuit

Version 24.9 publiée

Voir les nouveautés

// Passez le fichier source à l’instance Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Passez le texte du document à TextReader
    try (TextReader reader = parser.getText())
    {
        // Traitez le texte du document
        System.out.println(reader == null 
            ? "" 
            : reader.readToEnd());
    }
}

<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>

GroupDocs.Parser en un coup d’œil

SDK de parsing de documents pour réaliser un parsing haute précision dans les applications Java

Extraire des données de documents

GroupDocs.Parser for Java API vous permet de récupérer le texte, les métadonnées et les images d’une large gamme de formats de fichiers tels que les documents Office, les e‑mails, les pièces jointes et les archives. Cet outil puissant vous aide à accéder et à traiter efficacement les informations précieuses contenues dans ces fichiers pour diverses applications comme l’analyse de données, l’indexation pour les moteurs de recherche ou les systèmes de gestion de contenu.

Analyser les documents

Extraire divers éléments tels que les hyperliens, les tableaux, les codes QR, les codes-barres et les données des formulaires PDF. Analysez également toute information souhaitée à partir de documents en utilisant des modèles personnalisés.

Personnaliser les résultats

Java API vous permet de récupérer des données dans divers formats tels que brut, structuré, HTML ou Markdown. De plus, l’API offre une fonction de recherche pour localiser des mots ou des expressions spécifiques dans le texte des documents.

Indépendance de plateforme

GroupDocs.Parser for Java prend en charge les systèmes d’exploitation, frameworks et gestionnaires de packages suivants

Formats de fichiers pris en charge

GroupDocs.Parser for Java prend en charge les opérations avec les formats de fichiers suivants.

Formats Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

Portable: PDF
Images: JPG, BMP, PNG, TIFF, GIF
Autres formats Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

Web: HTML, MHTML
Archives: ZIP, TAR, 7Z
e-books: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java fonctionnalités

Extraire des données des PDF, documents Office, images et autres formats rapidement et avec précision grâce à notre SDK Java Document Parser

Extraire du texte

Extrayez les informations textuelles de divers formats de fichiers tels que les documents Office, les fichiers PDF et les images pour une lecture et une analyse aisées.

Extraire des images

Récupérez le contenu visuel de diverses sources comme les documents Office ou les fichiers PDF pour un accès et une utilisation pratiques.

Scanner les QR Codes

Détectez et décodez les QR codes présents dans les documents Office, les fichiers PDF ou le contenu visuel pour une récupération d’informations efficace.

Extraire des données des pièces jointes d’e‑mail et des archives

Recueillez des informations précieuses à partir des messages électroniques, des pièces jointes et des sources de données compressées pour une analyse et une utilisation efficaces.

Extraire les tableaux

Identifiez et extrayez les données tabulaires des documents PDF pour une analyse et une utilisation organisées.

Extraire les hyperliens

Localisez et extrayez les hyperliens et les adresses e‑mail dans les documents Office ou les fichiers PDF pour un accès efficace.

Analyser les formulaires PDF

Les formulaires PDF sont des documents numériques contenant des champs remplissables pour l’interaction utilisateur, permettant de saisir des informations électroniquement. L’API .NET peut être utilisée pour extraire les données de ces formulaires afin de les traiter efficacement.

Analyser les données à l’aide de modèles

Créez des modèles personnalisés et utilisez‑les avec l’API .NET pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Rechercher du texte dans les documents

Localisez rapidement des mots ou des motifs spécifiques dans les documents.

Exemples de code

Quelques cas d’utilisation des opérations typiques de GroupDocs.Parser for Java

Extraire des images de documents PDF

GroupDocs.Parser for Java facilite aux développeurs Java l’extraction d’images depuis les documents :

Extraire des images de documents PDF en Java

// Créez une instance de la classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Extrayez les images
    Iterable<PageImageArea> images = parser.getImages();

    // Vérifiez si quelque chose a été extrait
    if (images == null) {
        return;
    }

    // Itérez sur les images
    for (PageImageArea image : images) {
        // Affichez l'index de page, le rectangle et le type d'image
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Extraire les codes-barres des images

Utilisez notre API Java pour extraire les codes-barres depuis les images :

Extraire les codes-barres d'images en Java

// Chargez l'image source dans Parser
try (Parser parser = new Parser("source.jpg")){

    // Vérifiez si le fichier prend en charge l'extraction de codes-barres
    if (!parser.getFeatures().isBarcodes()) {

        // Extrayez les codes-barres du fichier
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Itérez sur les codes-barres
        for (PageBarcodeArea barcode : barcodes) {
            // Affichez l'index de page
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Affichez la valeur du code-barres
            System.out.println("Value: " + barcode.getValue());
        }
    }
}