GroupDocs.Parser for Java

Récupérez du texte à partir de PDF en utilisant Java

Tirez sans effort du texte lisible ou structuré de fichiers tels que PDF, Word, Excel, et autres en utilisant GroupDocs.Parser dans vos projets de développement Java.

Téléchargement Maven

Commencer l'essai gratuit

Comment récupérer du texte à partir de Pdf en utilisant Java

Suivez les étapes ci-dessous pour extraire du texte à partir de fichiers PDF en utilisant GroupDocs.Parser dans votre projet Java :

Chargez le document PDF à l’aide de la classe Parser.
Effectuez l’extraction de texte à partir du contenu du fichier.
Vérifiez si le texte a été récupéré avec succès.
Utilisez les données textuelles dans des systèmes de recherche, d’analyse ou d’automatisation.

Copier

// Initialisez Parser avec votre document
try (Parser parser = new Parser("input.pdf"))
{
    // Lisez et extrayez toutes les données textuelles
    try (TextReader reader = parser.getText())
    {
        // Retournez null si le contenu textuel est absent
        // Intégrez le texte extrait dans votre flux de travail
        System.out.println(reader == null ? 
            "Ignorez les formats d'extraction de texte non pris en charge" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

Cliquez pour copier

copié

Plus d'exemples Documentation

Fonctionnalité d’extraction de texte riche

GroupDocs.Parser va au-delà de l’extraction de texte simple, prenant en charge la récupération d’images, de métadonnées et de données structurées pour améliorer les tâches de traitement de contenu.

Extraire et structurer le contenu textuel des documents

Fonctionne avec de nombreux formats de documents

Capturez à la fois du texte brut et structuré à partir de DOCX, XLSX, PPTX, PDF, HTML et d’autres formats.

Extraire du texte à partir de contenu visuel et textuel

Analysez le texte à partir de documents numérisés, de diapositives, de tableaux et d’autres types de fichiers tout en préservant la structure logique.

Contrôle détaillé sur le processus d’extraction

Configurez des plages de pages, des zones de mise en page et des paramètres de précision pour un parsing de texte finement réglé.

Exemple : Extraction de régions de texte à partir d’un document PPTX

Cet exemple montre comment extraire des blocs de texte avec leurs coordonnées spatiales d’une présentation PowerPoint à l’aide de GroupDocs.Parser.

Java

//  Chargez votre fichier PPTX avec l'API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Obtenez toutes les zones de texte rectangulaires
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Quittez si cette fonctionnalité n'est pas prise en charge
    if (areas == null)
    {
        return;
    }

    // Parcourez les zones de texte par page
    for (PageTextArea a : areas)
    {
        // Traitez chaque bloc de texte avec son numéro de page et son rectangle de délimitation
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Présentation de l’API GroupDocs.Parser for Java

GroupDocs.Parser est un analyseur de documents robuste et évolutif conçu pour les développeurs Java. Il offre des capacités pour extraire avec précision du texte, des tables, des images et des composants structurés à partir de divers formats, notamment PDF, DOCX, XLSX, PPTX, et d’autres—sans avoir recours à des utilitaires externes.

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Téléchargement Maven

Commencer l'essai gratuit

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Types de fichiers pris en charge pour l’extraction de texte

GroupDocs.Parser est capable de récupérer le contenu textuel à partir de nombreux formats de fichiers et d’images. Voici les types les plus couramment utilisés qu’il prend en charge.

Analyse DOCX
(Document Word 2007+)
Analyse PPTX
(Format de présentation Open XML)
Analyse XLSX
(Classeur Open XML)
Analyse TXT
(Fichier texte)
Analyse RTF
(Format de texte enrichi)
Analyse XML
(Langage de balisage extensible)
Analyse EPUB
(Fichier eBook Open)