Extraire le texte des documents dans Java

Extrayez du texte de documents avec quelques lignes de code Java.


Télécharger la version d'essai gratuite

Comment extraire un texte des fichiers API Java ?

GroupDocs.Parser for Java est une API d’extraction de texte, d’image et de métadonnées, prenant en charge plus de 50 types de documents populaires pour aider à créer des applications métier avec des fonctionnalités d’analyse de texte brut, structuré et formaté. Il prend également en charge l’analyse de documents à l’aide de modèles prédéfinis et permet d’extraire des données complexes de factures et d’autres documents typiques avec rapidité et précision. GroupDocs.Parser for Java vous permet d’extraire du texte et des métadonnées à partir de fichiers protégés par mot de passe de tous les formats populaires, y compris les documents de traitement Word, les feuilles de calcul Excel, les présentations PowerPoint, les fichiers OneNote, PDF et les archives ZIP.

GroupDocs.Parser L’API est un bon choix pour les solutions d’entreprise qui nécessitent une fonctionnalité d’extraction de texte de fichier. Ces API sont bien prises en charge sur tous les principaux systèmes d’exploitation et plates-formes, y compris Java runtime: J2SE 6.0 and above.

Extraire le texte des documents dans Java

GroupDocs.Parser for Java permet aux développeurs Java d’extraire facilement un texte de documents en mettant en œuvre quelques étapes simples.

  • Instanciez l’objet Parser pour le document initial ;
  • Appelez la méthode getText et obtenez TextReader objet ;
  • Vérifiez si le lecteur n’est pas null (l’extraction de texte est prise en charge pour le document) ;
  • Lire un texte du lecteur.

Comment extraire du texte de documents à l'aide de l'exemple de code Java

// Extraire du texte de documents à l'aide de l'API GroupDocs.Parser
// Créer une instance de la classe Parser
try (Parser parser = new Parser(filePath)) {
    // Extraire un texte dans le lecteur
    try (TextReader reader = parser.getText()) {
        // Imprimer un texte à partir du document
        // Si l'extraction de texte n'est pas prise en charge, un lecteur est nul
        System.out.println(reader == null ? "L'extraction de texte n'est pas prise en charge" : reader.readToEnd());
    }
}

Configuration requise

GroupDocs.Parser for Java Les API sont prises en charge sur toutes les principales plates-formes et systèmes d’exploitation. Avant d’exécuter le code ci-dessous, assurez-vous que les prérequis suivants sont installés sur votre système.

  • Systèmes d’exploitation : Microsoft Windows, Linux, MacOS
  • Environnements de développement : NetBeans, Intellij IDEA, Eclipse, etc.
  • Cadres
  • Téléchargez la dernière version de GroupDocs.Parser for Java depuis Maven

Pourquoi utiliser GroupDocs.Parser for Java

  • Prise en charge de l’extraction de texte brut à partir de tous les documents pris en charge
  • Analyse de documents via des modèles définis par l’utilisateur
  • Prise en charge complète de l’extraction de texte structuré
  • Recherche de texte par mot-clé ainsi que par expression régulière
  • Extraire du texte formaté, des métadonnées, des images, des conteneurs et des pièces jointes
  • Extraire la table des matières pour certains formats de document pris en charge
  • Analyser les données de formulaire de PDF documents
  • Extraire les hyperliens du document

Démos en direct - Extraire du texte de documents en ligne

Extrayez le texte des documents dès maintenant en visitant le site Web GroupDocs.Parser Live Demos. La démo en direct présente les avantages suivants.

Pas besoin de télécharger l'API

Pas besoin d'écrire de code

Téléchargez simplement le fichier source

Obtenir le lien de téléchargement pour enregistrer le fichier

Extraire du texte d'autres formats de document

API d’analyse de documents et d’extraction de texte Java pour les formats de fichiers et les images. Extrayez les données pour certains des formats de fichiers populaires comme indiqué ci-dessous.

DOC

(Microsoft Word Binary Format)

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Français