Extraire le texte de PDF Dans C#

Extrayez le texte de PDF avec quelques lignes de code .NET.


Télécharger la version d'essai gratuite

Comment extraire un texte de PDF fichiers .NET API ?

GroupDocs.Parser for .NET est une API d’extraction de texte, de métadonnées et d’images pour les applications métier développées à l’aide de C#, ASP.NET et d’autres technologies .NET. Il prend en charge l’extraction de texte brut, formaté et structuré ainsi que les métadonnées des fichiers de formats pris en charge. Grâce à GroupDocs.Parser for .NET, vos applications peuvent également effectuer l’analyse de documents protégés par mot de passe pour les formats courants, tels que les documents de traitement Word, les feuilles de calcul Excel, les présentations PowerPoint, les fichiers OneNote, les fichiers PDF et les archives ZIP .

GroupDocs.Parser L’API est un bon choix pour les solutions d’entreprise qui nécessitent une fonctionnalité d’extraction de texte de fichier. Ces API sont bien prises en charge sur tous les principaux systèmes d’exploitation et plates-formes, y compris Frameworks: .NET Framework, .NET Standard, .NET Core, Mono.

Extraire le texte de PDF dans .NET

GroupDocs.Parser for .NET permet aux développeurs C# d’extraire facilement un texte d’un fichier PDF en mettant en œuvre quelques étapes simples.

  • Instanciez l’objet Parser pour le document initial ;
  • Appelez la méthode GetText et obtenez TextReader objet ;
  • Vérifiez si le lecteur n’est pas null (l’extraction de texte est prise en charge pour le document) ;
  • Lire un texte du lecteur.

Comment extraire du texte du fichier PDF à l'aide de l'exemple de code C#

// Extraire le texte du fichier PDF à l'aide de l'API GroupDocs.Parser
// Créer une instance de la classe Parser
using (Parser parser = new Parser(filePath)) {
    // Extraire un texte dans le lecteur
    using (TextReader reader = parser.GetText()) {
        // Imprimer un texte à partir du document
        // Si l'extraction de texte n'est pas prise en charge, un lecteur est nul
        Console.WriteLine(reader == null ? "L'extraction de texte n'est pas prise en charge" : reader.ReadToEnd());
    }
}

Configuration requise

GroupDocs.Parser for .NET Les API sont prises en charge sur toutes les principales plates-formes et systèmes d’exploitation. Avant d’exécuter le code ci-dessous, assurez-vous que les prérequis suivants sont installés sur votre système.

  • Systèmes d’exploitation : Microsoft Windows, Linux, MacOS
  • Environnements de développement : Microsoft Visual Studio, Xamarin, MonoDevelop
  • Cadres
  • Téléchargez la dernière version de GroupDocs.Parser for .NET depuis Nuget

Pourquoi utiliser GroupDocs.Parser for .NET

  • Prise en charge de l’extraction de texte brut à partir de tous les documents pris en charge
  • Analyse de documents via des modèles définis par l’utilisateur
  • Prise en charge complète de l’extraction de texte structuré
  • Recherche de texte par mot-clé ainsi que par expression régulière
  • Extraire du texte formaté, des métadonnées, des images, des conteneurs et des pièces jointes
  • Extraire la table des matières pour certains formats de document pris en charge
  • Analyser les données de formulaire de PDF documents
  • Extraire les hyperliens du document

Démos en direct - Extraire le texte de PDF en ligne

Extrayez le texte du fichier PDF dès maintenant en visitant le site Web GroupDocs.Parser Live Demos. La démo en direct présente les avantages suivants.

Pas besoin de télécharger l'API

Pas besoin d'écrire de code

Téléchargez simplement le fichier source

Obtenir le lien de téléchargement pour enregistrer le fichier

Extraire du texte d'autres formats de document

API d’analyse de documents et d’extraction de texte .NET pour les formats de fichiers et les images. Extrayez les données pour certains des formats de fichiers populaires comme indiqué ci-dessous.

PPSX

(PowerPoint Slide Show)

PPT

(Microsoft PowerPoint 97-2003)

PPTX

(Open XML presentation Format)

RTF

(Rich Text Format)

TEX

(LaTeX Source Document)

VDX

(The 7th Guest Video File)

VSDM

(Visio Macro-Enabled Drawing)

VSDX

(Visio Drawing)

VSSM

(Visio Macro-Enabled Stencil File)

VSSX

(Visio Stencil File)

VSTM

(Visio Macro-Enabled Drawing Template)

VSTX

(Visio Drawing Template)

VSX

(Visio Stencil XML File)

VTX

(Anim8or 3D Model)

XLAM

(Excel Macro-Enabled Add-In)

XLS

(Microsoft Excel Spreadsheet (Legacy))

Back to top
 Français