GroupDocs.Parser for .NET

Extraire du texte des RTF avec C#

Extrayez rapidement du texte lisible et structuré à partir de PDF, Word, Excel et d’autres types de fichiers en utilisant GroupDocs.Parser dans vos solutions .NET.

Étapes pour extraire du texte d’un Rtf en C#

Vous pouvez extraire du texte clair et structuré à partir de documents RTF dans des applications .NET avec GroupDocs.Parser en suivant ces étapes :

  1. Ouvrez le document RTF à l’aide d’une instance de Parser.
  2. Extrayez le texte du contenu du fichier.
  3. Vérifiez le résultat pour confirmer que l’extraction du texte a été réussie.
  4. Utilisez le texte extrait dans votre logique métier, pour l’indexation ou dans des pipelines de données.
// Chargez votre document dans Parser
using (Parser parser = new Parser("input.rtf")) {

    // Extrayez tout le contenu textuel du fichier
    using (TextReader reader = parser.GetText()) 
    {
        // Si le texte est indisponible, le résultat sera nul
        // Utilisez le texte extrait dans votre application
        Console.WriteLine(reader == null ? 
            "L'extraction de texte n'est pas prise en charge pour ce format" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
Cliquez pour copier
copié
Plus d'exemples Documentation

Fonctionnalités complètes d’extraction de contenu

En plus du texte brut, GroupDocs.Parser peut extraire des images, des éléments structurés et des métadonnées pour soutenir l’analyse, la transformation et l’automatisation du contenu.

Reconnaissance de texte et parsing structuré de documents

Extraction de texte à travers divers types de fichiers

Obtenez du texte brut ou structuré à partir de formats comme PDF, DOCX, XLSX, PPTX, HTML et d’autres formats.

Traitez le texte à partir de documents et d’éléments visuels

Extrayez du texte à partir d’images numérisées, de présentations, de tableurs et de documents numériques tout en préservant la structure.

Configuration avancée de l’extraction de texte

Personnalisez la détection du texte — définissez des plages de pages, des régions de mise en page, et ajustez la sortie pour une précision maximale.

Comment extraire des zones de texte d’un fichier PPTX

Cet exemple de code montre comment récupérer le contenu textuel ainsi que les coordonnées des zones à partir d’un fichier PowerPoint en utilisant GroupDocs.Parser.

C#

//  Chargez la présentation PowerPoint avec Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Extrayez tous les rectangles de zones de texte du document
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Quittez si l'extraction de zones de texte n'est pas disponible
    if (areas == null)
    {
        return;
    }

    // Parcourez les zones de texte de chaque page
    foreach (PageTextArea a in areas)
    {
        // Accédez à l'index de la page, au rectangle de la zone et à la valeur du texte
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

À propos de l’API GroupDocs.Parser for .NET

GroupDocs.Parser est une API de parsing de documents haute performance pour les développeurs .NET. Elle simplifie l’extraction de texte, d’images, de tableaux et de contenu structuré à partir de multiples formats de fichiers, y compris PDF, DOCX, XLSX, PPTX et plus — sans dépendre de bibliothèques tierces.
En savoir plus
About illustration

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Formats pris en charge pour l’extraction de texte

GroupDocs.Parser permet l’extraction de texte à partir d’une large gamme de types de documents et d’images. Explorez les formats couramment pris en charge listés ci-dessous.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français