GroupDocs.Parser for .NET

Analysez les documents PDF avec C#

Extrayez efficacement le texte, les métadonnées, les tableaux et les images à partir de fichiers PDF, Word, Excel et d’images en utilisant GroupDocs.Parser dans vos projets .NET.

Télécharger NuGet

Commencer l'essai gratuit

Étapes pour extraire des données de Pdf dans C#

Suivez ces étapes pour analyser le contenu des documents PDF dans vos applications .NET en utilisant GroupDocs.Parser :

Chargez le document PDF à l’aide d’une instance de Parser.
Extrayez le contenu souhaité tel que le texte, les tableaux ou les métadonnées.
Vérifiez que les données extraites sont valides.
Utilisez la sortie analysée dans vos systèmes de traitement, d’automatisation ou d’entreprise.

Copier

// Chargez votre document dans Parser
using (Parser parser = new Parser("input.pdf")) {

    // Extrayez tout le contenu texte du fichier
    using (TextReader reader = parser.GetText()) 
    {
        // Si le texte n'est pas disponible, le résultat sera nul
        // Utilisez le texte extrait dans votre application
        Console.WriteLine(reader == null ? 
            "L'extraction de texte n'est pas prise en charge pour ce format" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

Cliquez pour copier

copié

Plus d'exemples Documentation

Capacités complètes d’analyse de documents

GroupDocs.Parser permet plus que la simple lecture de texte — il prend en charge l’extraction de codes-barres, l’analyse d’images, l’accès aux métadonnées et le traitement de données structurées pour une automatisation avancée et une analyse de données.

Capacités d'extraction et d'analyse de contenu de document

Prise en charge de divers types de contenu de fichier

Extrayez des données, y compris du texte, des images, des tableaux et des champs, à partir de formats de documents tels que PDF, Word, Excel, HTML et plus encore.

Travail avec des fichiers numérisés et numériques

Analysez des données à partir de documents numérisés et de fichiers numériques natifs, avec prise en charge de l’OCR et d’une extraction sensible à la mise en page.

Paramètres d’extraction configurables

Ajustez la logique d’analyse avec des options flexibles telles que la sélection de plage de pages, le ciblage de régions et les modèles de détection de champs.

Comment analyser un PDF en utilisant des modèles

Cet exemple montre comment extraire des données structurées d’un PDF en utilisant un modèle d’analyse prédéfini avec GroupDocs.Parser.

C#

//  Chargez le fichier PDF avec la classe Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Analysez le document selon le modèle
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Vérifiez si l'extraction de formulaire est prise en charge
    if (data == null)
    {
        return;
    }

    // Traitez les champs obtenus
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Créez des paramètres de détecteur pour le tableau 'Détails'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

À propos de l’API GroupDocs.Parser for .NET

GroupDocs.Parser est une API d’analyse de documents riche en fonctionnalités conçue pour les développeurs .NET. Elle prend en charge l’extraction de texte brut et structuré, de métadonnées, d’images, de tableaux et de codes-barres à partir de formats populaires tels que PDF, DOCX, XLSX, PPTX et plus encore — le tout sans dépendances logicielles supplémentaires.

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Télécharger NuGet

Commencer l'essai gratuit

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Formats pris en charge pour l’extraction de données

GroupDocs.Parser permet l’analyse d’un large éventail de formats de documents et d’images. Explorez les types de fichiers pris en charge couramment utilisés dans les flux de travail d’extraction de données.

Analyse DOCX
(Document Word 2007+)
Analyse PPTX
(Format de présentation Open XML)
Analyse XLSX
(Classeur Open XML)
Analyse TXT
(Fichier texte)
Analyse RTF
(Format de texte enrichi)
Analyse XML
(Langage de balisage extensible)
Analyse EPUB
(Fichier eBook Open)