GroupDocs.Parser Aperçu

API pour effectuer l’analyse de documents dans les applications .NET

Illustration parser

Extraire les données des documents

L’API .NET vous permet de récupérer du texte, des métadonnées et des images à partir d’un large éventail de formats de fichiers tels que des documents Office, des e-mails, des pièces jointes et des archives. Cet outil puissant vous aide à accéder et à traiter efficacement les informations précieuses contenues dans ces fichiers pour diverses applications telles que l’analyse de données, l’indexation des moteurs de recherche ou les systèmes de gestion de contenu.

Analyser des documents

Extrayez divers éléments tels que des hyperliens, des tableaux, des codes QR, des codes-barres et des données à partir de formulaires PDF. Analysez également toutes les informations souhaitées des documents à l’aide de modèles personnalisés.

Personnalisation des résultats

L’API .NET vous permet de récupérer des données dans différents formats tels que bruts, structurés, HTML ou Markdown. De plus, l’API offre une fonctionnalité de recherche permettant de localiser des mots ou des expressions spécifiques dans le texte des documents.

Indépendance de la plateforme

GroupDocs.Parser for .NET est compatible avec les systèmes d’exploitation, les frameworks et les gestionnaires de packages suivants :

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Formats de fichiers pris en charge

GroupDocs.Parser for .NET est compatible avec les opérations avec les formats de fichiers suivants.

Microsoft Office formats

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

  • Portable: PDF
  • Images: JPG, BMP, PNG, TIFF, GIF
  • Autres formats de bureaux: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

  • la toile: HTML, MHTML
  • Les archives: ZIP, TAR, 7Z
  • Livres électroniques: CHM, EPUB, FB2, MOBI

GroupDocs.Parser fonctionnalités

Extrayez les données des PDF, des documents Office et des images de manière rapide et précise.

Feature icon

Extraire le texte

Extrayez des informations textuelles à partir de divers formats de fichiers tels que des documents bureautiques, des fichiers PDF et des images pour une lisibilité et une analyse faciles.

Feature icon

Extraire des images

Récupérez du contenu visuel à partir de diverses sources telles que des documents bureautiques et des fichiers PDF pour un accès et une utilisation pratiques.

Feature icon

Scanner les codes QR

Détectez et décodez les codes QR présents dans les documents bureautiques, les fichiers PDF ou le contenu visuel pour une récupération efficace des informations.

Feature icon

Extraire les données des pièces jointes et des archives des e-mails

Rassemblez des informations précieuses à partir de messages électroniques, de pièces jointes et de sources de données compressées pour une analyse et une utilisation efficaces.

Feature icon

Extraire des tableaux

Identifiez et extrayez les données tabulaires de documents PDF pour une analyse et une utilisation organisées.

Feature icon

Extraire les hyperliens

Recherchez et extrayez des hyperliens et des adresses e-mail dans des documents bureautiques ou des fichiers PDF pour un accès efficace.

Feature icon

Analyser les formulaires PDF

PDF Les formulaires sont des documents numériques comportant des champs à remplir pour l’interaction de l’utilisateur, lui permettant de saisir des informations par voie électronique. L’API .NET peut être utilisée pour extraire les données de ces formulaires pour un traitement efficace.

Feature icon

Analyser les données par modèles

Créez des modèles personnalisés et utilisez-les avec l’API .NET pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Feature icon

Rechercher un texte dans des documents

Localisez rapidement des mots ou des modèles spécifiques dans les documents.

Exemple de code

Quelques cas d’utilisation d’opérations classiques

Extraire des images de PDF documents

L’API .NET permet aux développeurs C# d’extraire facilement des images de documents en mettant en œuvre quelques étapes simples.

Extraire des images de PDF documents en C#

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Extract images
    var images = parser.GetImages();

    // Check if images extraction is supported
    if (images != null)
    {
        var imageIndex = 0;

        // Iterate over images
        foreach (var image in images)
        {
            // Save the image to the file
            image.Save($"{++imageIndex}{image.FileType.Extension}");
        }
    }
}

Extraire les codes-barres des images

L’API .NET permet aux développeurs C# d’extraire facilement les codes-barres des documents en mettant en œuvre quelques étapes simples.

Extraire les codes-barres des images

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Check if the file supports barcode extracting
    if (parser.Features.Barcodes)
    {
        // Extract barcodes from the file.
        var barcodes = parser.GetBarcodes();

        // Iterate over barcodes
        foreach (var barcode in barcodes)
        {
            // Print the page index
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Print the barcode value
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français