GroupDocs.Parser en un coup d’œil

SDK d’analyseur de documents pour effectuer une analyse de documents à haute précision dans les applications Python

Illustration parser

Extraire des données depuis les documents

GroupDocs.Parser for Python via .NET API vous permet de récupérer le texte, les métadonnées et les images d’un large éventail de formats de fichiers tels que les documents Office, les e‑mails, les pièces jointes et les archives. Cet outil puissant vous aide à accéder et à traiter efficacement les informations précieuses contenues dans ces fichiers pour diverses applications comme l’analyse de données, l’indexation de moteurs de recherche ou les systèmes de gestion de contenu.

Analyser les documents

Extrayez divers éléments tels que les hyperliens, les tableaux, les QR codes, les codes-barres et les données des formulaires PDF. Analysez également toute information souhaitée à partir de documents en utilisant des modèles personnalisés.

Personnaliser les résultats

Python API vous permet de récupérer des données dans divers formats tels que brut, structuré, HTML ou Markdown. De plus, l’API propose une fonctionnalité de recherche pour localiser des mots ou des expressions spécifiques dans le texte des documents.

Indépendance de plateforme

GroupDocs.Parser for Python via .NET prend en charge les systèmes d’exploitation, frameworks et gestionnaires de paquets suivants

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Formats de fichiers pris en charge

GroupDocs.Parser for Python via .NET prend en charge les opérations avec les formats de fichiers suivants.

Formats Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

  • Portable: PDF
  • Images: JPG, BMP, PNG, TIFF, GIF
  • Autres formats Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

  • Web: HTML, MHTML
  • Archives: ZIP, TAR, 7Z
  • e-books: CHM, EPUB, FB2, MOBI

Fonctions GroupDocs.Parser for Python via .NET

Extrayez des données des PDF, des documents Office, des images et d’autres formats rapidement et précisément avec notre SDK d’analyseur de documents Python

Feature icon

Extraire du texte

Extrayez des informations textuelles de divers formats de fichiers tels que les documents Office, les fichiers PDF et les images pour une lisibilité et une analyse aisées.

Feature icon

Extraire des images

Récupérez le contenu visuel de diverses sources comme les documents Office, les fichiers PDF pour un accès et une utilisation pratiques.

Feature icon

Scanner les QR codes

Détectez et décodez les QR codes présents dans les documents Office, les fichiers PDF ou le contenu visuel pour une récupération d’information efficace.

Feature icon

Extraire des données des pièces jointes d’e‑mail et des archives

Collectez des informations précieuses à partir des messages e‑mail, des pièces jointes et des sources de données compressées pour une analyse et une exploitation efficaces.

Feature icon

Extraire des tableaux

Identifiez et extrayez les données tabulaires des documents PDF pour une analyse et une utilisation organisées.

Feature icon

Extraire les hyperliens

Localisez et extrayez les hyperliens et adresses e‑mail dans les documents Office ou les fichiers PDF pour un accès efficace.

Feature icon

Analyser les formulaires PDF

Les formulaires PDF sont des documents numériques contenant des champs remplissables pour l’interaction utilisateur, permettant de saisir des informations électroniquement. L’API Python peut être utilisée pour extraire les données de ces formulaires afin d’optimiser le traitement.

Feature icon

Analyser les données par modèles

Créez des modèles personnalisés et utilisez‑les avec l’API Python pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Feature icon

Rechercher du texte dans des documents

Localisez rapidement des mots ou des motifs spécifiques dans les documents.

Exemples de code

Au‑delà de l’extraction de texte de base, voici les cas d’utilisation les plus courants pour une extraction rapide de texte, d’images et de métadonnées.

Rechercher du texte dans un document

Cet exemple montre comment rechercher une phrase précise dans un document PDF et afficher où elle a été trouvée.

Recherche de texte dans un document en Python

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.pdf") as parser:
    # Afficher l'index de page et le rectangle où la phrase a été trouvée
    for area in parser.Search("Total Amount"):
        # Afficher l'index de page et le rectangle où la phrase a été trouvée
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Extraire des images d’un document

Cet exemple montre comment extraire des images d’un document PDF et les enregistrer dans un fichier.

Extraction d'images d'un document en Python

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.docx") as parser:
    # Extraire les images du document
    images = parser.GetImages()

    # Enregistrer les images dans un fichier
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Extraire les métadonnées d’un document

Cet exemple montre comment extraire les métadonnées d’un document PDF et les afficher.

Extraction de métadonnées d'un document en Python

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.pdf") as parser:
    # Extraire les métadonnées du document
    metadata = parser.GetMetadata()

    # Afficher les métadonnées
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

Prêt à commencer ?

Téléchargez GroupDocs.Parser gratuitement ou obtenez une licence d’essai pour un accès complet !

Ressources utiles

Explorez la documentation, les échantillons de code et le soutien communautaire pour améliorer votre expérience.

Conseils sur les licences temporaires

1
Inscrivez-vous avec votre adresse e-mail professionnelle. Les services de messagerie gratuits ne sont pas autorisés.
2
Utilisez le bouton Obtenir une licence temporaire à la deuxième étape.
 Français