Parser pour Python

SDK d’analyseur de documents pour Python

Ajoutez une analyse de documents rapide et précise à vos applications Python et extrayez le texte, les images, les métadonnées et les données structurées à partir de documents et d’images.

Télécharger PyPI Commencer l'essai gratuit

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.pdf") as parser:
    # Extraire le texte du document
    text = parser.GetText()

    # Imprimer tout le texte extrait
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser en un coup d’œil

SDK d’analyseur de documents pour effectuer une analyse de documents à haute précision dans les applications Python

Extraire des données depuis les documents

GroupDocs.Parser for Python via .NET API vous permet de récupérer le texte, les métadonnées et les images d’un large éventail de formats de fichiers tels que les documents Office, les e‑mails, les pièces jointes et les archives. Cet outil puissant vous aide à accéder et à traiter efficacement les informations précieuses contenues dans ces fichiers pour diverses applications comme l’analyse de données, l’indexation de moteurs de recherche ou les systèmes de gestion de contenu.

Analyser les documents

Extrayez divers éléments tels que les hyperliens, les tableaux, les QR codes, les codes-barres et les données des formulaires PDF. Analysez également toute information souhaitée à partir de documents en utilisant des modèles personnalisés.

Personnaliser les résultats

Python API vous permet de récupérer des données dans divers formats tels que brut, structuré, HTML ou Markdown. De plus, l’API propose une fonctionnalité de recherche pour localiser des mots ou des expressions spécifiques dans le texte des documents.

Indépendance de plateforme

GroupDocs.Parser for Python via .NET prend en charge les systèmes d’exploitation, frameworks et gestionnaires de paquets suivants

Formats de fichiers pris en charge

GroupDocs.Parser for Python via .NET prend en charge les opérations avec les formats de fichiers suivants.

Formats Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Images et autres formats

Portable: PDF
Images: JPG, BMP, PNG, TIFF, GIF
Autres formats Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Autres formats

Web: HTML, MHTML
Archives: ZIP, TAR, 7Z
e-books: CHM, EPUB, FB2, MOBI

Fonctions GroupDocs.Parser for Python via .NET

Extrayez des données des PDF, des documents Office, des images et d’autres formats rapidement et précisément avec notre SDK d’analyseur de documents Python

Extraire du texte

Extrayez des informations textuelles de divers formats de fichiers tels que les documents Office, les fichiers PDF et les images pour une lisibilité et une analyse aisées.

Extraire des images

Récupérez le contenu visuel de diverses sources comme les documents Office, les fichiers PDF pour un accès et une utilisation pratiques.

Scanner les QR codes

Détectez et décodez les QR codes présents dans les documents Office, les fichiers PDF ou le contenu visuel pour une récupération d’information efficace.

Extraire des données des pièces jointes d’e‑mail et des archives

Collectez des informations précieuses à partir des messages e‑mail, des pièces jointes et des sources de données compressées pour une analyse et une exploitation efficaces.

Extraire des tableaux

Identifiez et extrayez les données tabulaires des documents PDF pour une analyse et une utilisation organisées.

Extraire les hyperliens

Localisez et extrayez les hyperliens et adresses e‑mail dans les documents Office ou les fichiers PDF pour un accès efficace.

Analyser les formulaires PDF

Les formulaires PDF sont des documents numériques contenant des champs remplissables pour l’interaction utilisateur, permettant de saisir des informations électroniquement. L’API Python peut être utilisée pour extraire les données de ces formulaires afin d’optimiser le traitement.

Analyser les données par modèles

Créez des modèles personnalisés et utilisez‑les avec l’API Python pour analyser des informations spécifiques à partir de fichiers PDF, simplifiant ainsi les processus d’extraction de données.

Rechercher du texte dans des documents

Localisez rapidement des mots ou des motifs spécifiques dans les documents.

Exemples de code

Au‑delà de l’extraction de texte de base, voici les cas d’utilisation les plus courants pour une extraction rapide de texte, d’images et de métadonnées.

Rechercher du texte dans un document

Cet exemple montre comment rechercher une phrase précise dans un document PDF et afficher où elle a été trouvée.

Recherche de texte dans un document en Python

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.pdf") as parser:
    # Afficher l'index de page et le rectangle où la phrase a été trouvée
    for area in parser.Search("Total Amount"):
        # Afficher l'index de page et le rectangle où la phrase a été trouvée
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Extraire des images d’un document

Cet exemple montre comment extraire des images d’un document PDF et les enregistrer dans un fichier.

Extraction d'images d'un document en Python

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.docx") as parser:
    # Extraire les images du document
    images = parser.GetImages()

    # Enregistrer les images dans un fichier
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Extraire les métadonnées d’un document

Cet exemple montre comment extraire les métadonnées d’un document PDF et les afficher.

Extraction de métadonnées d'un document en Python

from groupdocs.parser import Parser

# Charger le document
with Parser("sample.pdf") as parser:
    # Extraire les métadonnées du document
    metadata = parser.GetMetadata()

    # Afficher les métadonnées
    for item in metadata:
        print(f"{item.Name}: {item.Value}")