Parser für Python

Document Parser SDK für Python

Fügen Sie Ihren Python‑Apps eine schnelle, genaue Dokumenten‑Parsing‑Funktion hinzu und extrahieren Sie Text, Bilder, Metadaten sowie strukturierte Daten aus Dokumenten und Bildern.

PyPI-Download Kostenlose Testversion starten

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.pdf") as parser:
    # Text aus dem Dokument extrahieren
    text = parser.GetText()

    # Den gesamten extrahierten Text ausgeben
    print(text)

pip install groupdocs-parser-net

GroupDocs.Parser auf einen Blick

Document Parser SDK für hochpräzises Dokumenten‑Parsing in Python‑Anwendungen

Daten aus Dokumenten extrahieren

GroupDocs.Parser for Python via .NET API ermöglicht es Ihnen, Text, Metadaten und Bilder aus einer Vielzahl von Dateiformaten wie Office‑Dokumenten, E‑Mails, Anhängen und Archiven abzurufen. Dieses leistungsstarke Tool hilft Ihnen, effizient auf die wertvollen Informationen in diesen Dateien zuzugreifen und sie für verschiedene Anwendungen wie Datenanalyse, Suchmaschinen‑Indexierung oder Content‑Management‑Systeme zu verarbeiten.

Dokumente parsen

Extrahieren Sie verschiedene Elemente wie Hyperlinks, Tabellen, QR‑Codes, Barcodes und Daten aus PDF‑Formularen. Außerdem können Sie gewünschte Informationen aus Dokumenten mithilfe benutzerdefinierter Vorlagen parsen.

Ergebnisse anpassen

Python API ermöglicht es Ihnen, Daten in verschiedenen Formaten wie Roh‑, strukturiert, HTML oder Markdown abzurufen. Zusätzlich bietet die API eine Suchfunktion zum Auffinden bestimmter Wörter oder Phrasen im Text von Dokumenten.

Plattformunabhängigkeit

GroupDocs.Parser for Python via .NET unterstützt die folgenden Betriebssysteme, Frameworks und Paketmanager

Unterstützte Dateiformate

GroupDocs.Parser for Python via .NET unterstützt Vorgänge mit den folgenden Dateiformaten.

Microsoft‑Office‑Formate

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Bilder & andere Formate

Tragbar: PDF
Bilder: JPG, BMP, PNG, TIFF, GIF
Andere Office-Formate: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Weitere Formate

Web: HTML, MHTML
Archive: ZIP, TAR, 7Z
eBooks: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Python via .NET Funktionen

Extrahieren Sie Daten aus PDFs, Office‑Dokumenten, Bildern und anderen Formaten schnell und genau mit unserem Python Document Parser SDK

Text extrahieren

Extrahieren Sie textuelle Informationen aus verschiedenen Dateiformaten wie Office‑Dokumenten, PDF‑Dateien und Bildern für eine einfache Lesbarkeit und Analyse.

Bilder extrahieren

Rufen Sie visuelle Inhalte aus verschiedenen Quellen wie Office‑Dokumenten und PDF‑Dateien ab, um sie bequem zu nutzen.

QR‑Codes scannen

Erkennen und dekodieren Sie QR‑Codes, die in Office‑Dokumenten, PDF‑Dateien oder visuellen Inhalten enthalten sind, für eine effiziente Informationsbeschaffung.

Daten aus E‑Mail‑Anhängen und Archiven extrahieren

Sammeln Sie wertvolle Informationen aus E‑Mail‑Nachrichten, Dateianhängen und komprimierten Datenquellen für eine effektive Analyse und Nutzung.

Tabellen extrahieren

Identifizieren und extrahieren Sie tabellarische Daten aus PDF‑Dokumenten für eine strukturierte Analyse und Nutzung.

Hyperlinks extrahieren

Hyperlinks und E‑Mail‑Adressen in Office‑Dokumenten oder PDF‑Dateien finden und extrahieren, um einen effizienten Zugriff zu ermöglichen.

PDF‑Formulare parsen

PDF‑Formulare sind digitale Dokumente mit ausfüllbaren Feldern für die Benutzerinteraktion, die eine elektronische Eingabe von Informationen ermöglichen. Die Python‑API kann verwendet werden, um Daten aus diesen Formularen zu extrahieren und effizient zu verarbeiten.

Daten mit Vorlagen parsen

Erstellen Sie benutzerdefinierte Vorlagen und nutzen Sie sie mit der Python‑API, um spezifische Informationen aus PDF‑Dateien zu parsen und den Datenextraktionsprozess zu vereinfachen.

Text in Dokumenten suchen

Suchen Sie schnell nach bestimmten Wörtern oder Mustern in Dokumenten.

Codebeispiele

Über die grundlegende Textextraktion hinaus finden Sie hier die häufigsten Anwendungsfälle für schnelle Text‑, Bild‑ und Metadaten‑Extraktion.

Text in einem Dokument suchen

Dieses Beispiel zeigt, wie man nach einer bestimmten Phrase in einem PDF‑Dokument sucht und ausgibt, wo sie gefunden wurde.

Text in einem Dokument in Python suchen

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.pdf") as parser:
    # Seitenindex und Rechteck ausgeben, in dem die Phrase gefunden wurde
    for area in parser.Search("Total Amount"):
        # Seitenindex und Rechteck ausgeben, in dem die Phrase gefunden wurde
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Bilder aus einem Dokument extrahieren

Dieses Beispiel zeigt, wie man Bilder aus einem PDF‑Dokument extrahiert und in einer Datei speichert.

Bilder aus einem Dokument in Python extrahieren

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.docx") as parser:
    # Bilder aus dem Dokument extrahieren
    images = parser.GetImages()

    # Bilder in einer Datei speichern
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Metadaten aus einem Dokument extrahieren

Dieses Beispiel zeigt, wie man Metadaten aus einem PDF‑Dokument extrahiert und ausgibt.

Metadaten aus einem Dokument in Python extrahieren

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.pdf") as parser:
    # Metadaten aus dem Dokument extrahieren
    metadata = parser.GetMetadata()

    # Metadaten ausgeben
    for item in metadata:
        print(f"{item.Name}: {item.Value}")