GroupDocs.Parser auf einen Blick

Document Parser SDK für hochpräzises Dokumenten‑Parsing in Python‑Anwendungen

Illustration parser

Daten aus Dokumenten extrahieren

GroupDocs.Parser for Python via .NET API ermöglicht es Ihnen, Text, Metadaten und Bilder aus einer Vielzahl von Dateiformaten wie Office‑Dokumenten, E‑Mails, Anhängen und Archiven abzurufen. Dieses leistungsstarke Tool hilft Ihnen, effizient auf die wertvollen Informationen in diesen Dateien zuzugreifen und sie für verschiedene Anwendungen wie Datenanalyse, Suchmaschinen‑Indexierung oder Content‑Management‑Systeme zu verarbeiten.

Dokumente parsen

Extrahieren Sie verschiedene Elemente wie Hyperlinks, Tabellen, QR‑Codes, Barcodes und Daten aus PDF‑Formularen. Außerdem können Sie gewünschte Informationen aus Dokumenten mithilfe benutzerdefinierter Vorlagen parsen.

Ergebnisse anpassen

Python API ermöglicht es Ihnen, Daten in verschiedenen Formaten wie Roh‑, strukturiert, HTML oder Markdown abzurufen. Zusätzlich bietet die API eine Suchfunktion zum Auffinden bestimmter Wörter oder Phrasen im Text von Dokumenten.

Plattformunabhängigkeit

GroupDocs.Parser for Python via .NET unterstützt die folgenden Betriebssysteme, Frameworks und Paketmanager

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Unterstützte Dateiformate

GroupDocs.Parser for Python via .NET unterstützt Vorgänge mit den folgenden Dateiformaten.

Microsoft‑Office‑Formate

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Bilder & andere Formate

  • Tragbar: PDF
  • Bilder: JPG, BMP, PNG, TIFF, GIF
  • Andere Office-Formate: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Weitere Formate

  • Web: HTML, MHTML
  • Archive: ZIP, TAR, 7Z
  • eBooks: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Python via .NET Funktionen

Extrahieren Sie Daten aus PDFs, Office‑Dokumenten, Bildern und anderen Formaten schnell und genau mit unserem Python Document Parser SDK

Feature icon

Text extrahieren

Extrahieren Sie textuelle Informationen aus verschiedenen Dateiformaten wie Office‑Dokumenten, PDF‑Dateien und Bildern für eine einfache Lesbarkeit und Analyse.

Feature icon

Bilder extrahieren

Rufen Sie visuelle Inhalte aus verschiedenen Quellen wie Office‑Dokumenten und PDF‑Dateien ab, um sie bequem zu nutzen.

Feature icon

QR‑Codes scannen

Erkennen und dekodieren Sie QR‑Codes, die in Office‑Dokumenten, PDF‑Dateien oder visuellen Inhalten enthalten sind, für eine effiziente Informationsbeschaffung.

Feature icon

Daten aus E‑Mail‑Anhängen und Archiven extrahieren

Sammeln Sie wertvolle Informationen aus E‑Mail‑Nachrichten, Dateianhängen und komprimierten Datenquellen für eine effektive Analyse und Nutzung.

Feature icon

Tabellen extrahieren

Identifizieren und extrahieren Sie tabellarische Daten aus PDF‑Dokumenten für eine strukturierte Analyse und Nutzung.

Feature icon

Hyperlinks extrahieren

Hyperlinks und E‑Mail‑Adressen in Office‑Dokumenten oder PDF‑Dateien finden und extrahieren, um einen effizienten Zugriff zu ermöglichen.

Feature icon

PDF‑Formulare parsen

PDF‑Formulare sind digitale Dokumente mit ausfüllbaren Feldern für die Benutzerinteraktion, die eine elektronische Eingabe von Informationen ermöglichen. Die Python‑API kann verwendet werden, um Daten aus diesen Formularen zu extrahieren und effizient zu verarbeiten.

Feature icon

Daten mit Vorlagen parsen

Erstellen Sie benutzerdefinierte Vorlagen und nutzen Sie sie mit der Python‑API, um spezifische Informationen aus PDF‑Dateien zu parsen und den Datenextraktionsprozess zu vereinfachen.

Feature icon

Text in Dokumenten suchen

Suchen Sie schnell nach bestimmten Wörtern oder Mustern in Dokumenten.

Codebeispiele

Über die grundlegende Textextraktion hinaus finden Sie hier die häufigsten Anwendungsfälle für schnelle Text‑, Bild‑ und Metadaten‑Extraktion.

Text in einem Dokument suchen

Dieses Beispiel zeigt, wie man nach einer bestimmten Phrase in einem PDF‑Dokument sucht und ausgibt, wo sie gefunden wurde.

Text in einem Dokument in Python suchen

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.pdf") as parser:
    # Seitenindex und Rechteck ausgeben, in dem die Phrase gefunden wurde
    for area in parser.Search("Total Amount"):
        # Seitenindex und Rechteck ausgeben, in dem die Phrase gefunden wurde
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Bilder aus einem Dokument extrahieren

Dieses Beispiel zeigt, wie man Bilder aus einem PDF‑Dokument extrahiert und in einer Datei speichert.

Bilder aus einem Dokument in Python extrahieren

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.docx") as parser:
    # Bilder aus dem Dokument extrahieren
    images = parser.GetImages()

    # Bilder in einer Datei speichern
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Metadaten aus einem Dokument extrahieren

Dieses Beispiel zeigt, wie man Metadaten aus einem PDF‑Dokument extrahiert und ausgibt.

Metadaten aus einem Dokument in Python extrahieren

from groupdocs.parser import Parser

# Dokument laden
with Parser("sample.pdf") as parser:
    # Metadaten aus dem Dokument extrahieren
    metadata = parser.GetMetadata()

    # Metadaten ausgeben
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

Bereit, loszulegen?

Laden Sie GroupDocs.Parser kostenlos herunter oder holen Sie sich eine Testlizenz für vollen Zugriff!

Nützliche Ressourcen

Erforschen Sie die Dokumentation, Code -Beispiele und die Unterstützung der Community, um Ihre Erfahrungen zu verbessern.

Tipps zur temporären Lizenz

1
Melden Sie sich mit Ihrer geschäftlichen E-Mail-Adresse an. Kostenlose E-Mail-Dienste sind nicht zulässig.
2
Klicken Sie im zweiten Schritt auf die Schaltfläche Provisorische Lizenz anfordern.
 Deutsch