GroupDocs.Parser in sintesi

Document Parser SDK per eseguire l’analisi di documenti ad alta precisione nelle applicazioni Python

Illustration parser

Estrai dati dai documenti

GroupDocs.Parser for Python via .NET API ti consente di recuperare testo, metadati e immagini da una vasta gamma di formati di file, come documenti Office, email, allegati e archivi. Questo potente strumento ti aiuta ad accedere e processare efficacemente le preziose informazioni contenute in questi file per diverse applicazioni, come analisi dei dati, indicizzazione per motori di ricerca o sistemi di gestione dei contenuti.

Analizza documenti

Estrai diversi elementi, come collegamenti ipertestuali, tabelle, codici QR, codici a barre e dati da moduli PDF. Analizza inoltre qualsiasi informazione desiderata dai documenti utilizzando template personalizzati.

Personalizzazione dei risultati

L’API Python ti consente di recuperare dati in vari formati, come grezzo, strutturato, HTML o Markdown. Inoltre, l’API offre una funzionalità di ricerca per individuare parole o frasi specifiche all’interno del testo dei documenti.

Indipendenza dalla piattaforma

GroupDocs.Parser for Python via .NET supporta i seguenti sistemi operativi, framework e gestori di pacchetti

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Formati di file supportati

GroupDocs.Parser for Python via .NET supporta le operazioni con i seguenti formati di file.

Formati Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Immagini e altri formati

  • Portatile: PDF
  • Immagini: JPG, BMP, PNG, TIFF, GIF
  • Altri formati Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Altri formati

  • Web: HTML, MHTML
  • Archivi: ZIP, TAR, 7Z
  • e-Book: CHM, EPUB, FB2, MOBI

Funzionalità di GroupDocs.Parser for Python via .NET

Estrai dati da PDF, documenti Office, immagini e altri formati in modo rapido e preciso con il nostro Python Document Parser SDK

Feature icon

Estrai testo

Estrai informazioni testuali da vari formati di file, come documenti Office, file PDF e immagini, per una facile leggibilità e analisi.

Feature icon

Estrai immagini

Recupera contenuti visivi da diverse fonti, come documenti Office e file PDF, per un accesso e utilizzo pratici.

Feature icon

Scansiona codici QR

Rileva e decodifica i codici QR presenti in documenti Office, file PDF o contenuti visivi per un recupero efficiente delle informazioni.

Feature icon

Estrai dati da allegati email e archivi

Raccogli informazioni preziose da messaggi email, allegati di file e fonti di dati compressi per un’analisi e utilizzo efficaci.

Feature icon

Estrai tabelle

Identifica ed estrai dati tabulari da documenti PDF per un’analisi e un utilizzo organizzati.

Feature icon

Estrai collegamenti ipertestuali

Individuare ed estrarre collegamenti ipertestuali e indirizzi e‑mail all’interno di documenti Office o file PDF per un accesso efficiente.

Feature icon

Analizza moduli PDF

I moduli PDF sono documenti digitali con campi compilabili per l’interazione dell’utente, che consentono di inserire informazioni elettronicamente. L’API Python può essere utilizzata per estrarre i dati da questi moduli per un’elaborazione efficiente.

Feature icon

Analizza dati tramite template

Crea template personalizzati e utilizzali con l’API Python per analizzare informazioni specifiche da file PDF, semplificando i processi di estrazione dei dati.

Feature icon

Cerca testo nei documenti

Individua rapidamente parole o pattern specifici all’interno dei documenti.

Esempi di codice

Oltre all’estrazione di testo di base, ecco i casi d’uso più comuni per l’estrazione rapida di testo, immagini e metadati.

Cerca testo in un documento

Questo esempio mostra come cercare una frase specifica in un documento PDF e stampare dove è stata trovata.

Cerca testo in un documento in Python

from groupdocs.parser import Parser

# Carica il documento
with Parser("sample.pdf") as parser:
    # Stampa l'indice della pagina e il rettangolo dove è stata trovata la frase
    for area in parser.Search("Total Amount"):
        # Stampa l'indice della pagina e il rettangolo dove è stata trovata la frase
        print(f"Page {area.PageIndex}, Rectangle: {area.Rectangle}")

Estrai immagini da un documento

Questo esempio mostra come estrarre immagini da un documento PDF e salvarle in un file.

Estrai immagini da un documento in Python

from groupdocs.parser import Parser

# Carica il documento
with Parser("sample.docx") as parser:
    # Estrai le immagini dal documento
    images = parser.GetImages()

    # Salva le immagini in un file
    index = 1
    for image in images:
        image.Save(f"image_{index}.png")
        index += 1

Estrai metadati da un documento

Questo esempio mostra come estrarre i metadati da un documento PDF e stamparli.

Estrai metadati da un documento in Python

from groupdocs.parser import Parser

# Carica il documento
with Parser("sample.pdf") as parser:
    # Estrai i metadati dal documento
    metadata = parser.GetMetadata()

    # Stampa i metadati
    for item in metadata:
        print(f"{item.Name}: {item.Value}")

Pronto per iniziare?

Scarica GroupDocs.Parser gratuitamente o ottieni una licenza di prova per l’accesso completo!

Risorse utili

Esplora la documentazione, i campioni di codice e il supporto della comunità per migliorare la tua esperienza.

Suggerimenti per la licenza temporanea

1
Iscriviti con la tua email di lavoro. I servizi di posta gratuiti non sono consentiti.
2
Utilizza il pulsante Ottieni una licenza temporanea nel secondo passaggio.
 Italiano