GroupDocs.Parser in breve

API per eseguire il parsing dei documenti nelle applicazioni Java

Illustration parser

Estrai dati dai documenti

L’API GroupDocs.Parser for Java ti consente di recuperare testo, metadati e immagini da un’ampia gamma di formati di file come documenti Office, email, allegati e archivi. Questo potente strumento ti aiuta ad accedere e elaborare in modo efficiente informazioni preziose contenute all’interno di questi file per varie applicazioni come analisi dei dati, indicizzazione dei motori di ricerca o sistemi di gestione dei contenuti.

Analizza documenti

Estrai vari elementi come collegamenti ipertestuali, tabelle, QR code, codici a barre e dati da moduli PDF. Inoltre, analizza qualsiasi informazione desiderata dai documenti utilizzando modelli personalizzati.

Personalizzazione dei risultati

L’API Java ti consente di recuperare dati in vari formati come raw, strutturati, HTML o Markdown. Inoltre, l’API offre una funzionalità di ricerca per localizzare parole o frasi specifiche all’interno del testo dei documenti.

Indipendenza dalla piattaforma

GroupDocs.Parser for Java supporta i seguenti sistemi operativi, framework e gestori di pacchetti

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formati di file supportati

GroupDocs.Parser for Java supporta operazioni con i seguenti formati di file.

Formati Microsoft Office

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Immagini e altri formati

  • Portabili: PDF
  • Immagini: JPG, BMP, PNG, TIFF, GIF
  • Altri formati office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Altri formati

  • Web: HTML, MHTML
  • Archivi: ZIP, TAR, 7Z
  • e-Book: CHM, EPUB, FB2, MOBI

Caratteristiche di GroupDocs.Parser for Java

Estrai dati da PDF, documenti Office e immagini in modo rapido e accurato

Feature icon

Estrai testo

Estrai informazioni testuali da vari formati di file come documenti office, file PDF e immagini per una lettura e analisi agevoli.

Feature icon

Estrai immagini

Recupera contenuti visivi da fonti diversificate come documenti office e file PDF per un’accessibilità e utilizzo convenienti.

Feature icon

Scansiona codici QR

Rileva e decodifica i codici QR presenti nei documenti office, nei file PDF o nei contenuti visivi per un recupero efficiente delle informazioni.

Feature icon

Estrai dati da allegati email e archivi

Raccogli informazioni preziose dai messaggi email, dagli allegati di file e dalle fonti di dati compressi per un’analisi e un utilizzo efficaci.

Feature icon

Estrai tabelle

Identifica ed estrai dati tabulari dai documenti PDF per un’analisi e un utilizzo organizzato.

Feature icon

Estrai collegamenti ipertestuali

Individua ed estrai collegamenti ipertestuali e indirizzi email all’interno di documenti office o file PDF per un’accessibilità efficiente.

Feature icon

Analizza Moduli PDF

I Moduli PDF sono documenti digitali che presentano campi compilabili per l’interazione dell’utente, consentendo di inserire informazioni elettronicamente. L’API .NET può essere utilizzata per estrarre dati da questi moduli per un’elaborazione efficiente.

Feature icon

Analizza dati tramite modelli

Crea modelli personalizzati e utilizzali con l’API .NET per analizzare informazioni specifiche dai file PDF, semplificando i processi di estrazione dei dati.

Feature icon

Cerca un testo nei documenti

Individua rapidamente parole o pattern specifici all’interno dei documenti.

Esempi di codice

Alcuni casi d’uso delle tipiche operazioni di GroupDocs.Parser for Java

Estrai immagini da documenti PDF

GroupDocs.Parser for Java semplifica per gli sviluppatori Java l’estrazione di immagini dai documenti:

Estrai immagini da documenti PDF in Java

// Crea un'istanza della classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Estrai le immagini
    Iterable<PageImageArea> images = parser.getImages();

    // Controlla se qualcosa è stato estratto
    if (images == null) {
        return;
    }

    // Itera sulle immagini
    for (PageImageArea image : images) {
        // Stampa un indice di pagina, rettangolo e tipo di immagine
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Estrai codici a barre dalle immagini

Utilizza la nostra API Java per estrarre codici a barre dalle immagini:

Estrai codici a barre dalle immagini in Java

// Carica l'immagine sorgente su Parser
try (Parser parser = new Parser("source.jpg")){

    // Controlla se il file supporta l'estrazione dei codici a barre
    if (!parser.getFeatures().isBarcodes()) {

        // Estrai i codici a barre dal file
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Itera sui codici a barre
        for (PageBarcodeArea barcode : barcodes) {
            // Stampa l'indice della pagina
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Stampa il valore del codice a barre
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

Pronto per iniziare?

Scarica GroupDocs.Parser gratuitamente o ottieni una licenza di prova per l’accesso completo!

Risorse utili

Esplora la documentazione, i campioni di codice e il supporto della comunità per migliorare la tua esperienza.

Suggerimenti per la licenza temporanea

1
Iscriviti con la tua email di lavoro. I servizi di posta gratuiti non sono consentiti.
2
Utilizza il pulsante Ottieni una licenza temporanea nel secondo passaggio.
 Italiano