Parser per Java

Document Parser SDK per Java

Aggiungi parsing di documenti rapido e preciso alle tue app Java ed estrai testo, immagini, metadati e dati strutturati da documenti e immagini.

Scarica Maven Inizia la prova gratuita

Versione 24.9 rilasciata

Scopri le novità

// Passa il file sorgente all'istanza Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Passa il testo del documento a TextReader
    try (TextReader reader = parser.getText())
    {
        // Elabora il testo del documento
        System.out.println(reader == null 
            ? "" 
            : reader.readToEnd());
    }
}

<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>

GroupDocs.Parser in sintesi

Document Parser SDK per eseguire parsing di documenti ad alta precisione nelle applicazioni Java

Estrai dati dai documenti

GroupDocs.Parser for Java API ti consente di recuperare testo, metadati e immagini da un’ampia gamma di formati di file, come documenti Office, email, allegati e archivi. Questo potente strumento ti aiuta ad accedere e a elaborare in modo efficiente le informazioni preziose contenute in questi file per varie applicazioni, come analisi dei dati, indicizzazione per motori di ricerca o sistemi di gestione dei contenuti.

Analizza documenti

Estrai vari elementi come collegamenti ipertestuali, tabelle, codici QR, codici a barre e dati dai moduli PDF. Inoltre, analizza qualsiasi informazione desiderata dai documenti utilizzando template personalizzati.

Personalizzare i risultati

Java API consente di recuperare i dati in diversi formati, come grezzo, strutturato, HTML o Markdown. Inoltre, l’API offre una funzionalità di ricerca per individuare parole o frasi specifiche all’interno del testo dei documenti.

Indipendenza dalla piattaforma

GroupDocs.Parser for Java supporta i seguenti sistemi operativi, framework e gestori di pacchetti

Formati di file supportati

GroupDocs.Parser for Java supporta operazioni con i seguenti formati di file.

Formati Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Immagini e altri formati

Portatile: PDF
Immagini: JPG, BMP, PNG, TIFF, GIF
Altri formati Office: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Altri formati

Web: HTML, MHTML
Archivi: ZIP, TAR, 7Z
e-Book: CHM, EPUB, FB2, MOBI

GroupDocs.Parser for Java caratteristiche

Estrai dati da PDF, documenti Office, immagini e altri formati in modo rapido e preciso con il nostro SDK Java Document Parser

Estrai testo

Estrai informazioni testuali da vari formati di file, come documenti Office, PDF e immagini, per una facile leggibilità e analisi.

Estrai immagini

Recupera contenuti visivi da diverse fonti, come documenti Office e file PDF, per un accesso e utilizzo pratici.

Scansiona codici QR

Rileva e decodifica i codici QR presenti in documenti Office, file PDF o contenuti visivi per un recupero efficiente delle informazioni.

Estrai dati da allegati email e archivi

Raccogli informazioni preziose da messaggi email, allegati di file e sorgenti di dati compressi per un’analisi e un utilizzo efficaci.

Estrai tabelle

Identifica ed estrai dati tabulari da documenti PDF per un’analisi e utilizzo organizzati.

Estrai collegamenti ipertestuali

Individua ed estrae collegamenti ipertestuali e indirizzi email all’interno di documenti Office o file PDF per un accesso efficiente.

Analizza moduli PDF

I moduli PDF sono documenti digitali con campi compilabili per l’interazione dell’utente, consentendo l’inserimento elettronico delle informazioni. L’API .NET può essere utilizzata per estrarre dati da questi moduli per un’elaborazione efficiente.

Analizza dati tramite template

Crea template personalizzati e utilizzali con l’API .NET per analizzare informazioni specifiche da file PDF, semplificando i processi di estrazione dei dati.

Cerca testo nei documenti

Individua rapidamente parole o pattern specifici all’interno dei documenti.

Esempi di codice

Alcuni casi d’uso tipici delle operazioni GroupDocs.Parser for Java

Estrai immagini da documenti PDF

GroupDocs.Parser for Java semplifica per gli sviluppatori Java l’estrazione di immagini dai documenti:

Estrai immagini da documenti PDF in Java

// Crea un'istanza della classe Parser
try (Parser parser = new Parser("source.pdf"))
{
    // Estrai immagini
    Iterable<PageImageArea> images = parser.getImages();

    // Verifica se è stato estratto qualcosa
    if (images == null) {
        return;
    }

    // Itera sulle immagini
    for (PageImageArea image : images) {
        // Stampa l'indice della pagina, il rettangolo e il tipo di immagine
        System.out.println(String.format("Page: %d, R: %s, Type: %s", 
            image.getPage().getIndex(), image.getRectangle(), image.getFileType()));
    }
}

Estrai codici a barre dalle immagini

Utilizza la nostra API Java per estrarre codici a barre dalle immagini:

Estrai codici a barre dalle immagini in Java

// Carica l'immagine sorgente in Parser
try (Parser parser = new Parser("source.jpg")){

    // Verifica se il file supporta l'estrazione di codici a barre
    if (!parser.getFeatures().isBarcodes()) {

        // Estrai i codici a barre dal file
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();

        // Itera sui codici a barre
        for (PageBarcodeArea barcode : barcodes) {
            // Stampa l'indice della pagina
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Stampa il valore del codice a barre
            System.out.println("Value: " + barcode.getValue());
        }
    }
}