GroupDocs.Parser for Java

Estrai dati da documenti DOCX in Java

Estrai senza sforzo contenuti strutturati come testo, metadati, tabelle e grafiche da documenti PDF, Word, Excel e basati su immagini utilizzando GroupDocs.Parser nelle tue app Java.

Scarica Maven

Inizia la prova gratuita

Come estrarre dati da Docx utilizzando Java

Per estrarre informazioni utili da documenti DOCX nei tuoi progetti Java utilizzando GroupDocs.Parser, segui queste istruzioni:

Apri il file DOCX con un oggetto Parser.
Utilizza il parser per recuperare i dati richiesti (testo, tabelle, metadati, ecc.).
Assicurati che l’output sia corretto e completo.
Integra il contenuto analizzato nel tuo flusso di dati, processi aziendali o applicazioni.

Copia

// Inizializza il tuo Parser con il documento di input
try (Parser parser = new Parser("input.docx"))
{
    // Recupera tutto il contenuto testuale disponibile dal documento
    try (TextReader reader = parser.getText())
    {
        // Se non viene trovato testo, il valore restituito sarà null
        // Integra il contenuto estratto nella tua soluzione
        System.out.println(reader == null ? 
            "Questo formato potrebbe non supportare l'estrazione del testo" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

clicca per copiare

copiato

Altri esempi Documentazione

Funzionalità versatili per l’analisi dei documenti

GroupDocs.Parser offre più di una semplice estrazione di testo: supporta l’analisi completa di codici a barre, metadati, immagini, tabelle e altri dati per potenziare l’automazione intelligente e le applicazioni basate sui dati.

Panoramica visiva dell'analisi e dell'estrazione dei dati dai documenti

Estrai da più formati di file

Accedi ai dati come testo, tabelle e media da tipi di file ampiamente utilizzati come PDF, Word, Excel, PowerPoint, HTML e altri.

Analizza contenuti da fonti digitali e scansionate

Elabora contenuti sia da file digitali nativi che da immagini scansionate, utilizzando l’OCR quando necessario per interpretare il testo incorporato.

Opzioni di configurazione flessibili

Personalizza la tua analisi con impostazioni per la selezione delle pagine, le zone di layout e i modelli di campo personalizzati per soddisfare esigenze specifiche di estrazione.

Analisi PDF utilizzando un modello di estrazione dati

Questo esempio mostra come estrarre campi strutturati da un PDF utilizzando un modello personalizzato tramite GroupDocs.Parser.

Java

//  Apri il PDF utilizzando la classe Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Applica il modello di analisi per estrarre i dati definiti
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Controlla se l'estrazione basata su un modello è disponibile
    if (data == null) {
        return;
    }

    // Lavora con i campi dati estratti
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Definisci le impostazioni di rilevamento per estrarre la sezione 'Dettagli'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

Cos’è GroupDocs.Parser for Java?

GroupDocs.Parser è un’API robusta sviluppata per i programmatori Java, che offre funzionalità avanzate per l’analisi dei documenti. Permette di estrarre e elaborare dati testuali, immagini, tabelle, campi strutturati e codici a barre da numerosi formati come PDF, DOCX, XLSX, PPTX e altro — tutto senza installare librerie extra.

Scopri di più

Pronto per iniziare?

Scarica GroupDocs.Parser gratuitamente o ottieni una licenza di prova per l’accesso completo!

Scarica Maven

Inizia la prova gratuita

Risorse utili

Esplora la documentazione, i campioni di codice e il supporto della comunità per migliorare la tua esperienza.

Tipi di file supportati per l’estrazione del contenuto

GroupDocs.Parser è compatibile con un’ampia gamma di tipi di file per documenti e immagini, facilitando l’estrazione di informazioni da formati comunemente utilizzati in scenari di analisi e automazione dei dati.

Analizza PDF
(Formato Documento Portatile)
Analizza PPTX
(Formato di presentazione Open XML)
Analizza XLSX
(Cartella di lavoro Open XML)
Analizza TXT
(File di testo)
Analizza RTF
(Formato di Testo Ricco)
Analizza XML
(Linguaggio di Markup Estensibile)
Analizza EPUB
(File eBook Open)