GroupDocs.Parser for Java

Recupera testo da DOCX usando Java

Estrai in modo efficiente testo leggibile o strutturato da file come PDF, Word, Excel e altro usando GroupDocs.Parser nei tuoi progetti di sviluppo Java.

Come recuperare testo da Docx usando Java

Segui i passaggi seguenti per estrarre testo da file DOCX utilizzando GroupDocs.Parser nel tuo progetto Java:

  1. Carica il documento DOCX utilizzando la classe Parser.
  2. Esegui l’estrazione del testo dal contenuto del file.
  3. Verifica se il testo è stato recuperato con successo.
  4. Utilizza i dati testuali nei sistemi di ricerca, analisi o automazione.
// Inizializza Parser con il tuo documento
try (Parser parser = new Parser("input.docx"))
{
    // Leggi ed estrai tutti i dati testuali
    try (TextReader reader = parser.getText())
    {
        // Restituisci null se il contenuto testuale è assente
        // Integra il testo estratto nel tuo flusso di lavoro
        System.out.println(reader == null ? 
            "Salta i formati non supportati per l'estrazione del testo" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
clicca per copiare
copiato
Altri esempi Documentazione

Funzionalità avanzate per l’estrazione del testo

GroupDocs.Parser oltrepassa l’estrazione di testo semplice—supportando il recupero di immagini, metadati e dati strutturati per migliorare le attività di elaborazione dei contenuti.

Estrai e struttura contenuti testuali da documenti

Funziona con numerosi formati di documenti

Cattura sia testo grezzo che strutturato da DOCX, XLSX, PPTX, PDF, HTML e vari formati.

Estrai testo da contenuti visivi e testuali

Analizza il testo da documenti scansionati, diapositive, fogli di calcolo e altri tipi di file mantenendo la struttura logica.

Controllo dettagliato sul processo di estrazione

Configura intervalli di pagina, zone di layout e parametri di accuratezza per un’analisi testuale fine-tuned.

Esempio: Estrazione di aree di testo da un documento PPTX

Questo esempio dimostra l’estrazione di blocchi di testo insieme alle loro coordinate spaziali da una presentazione PowerPoint utilizzando GroupDocs.Parser.

Java

//  Carica il tuo file PPTX con l'API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Ottieni tutte le aree di testo rettangolari
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Esci se questa funzione non è supportata
    if (areas == null)
    {
        return;
    }

    // Cicla attraverso le aree di testo per pagina
    for (PageTextArea a : areas)
    {
        // Elabora ogni blocco di testo con il numero di pagina e il rettangolo di confinamento
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Presentazione dell’API GroupDocs.Parser for Java

GroupDocs.Parser è un parser di documenti robusto e scalabile progettato per gli sviluppatori Java. Offre funzionalità per estrarre accuratamente testo, tabelle, immagini e componenti strutturati da vari formati, inclusi PDF, DOCX, XLSX, PPTX e altri—senza dipendere da utilità esterne.
Scopri di più
About illustration

Pronto per iniziare?

Scarica GroupDocs.Parser gratuitamente o ottieni una licenza di prova per l’accesso completo!

Risorse utili

Esplora la documentazione, i campioni di codice e il supporto della comunità per migliorare la tua esperienza.

Tipi di file supportati per l’estrazione del testo

GroupDocs.Parser è in grado di estrarre contenuti testuali da numerosi formati di file e immagini. Di seguito sono riportati i tipi più comunemente utilizzati che supporta.

Suggerimenti per la licenza temporanea

1
Iscriviti con la tua email di lavoro. I servizi di posta gratuiti non sono consentiti.
2
Utilizza il pulsante Ottieni una licenza temporanea nel secondo passaggio.
 Italiano