GroupDocs.Parser for .NET

Estrai testo da EPUB utilizzando C#

Estrai rapidamente testo leggibile e strutturato da PDF, Word, Excel e altri tipi di file utilizzando GroupDocs.Parser nelle tue soluzioni .NET.

Scarica NuGet

Inizia la prova gratuita

Passaggi per estrarre testo da Epub in C#

Puoi estrarre testo pulito e strutturato da documenti EPUB nelle app .NET con GroupDocs.Parser seguendo questi passaggi:

Apri il documento EPUB utilizzando un’istanza di Parser.
Estrai il testo dal contenuto del file.
Controlla il risultato per confermare che l’estrazione del testo sia avvenuta con successo.
Utilizza il testo estratto nella tua logica aziendale, indicizzazione o pipeline di dati.

Copia

// Carica il tuo documento in Parser
using (Parser parser = new Parser("input.epub")) {

    // Estrai tutto il contenuto di testo dal file
    using (TextReader reader = parser.GetText()) 
    {
        // Se il testo non è disponibile, il risultato sarà nullo
        // Utilizza il testo estratto nella tua applicazione
        Console.WriteLine(reader == null ? 
            "L'estrazione di testo non è supportata per questo formato" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

clicca per copiare

copiato

Altri esempi Documentazione

Funzionalità complete per l’estrazione di contenuti

Oltre al testo semplice, GroupDocs.Parser può estrarre immagini, elementi strutturati e metadati per supportare analisi di contenuto, trasformazione e automazione.

Riconoscimento testo e analisi di documenti strutturati

Estrazione di testo attraverso vari tipi di file

Ottieni testo semplice o strutturato da formati come PDF, DOCX, XLSX, PPTX, HTML e altri formati.

Elaborazione di testo da documenti e immagini

Estrai testo da immagini scansionate, presentazioni, fogli di calcolo e documenti digitali preservando la struttura.

Configurazione avanzata dell’estrazione del testo

Personalizza il modo in cui il testo viene rilevato—definisci intervalli di pagina, aree di layout e regola l’output per la massima accuratezza.

Come estrarre aree di testo da un file PPTX

Questo esempio di codice mostra come recuperare il contenuto di testo insieme alle coordinate delle aree da un file PowerPoint utilizzando GroupDocs.Parser.

C#

//  Carica la presentazione PowerPoint con Parser
using (Parser parser = new Parser("input.pptx"))
{
    // Estrai tutti i rettangoli delle aree di testo dal documento
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Esci se l'estrazione delle aree di testo non è disponibile
    if (areas == null)
    {
        return;
    }

    // Ciclo attraverso le aree di testo di ciascuna pagina
    foreach (PageTextArea a in areas)
    {
        // Accesso all'indice della pagina, rettangolo dell'area e valore del testo
        Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
    }
}

Informazioni sull’API GroupDocs.Parser for .NET

GroupDocs.Parser è un’API ad alte prestazioni per l’analisi di documenti destinata agli sviluppatori di .NET. Semplifica l’estrazione di testo, immagini, tabelle e contenuti strutturati da molteplici formati di file, inclusi PDF, DOCX, XLSX, PPTX e altro—senza dipendere da librerie di terze parti.

Scopri di più

Pronto per iniziare?

Scarica GroupDocs.Parser gratuitamente o ottieni una licenza di prova per l’accesso completo!

Scarica NuGet

Inizia la prova gratuita

Risorse utili

Esplora la documentazione, i campioni di codice e il supporto della comunità per migliorare la tua esperienza.

Formati supportati per l’estrazione di testo

GroupDocs.Parser consente l’estrazione di testo da un’ampia gamma di documenti e tipi di immagini. Esplora i formati supportati più comuni elencati di seguito.

Analizza PDF
(Formato Documento Portatile)
Analizza DOCX
(Documento Word Office 2007+)
Analizza PPTX
(Formato di presentazione Open XML)
Analizza XLSX
(Cartella di lavoro Open XML)
Analizza TXT
(File di testo)
Analizza RTF
(Formato di Testo Ricco)
Analizza XML
(Linguaggio di Markup Estensibile)