GroupDocs.Parser for .NET

Estrai documenti XML utilizzando C#

Estrai in modo efficiente testo, metadati, tabelle e immagini da file PDF, Word, Excel e immagini utilizzando GroupDocs.Parser nei tuoi progetti .NET.

Scarica NuGet

Inizia la prova gratuita

Passaggi per estrarre dati da Xml in C#

Segui questi passaggi per analizzare il contenuto dei documenti XML nelle tue app .NET utilizzando GroupDocs.Parser:

Carica il documento XML utilizzando un’istanza di Parser.
Estrai il contenuto desiderato, come testo, tabelle o metadati.
Verifica che i dati estratti siano validi.
Utilizza l’output analizzato nei tuoi processi downstream, automazione o sistemi aziendali.

Copia

// Carica il tuo documento in Parser
using (Parser parser = new Parser("input.xml")) {

    // Estrai tutto il contenuto testuale dal file
    using (TextReader reader = parser.GetText()) 
    {
        // Se il testo non è disponibile, il risultato sarà nullo
        // Utilizza il testo estratto nella tua applicazione
        Console.WriteLine(reader == null ? 
            "L'estrazione del testo non è supportata per questo formato" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

clicca per copiare

copiato

Altri esempi Documentazione

Capacità complete di parsing dei documenti

GroupDocs.Parser offre più della semplice lettura del testo: supporta l’estrazione di codici a barre, il parsing delle immagini, l’accesso ai metadati e l’elaborazione dei dati strutturati per l’automazione avanzata e l’analisi dei dati.

Capacità di estrazione e parsing dei contenuti dei documenti

Supporto per diversi tipi di contenuti

Estrai dati inclusi testo, immagini, tabelle e campi da formati di documenti come PDF, Word, Excel, HTML e altro.

Lavora con file sia scansionati che digitali

Analizza i dati sia da documenti scansionati che da file nativi, con supporto per OCR ed estrazione consapevole del layout.

Parametri di estrazione configurabili

Regola la logica di parsing con opzioni flessibili come selezione dell’intervallo di pagina, targeting delle regioni e modelli di rilevamento dei campi.

Come analizzare un PDF utilizzando modelli

Questo esempio mostra come estrarre dati strutturati da un PDF utilizzando un modello di parsing predefinito con GroupDocs.Parser.

C#

//  Carica il file PDF con la classe Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Analizza il documento secondo il modello
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Controlla se il parsing dei moduli è supportato
    if (data == null)
    {
        return;
    }

    // Elabora i campi ottenuti
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Crea parametri del rilevatore per la tabella 'Dettagli'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

Informazioni sull’API GroupDocs.Parser for .NET

GroupDocs.Parser è un’API ricca di funzionalità per il parsing dei documenti, progettata per gli sviluppatori .NET. Supporta l’estrazione di testo semplice e strutturato, metadati, immagini, tabelle e codici a barre da formati popolari come PDF, DOCX, XLSX, PPTX e altro ancora, il tutto senza dipendenze software aggiuntive.

Scopri di più

Pronto per iniziare?

Scarica GroupDocs.Parser gratuitamente o ottieni una licenza di prova per l’accesso completo!

Scarica NuGet

Inizia la prova gratuita

Risorse utili

Esplora la documentazione, i campioni di codice e il supporto della comunità per migliorare la tua esperienza.

Formati supportati per l’estrazione dei dati

GroupDocs.Parser consente il parsing su un ampio insieme di formati di documenti e immagini. Esplora i tipi di file supportati comunemente usati nei flussi di lavoro di estrazione dei dati.

Analizza PDF
(Formato Documento Portatile)
Analizza DOCX
(Documento Word Office 2007+)
Analizza PPTX
(Formato di presentazione Open XML)
Analizza XLSX
(Cartella di lavoro Open XML)
Analizza TXT
(File di testo)
Analizza RTF
(Formato di Testo Ricco)
Analizza EPUB
(File eBook Open)