GroupDocs.Parser for .NET

Analiza documentos PDF con C#

Extrae de manera eficiente texto, metadatos, tablas e imágenes de archivos PDF, Word, Excel e imagen utilizando GroupDocs.Parser en tus proyectos de .NET.

Descargar NuGet

Iniciar prueba gratuita

Pasos para extraer datos de Pdf en C#

Sigue estos pasos para analizar contenido de documentos PDF en tus aplicaciones .NET utilizando GroupDocs.Parser:

Carga el documento PDF utilizando una instancia de Parser.
Extrae el contenido deseado, como texto, tablas o metadatos.
Verifica que los datos extraídos sean válidos.
Utiliza la salida analizada en tus procesos, automatización o sistemas de negocio.

Copiar

// Carga tu documento en Parser
using (Parser parser = new Parser("input.pdf")) {

    // Extrae todo el contenido de texto del archivo
    using (TextReader reader = parser.GetText()) 
    {
        // Si el texto no está disponible, el resultado será nulo
        // Utiliza el texto extraído en tu aplicación
        Console.WriteLine(reader == null ? 
            "La extracción de texto no es compatible con este formato" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

haga clic para copiar

copiado

Más ejemplos Documentación

Capacidades completas de análisis de documentos

GroupDocs.Parser permite más que solo lectura de texto — soporta extracción de códigos de barras, análisis de imágenes, acceso a metadatos y procesamiento de datos estructurados para automatización avanzada y análisis de datos.

Extracción de contenido y capacidades de análisis de documentos

Soporte para diversos tipos de contenido de archivos

Extrae datos incluyendo texto, imágenes, tablas y campos de formatos de documentos como PDF, Word, Excel, HTML y más.

Trabaja con archivos escaneados y digitales

Analiza datos tanto de documentos escaneados como de archivos digitales nativos, con soporte para OCR y extracción consciente del diseño.

Parámetros de extracción configurables

Ajusta la lógica de análisis con opciones flexibles como selección de rango de páginas, orientación de regiones y plantillas de detección de campos.

Cómo analizar PDF utilizando plantillas

Este ejemplo muestra cómo extraer datos estructurados de un PDF utilizando una plantilla de análisis predefinida con GroupDocs.Parser.

C#

//  Carga el archivo PDF con la clase Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Analiza el documento según la plantilla
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Verifica si la extracción de formulario es compatible
    if (data == null)
    {
        return;
    }

    // Procesa los campos obtenidos
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Crea parámetros de detector para la tabla 'Detalles'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

Acerca de la API GroupDocs.Parser for .NET

GroupDocs.Parser es una API de análisis de documentos rica en características, diseñada para desarrolladores de .NET. Soporta la extracción de texto plano y estructurado, metadatos, imágenes, tablas y códigos de barras de formatos populares como PDF, DOCX, XLSX, PPTX, y más, sin dependencias de software adicionales.

Aprender más

¿Listo para empezar?

Descargue GroupDocs.Parser gratis u obtenga una licencia de prueba para obtener acceso completo.

Descargar NuGet

Iniciar prueba gratuita

Recursos útiles

Explore la documentación, las muestras de código y el apoyo de la comunidad para mejorar su experiencia.

Formatos compatibles para la extracción de datos

GroupDocs.Parser permite el análisis de un amplio conjunto de formatos de documentos e imágenes. Explora los tipos de archivos soportados comúnmente utilizados en flujos de trabajo de extracción de datos.

Analizar DOCX
(Documento Word 2007+)
Analizar PPTX
(Formato de presentación Open XML)
Analizar XLSX
(Libro de trabajo Open XML)
Analizar TXT
(Archivo de texto)
Analizar RTF
(Formato de texto enriquecido)
Analizar XML
(Lenguaje de marcado extensible)
Analizar EPUB
(Archivo de eBook abierto)