GroupDocs.Parser for Java

Extraer datos de documentos XML en Java

Extrae sin problemas contenido estructurado como texto, metadatos, tablas y gráficos de documentos PDF, Word, Excel, y de imágenes utilizando GroupDocs.Parser en tus aplicaciones Java.

Descargar Maven

Iniciar prueba gratuita

Cómo extraer datos de Xml usando Java

Para extraer información útil de documentos XML en tus proyectos de Java usando GroupDocs.Parser, sigue estas instrucciones:

Abre el archivo XML con un objeto Parser.
Usa el analizador para recuperar los datos requeridos (texto, tablas, metadatos, etc.).
Asegúrate de que la salida sea correcta y completa.
Integra el contenido analizado en tu flujo de datos, procesos de negocio o aplicaciones.

Copiar

// Inicializa tu Parser con el documento de entrada
try (Parser parser = new Parser("input.xml"))
{
    // Recupera todo el contenido textual disponible del documento
    try (TextReader reader = parser.getText())
    {
        // Si no se encuentra texto, el valor de retorno será nulo
        // Incorpora el contenido extraído en tu solución
        System.out.println(reader == null ? 
            "Este formato puede no soportar la extracción de texto" : reader.readToEnd());
    }
}

<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>

haga clic para copiar

copiado

Más ejemplos Documentación

Funcionalidad versátil de análisis de documentos

GroupDocs.Parser hace más que solo extracción de texto; admite el análisis completo de códigos de barras, metadatos, imágenes, tablas y otros datos para potenciar aplicaciones automatizadas e impulsadas por datos.

Visión general visual del análisis y extracción de datos de documentos

Extraer de múltiples formatos de archivo

Accede a datos como texto, tablas y medios de tipos de archivo ampliamente utilizados como PDF, Word, Excel, PowerPoint, HTML, y otros.

Analizar contenido de fuentes digitales y escaneadas

Procesa contenido tanto de archivos digitales nativos como de imágenes escaneadas, utilizando OCR cuando sea necesario para interpretar texto incrustado.

Opciones de configuración flexibles

Personaliza tu análisis con configuraciones para selección de páginas, zonas de diseño y plantillas de campos personalizados para satisfacer necesidades de extracción específicas.

Análisis de PDF usando una plantilla de extracción de datos

Este ejemplo muestra cómo extraer campos estructurados de un PDF utilizando una plantilla personalizada a través de GroupDocs.Parser.

Java

//  Abre el PDF usando la clase Parser
try (Parser parser = new Parser("input.pdf"))
{
    // Aplica la plantilla de análisis para extraer datos definidos
    DocumentData data = parser.parseByTemplate(GetTemplate());

    // Verifica si la extracción basada en la plantilla está disponible
    if (data == null) {
        return;
    }

    // Trabaja con los campos de datos extraídos
    for (int i = 0; i < data.getCount(); i++) {
        System.out.print(data.get(i).getName() + ": ");
        PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
                ? (PageTextArea) data.get(i).getPageArea() : null;
        System.out.println(area == null ? "Not a template field" : area.getText());
    }
}

private static Template GetTemplate()
{
    // Define configuraciones del detector para extraer la sección 'Detalles'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(java.util.Arrays.asList(templateItems));
    return template;
}

¿Qué es GroupDocs.Parser for Java?

GroupDocs.Parser es una API robusta diseñada para desarrolladores de Java, que ofrece funcionalidad avanzada de análisis de documentos. Te permite extraer y procesar datos textuales, imágenes, tablas, campos estructurados y códigos de barras de numerosos formatos como PDF, DOCX, XLSX, PPTX, entre otros, todo sin instalar bibliotecas adicionales.

Aprender más

¿Listo para empezar?

Descargue GroupDocs.Parser gratis u obtenga una licencia de prueba para obtener acceso completo.

Descargar Maven

Iniciar prueba gratuita

Recursos útiles

Explore la documentación, las muestras de código y el apoyo de la comunidad para mejorar su experiencia.

Tipos de archivos soportados para la extracción de contenido

GroupDocs.Parser es compatible con una amplia variedad de tipos de archivos de documentos e imágenes, facilitando la extracción de información de formatos comúnmente utilizados en escenarios de análisis y automatización de datos.

Analizar PDF
(Formato de documento portátil)
Analizar DOCX
(Documento Word 2007+)
Analizar PPTX
(Formato de presentación Open XML)
Analizar XLSX
(Libro de trabajo Open XML)
Analizar TXT
(Archivo de texto)
Analizar RTF
(Formato de texto enriquecido)
Analizar EPUB
(Archivo de eBook abierto)