GroupDocs.Parser for Java

Recuperar datos de tablas de XML usando Java

Detecte y extraiga sin esfuerzo tablas de formatos como PDF, DOCX y XLSX con GroupDocs.Parser en sus flujos de trabajo Java.

Cómo recuperar tablas de Xml en Java

Para analizar tablas de documentos XML utilizando GroupDocs.Parser, siga estos pasos en su entorno Java:

  1. Cree una instancia de Parser y cargue el archivo objetivo XML.
  2. Verifique que el archivo sea compatible con la extracción estructurada de tablas.
  3. Utilice la API para recuperar elementos de tabla del documento.
  4. Aproveche los datos extraídos en sistemas de análisis, informes o automatización.
// Cargue el documento de entrada con Parser que incluye elementos de tabla
try (Parser parser = new Parser("input.xml"))
{
    // Verifique que el tipo de documento permita el reconocimiento de tablas
    if (!parser.getFeatures().isTables()) {
        System.out.println("Agregue lógica para archivos que no admiten tablas");
        return;
    }

    // Defina reglas para interpretar la estructura de la tabla
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Establezca parámetros para extraer tablas
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Ejecute la extracción de tablas en el documento cargado
    Iterable<PageTableArea> tables = parser.getTables(options);

    //  Procese cada tabla extraída del resultado
    for (PageTableArea t : tables) 
    {
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
haga clic para copiar
copiado
Más ejemplos Documentación

Herramientas avanzadas de extracción de contenido

Más allá de leer tablas, GroupDocs.Parser admite la captura de texto plano, elementos visuales, metadatos incrustados y objetos estructurados para mejorar las tareas de procesamiento de documentos.

Extracción de contenido estructurado y datos tabulares

Análisis preciso de tablas a través de formatos

Soporte para la extracción de tablas de tipos de documentos estándar como PDF, Word, Excel y HTML con alta precisión.

Leer estructuras tabulares de diversas fuentes

Recupere datos de tablas de hojas de cálculo, documentos e informes, preservando la estructura y alineación.

Configuraciones personalizables para la extracción de tablas

Controle la detección de diseño, gestione encabezados y pies de página, y ajuste la extracción con opciones de configuración flexibles.

Ejemplo: extraer tablas de un documento de Excel

Este ejemplo muestra cómo extraer y recorrer el contenido de tablas en un archivo de Excel (XLSX) utilizando GroupDocs.Parser.

Java

//  Inicializar Parser con el archivo de Excel
try (Parser parser = new Parser("input.pdf"))
{
    // Salir si la extracción de tablas no es compatible con este documento
    if (!parser.getFeatures().isTables())
    {
        return;
    }

    // Aplicar reglas para localizar el diseño de la tabla
    TemplateTableLayout layout = new TemplateTableLayout(
            java.util.Arrays.asList(new Double[]{50.0, 95.0, 275.0, 415.0, 485.0, 545.0}),
            java.util.Arrays.asList(new Double[]{325.0, 340.0, 365.0, 395.0}));

    // Configurar ajustes para la extracción de tablas
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Invocar el proceso de extracción
    Iterable<PageTableArea> tables = parser.getTables(options);

    // Recorrer todas las estructuras de tabla analizadas
    for (PageTableArea t : tables)
    {
        // Iterar sobre cada fila dentro de la tabla
        for (int row = 0; row < t.getRowCount(); row++)
        {
            // Procesar cada celda en la fila actual
            for (int column = 0; column < t.getColumnCount(); column++) 
            {
                // Acceder y leer el contenido de la celda actual
                PageTableAreaCell cell = t.getCell(row, column);
                if (cell != null)
                {
                    // Salida del valor textual de cada celda de la tabla
                    System.out.print(cell.getText());
                    System.out.print(" | ");
                }
            }
        }
    }
}

Introducción a la API de GroupDocs.Parser for Java

GroupDocs.Parser es una API de extracción de contenido rica en funciones para plataformas Java. Permite a los desarrolladores analizar con precisión tablas, texto, gráficos, enlaces y datos estructurados de PDFs, documentos de Word, hojas de Excel, presentaciones de PowerPoint y más—sin requerir complementos de terceros.
Aprender más
About illustration

¿Listo para empezar?

Descargue GroupDocs.Parser gratis u obtenga una licencia de prueba para obtener acceso completo.

Recursos útiles

Explore la documentación, las muestras de código y el apoyo de la comunidad para mejorar su experiencia.

Tipos de documentos soportados para la extracción de tablas

GroupDocs.Parser proporciona detección confiable de tablas en múltiples tipos de archivos. Aquí hay una lista de los formatos de documentos más ampliamente soportados para la extracción de tablas.

Consejos para licencias temporales

1
Regístrate con tu correo electrónico del trabajo. No se permiten servicios de correo gratuitos.
2
Utilice el botón Obtener una licencia temporal en el segundo paso.
 Español