Extraiga tablas de documentos Excel, Word, PDF y PowerPoint a través de la API C#.NET

GroupDocs.Parser .NET API permite a los programadores extraer tablas de PDF, DOC, DOCX, PPT, PPTX, EML, MSG, XLS, XLSX, CSV , ODT, RTF y EPUB documentos o páginas.


Descargue prueba gratis

¿Cómo extraer tablas de archivos DOC a través de la API .NET?

La tabla es la colección de celdas dispuestas en filas y columnas. Las tablas juegan un papel muy importante en el almacenamiento y la organización de datos detallados o complicados que permiten a los usuarios leerlos y verlos fácilmente. Las tablas se pueden usar de muchas maneras, como hacer listas, comparar información, alinear datos, agrupar información, resaltar tendencias o patrones en los datos y muchas más. GroupDocs.Parser for .NET es una API útil que permite a los programadores de software desarrollar una solución para extraer tablas, texto e imágenes de varios tipos de formatos de documentos admitidos, como PDF, correos electrónicos, libros electrónicos, Word (DOC, { 318}), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), formatos de correo electrónico (EML, MSG) y muchos más. La API .NET ha incluido varias funciones importantes para trabajar con tablas, como extraer todas las tablas de un documento, extraer una tabla de una página en particular, obtener datos de celdas de tabla, obtener el número total de filas y columnas de una tabla, obtener altura de fila, imprimir datos de una tabla y más.

Extraer tablas de DOC en .NET

GroupDocs.Parser for .NET facilita a los desarrolladores de C# extraer tablas de un archivo DOC mediante la implementación de unos sencillos pasos.

Cómo extraer tablas del archivo DOC usando el código de ejemplo C#

// Extraiga tablas del archivo DOC usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
using (Parser parser = new Parser(filePath)) {
    // Compruebe si el documento admite la extracción de tablas
    if (!parser.Features.Tables) {
        Console.WriteLine("El documento no admite la extracción de tablas.");
        return;
    }
    // Crear el diseño de las tablas.
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Crear las opciones para la extracción de tablas.
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Extraer tablas del documento.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Iterar sobre tablas
    foreach (PageTableArea t in tables) {
        // Iterar sobre filas
        for (int row = 0; row < t.RowCount; row++) {
            // Iterar sobre columnas
            for (int column = 0; column < t.ColumnCount; column++) {
                // Obtener la celda de la tabla
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Imprimir el texto de la celda de la tabla
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Requisitos del sistema

GroupDocs.Parser for .NET Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entornos de desarrollo: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Marcos
  • Descarga la última versión de GroupDocs.Parser for .NET desde Nuget

Por qué usar GroupDocs.Parser for .NET

  • Compatibilidad con la extracción de texto sin formato de cualquier documento compatible
  • Análisis de documentos a través de plantillas definidas por el usuario
  • Totalmente compatible con la extracción de texto estructurado
  • Búsqueda de texto por palabra clave y expresión regular
  • Extraiga texto formateado, metadatos, imágenes, contenedores y archivos adjuntos
  • Extraiga la tabla de contenido para algunos formatos de documentos compatibles
  • Analizar datos de formulario de PDF documentos
  • Extraer hipervínculos del documento

Extraer tablas de otros formatos de documentos

.NET API de análisis de documentos y escaneo de tablas para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Español