¿Cómo extraer tablas de archivos DOC a través de la API .NET?

La tabla es la colección de celdas dispuestas en filas y columnas. Las tablas juegan un papel muy importante en el almacenamiento y la organización de datos detallados o complicados que permiten a los usuarios leerlos y verlos fácilmente. Las tablas se pueden usar de muchas maneras, como hacer listas, comparar información, alinear datos, agrupar información, resaltar tendencias o patrones en los datos y muchas más. GroupDocs.Parser for .NET es una API útil que permite a los programadores de software desarrollar una solución para extraer tablas, texto e imágenes de varios tipos de formatos de documentos admitidos, como PDF, correos electrónicos, libros electrónicos, Word (DOC, { 318}), PowerPoint (PPT, PPTX), Excel (XLS, XLSX), formatos de correo electrónico (EML, MSG) y muchos más. La API .NET ha incluido varias funciones importantes para trabajar con tablas, como extraer todas las tablas de un documento, extraer una tabla de una página en particular, obtener datos de celdas de tabla, obtener el número total de filas y columnas de una tabla, obtener altura de fila, imprimir datos de una tabla y más.

Extraer tablas de DOC en .NET

GroupDocs.Parser for .NET facilita a los desarrolladores de C# extraer tablas de un archivo DOC mediante la implementación de unos sencillos pasos.

Crear una instancia del objeto Parser para el documento inicial;
Compruebe si el documento admite la extracción de tablas;
Crea una instancia de PageTableAreaOptions y [TemplateTableLayout](https://reference.groupdocs.com/parser/net/groupdocs.parser .templates/templatetablelayout/) clases para establecer el diseño de las tablas
Llame al método GetTables y obtenga la colección de PageTableArea objetos;

Más información sobre la extracción de tablas

Cómo extraer tablas del archivo DOC usando el código de ejemplo C#

// Extraiga tablas del archivo DOC usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
using (Parser parser = new Parser(filePath)) {
    // Compruebe si el documento admite la extracción de tablas
    if (!parser.Features.Tables) {
        Console.WriteLine("El documento no admite la extracción de tablas.");
        return;
    }
    // Crear el diseño de las tablas.
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Crear las opciones para la extracción de tablas.
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Extraer tablas del documento.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Iterar sobre tablas
    foreach (PageTableArea t in tables) {
        // Iterar sobre filas
        for (int row = 0; row < t.RowCount; row++) {
            // Iterar sobre columnas
            for (int column = 0; column < t.ColumnCount; column++) {
                // Obtener la celda de la tabla
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Imprimir el texto de la celda de la tabla
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Requisitos del sistema

GroupDocs.Parser for .NET Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.

Sistemas operativos: Microsoft Windows, Linux, MacOS
Entornos de desarrollo: Microsoft Visual Studio, Xamarin, MonoDevelop
Marcos
Descarga la última versión de GroupDocs.Parser for .NET desde Nuget

Por qué usar GroupDocs.Parser for .NET

Compatibilidad con la extracción de texto sin formato de cualquier documento compatible
Análisis de documentos a través de plantillas definidas por el usuario
Totalmente compatible con la extracción de texto estructurado
Búsqueda de texto por palabra clave y expresión regular
Extraiga texto formateado, metadatos, imágenes, contenedores y archivos adjuntos
Extraiga la tabla de contenido para algunos formatos de documentos compatibles
Analizar datos de formulario de PDF documentos
Extraer hipervínculos del documento

Extraer tablas de otros formatos de documentos

.NET API de análisis de documentos y escaneo de tablas para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)