Как извлечь таблицы из файлов DOC с помощью API .NET?

Таблица представляет собой набор ячеек, расположенных в строках и столбцах. Таблицы играют очень важную роль в хранении, а также организации подробных или сложных данных, позволяя пользователям легко читать и просматривать их. Таблицы можно использовать по-разному, например, для создания списков, сравнения информации, выравнивания данных, группировки информации, выделения тенденций или закономерностей в данных и многих других. GroupDocs.Parser for .NET — это полезный API, который позволяет программистам разрабатывать решения для извлечения таблиц, текста и изображений из различных типов поддерживаемых форматов документов, таких как PDF, электронные письма, электронные книги, Word (DOC, DOCX), PowerPoint ( PPT, PPTX), Excel (XLS, XLSX), электронные письма (EML, MSG) и многие другие. .NET API включает в себя несколько важных функций для работы с таблицами, таких как извлечение всех таблиц из документов, извлечение таблицы с определенной страницы, получение данных ячейки таблицы, получение общего количества строк и столбцов таблицы, получение строки высота, печать данных таблицы и многое другое.

Извлечь таблицы из DOC в .NET

GroupDocs.Parser for .NET позволяет разработчикам C# извлекать таблицы из файла DOC, выполняя несколько простых шагов.

Создать объект Parser для исходного документа;
Проверьте, поддерживает ли документ извлечение таблицы;
Создайте экземпляры классов PageTableAreaOptions и TemplateTableLayout для задания макета таблиц
Вызовите метод GetTables и получите коллекцию PageTableArea объектов;

Узнать больше про извлечение таблиц

Как извлечь таблицы из файла DOC, используя пример кода C#

// Извлечение таблиц из файла DOC с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
using (Parser parser = new Parser(filePath)) {
    // Проверьте, поддерживает ли документ извлечение таблицы
    if (!parser.Features.Tables) {
        Console.WriteLine("Документ не поддерживает извлечение таблиц.");
        return;
    }
    // Создадим раскладку столов
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Создайте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Извлечение таблиц из документа.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Итерация по таблицам
    foreach (PageTableArea t in tables) {
        // Перебирать строки
        for (int row = 0; row < t.RowCount; row++) {
            // Итерация по столбцам
            for (int column = 0; column < t.ColumnCount; column++) {
                // Получить ячейку таблицы
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Распечатать текст ячейки таблицы
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Системные Требования

GroupDocs.Parser for .NET API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

Операционные системы: Microsoft Windows, Linux, MacOS
Среды разработки: Microsoft Visual Studio, Xamarin, MonoDevelop
Фреймворки
Загрузите последнюю версию GroupDocs.Parser for .NET из Nuget

Зачем использовать GroupDocs.Parser for .NET

Поддержка извлечения простого текста из любых поддерживаемых документов
Парсинг документов по пользовательским шаблонам
Полная поддержка извлечения структурированного текста
Текстовый поиск по ключевому слову и регулярному выражению
Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
Извлечение оглавления для некоторых поддерживаемых форматов документов
Парсинг данных форм из PDF-документов
Извлечение гиперссылок из документа

Извлечение таблиц из других форматов документов

.NET API анализа документов и сканирования таблиц форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

DOCM

(Документ Microsoft Word с поддержкой макросов)

DOCX

(Документ Microsoft Word с открытым XML)

DOT

(Шаблон документа Microsoft Word)

DOTM

(Шаблон Microsoft Word с поддержкой макросов)

DOTX

(Шаблон документа Word Open XML)

EPUB

(Формат файла цифровой электронной книги)