Извлечение таблиц из DOC через .NET C# API

GroupDocs.Parser for .NET API позволяет программистам извлекать таблицы из документов или страниц PDF, DOC, DOCX, PPT, PPTX, EML, MSG, XLS, XLSX, CSV, ODT, RTF и EPUB.


Скачать бесплатную пробную версию

Как извлечь таблицы из файлов DOC с помощью API .NET?

Таблица представляет собой набор ячеек, расположенных в строках и столбцах. Таблицы играют очень важную роль в хранении, а также организации подробных или сложных данных, позволяя пользователям легко читать и просматривать их. Таблицы можно использовать по-разному, например, для создания списков, сравнения информации, выравнивания данных, группировки информации, выделения тенденций или закономерностей в данных и многих других. GroupDocs.Parser for .NET — это полезный API, который позволяет программистам разрабатывать решения для извлечения таблиц, текста и изображений из различных типов поддерживаемых форматов документов, таких как PDF, электронные письма, электронные книги, Word (DOC, DOCX), PowerPoint ( PPT, PPTX), Excel (XLS, XLSX), электронные письма (EML, MSG) и многие другие. .NET API включает в себя несколько важных функций для работы с таблицами, таких как извлечение всех таблиц из документов, извлечение таблицы с определенной страницы, получение данных ячейки таблицы, получение общего количества строк и столбцов таблицы, получение строки высота, печать данных таблицы и многое другое.

Извлечь таблицы из DOC в .NET

GroupDocs.Parser for .NET позволяет разработчикам C# извлекать таблицы из файла DOC, выполняя несколько простых шагов.

  • Создать объект Parser для исходного документа;
  • Проверьте, поддерживает ли документ извлечение таблицы;
  • Создайте экземпляры классов PageTableAreaOptions и TemplateTableLayout для задания макета таблиц
  • Вызовите метод GetTables и получите коллекцию PageTableArea объектов;

Как извлечь таблицы из файла DOC, используя пример кода C#

// Извлечение таблиц из файла DOC с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
using (Parser parser = new Parser(filePath)) {
    // Проверьте, поддерживает ли документ извлечение таблицы
    if (!parser.Features.Tables) {
        Console.WriteLine("Документ не поддерживает извлечение таблиц.");
        return;
    }
    // Создадим раскладку столов
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Создайте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Извлечение таблиц из документа.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Итерация по таблицам
    foreach (PageTableArea t in tables) {
        // Перебирать строки
        for (int row = 0; row < t.RowCount; row++) {
            // Итерация по столбцам
            for (int column = 0; column < t.ColumnCount; column++) {
                // Получить ячейку таблицы
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Распечатать текст ячейки таблицы
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Системные Требования

GroupDocs.Parser for .NET API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for .NET из Nuget

Зачем использовать GroupDocs.Parser for .NET

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Извлечение таблиц из других форматов документов

.NET API анализа документов и сканирования таблиц форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

DOCM

(Документ Microsoft Word с поддержкой макросов)

DOCX

(Документ Microsoft Word с открытым XML)

DOT

(Шаблон документа Microsoft Word)

DOTM

(Шаблон Microsoft Word с поддержкой макросов)

DOTX

(Шаблон документа Word Open XML)

EPUB

(Формат файла цифровой электронной книги)

HTML

(Язык гипертекстовой разметки)

MHT

(MIME-инкапсуляция совокупного HTML)

MHTML

(MIME-инкапсуляция совокупного HTML)

ODP

(Формат файла презентации OpenDocument)

ODS

(Открыть электронную таблицу документов)

ODT

(Открыть текст документа)

ONE

(Формат файла Microsoft OneNote)

OTP

(Шаблон графика происхождения)

OTT

(Открыть шаблон документа)

PDF

(Портативный документ)

Back to top
 Русский