Извлечение таблиц из XHTML через .NET C# API

GroupDocs.Parser for .NET API позволяет программистам извлекать таблицы из документов или страниц PDF, DOC, DOCX, PPT, PPTX, EML, MSG, XLS, XLSX, CSV, ODT, RTF и EPUB.


Скачать бесплатную пробную версию

Как извлечь таблицы из файлов XHTML с помощью API .NET?

Таблица представляет собой набор ячеек, расположенных в строках и столбцах. Таблицы играют очень важную роль в хранении, а также организации подробных или сложных данных, позволяя пользователям легко читать и просматривать их. Таблицы можно использовать по-разному, например, для создания списков, сравнения информации, выравнивания данных, группировки информации, выделения тенденций или закономерностей в данных и многих других. GroupDocs.Parser for .NET — это полезный API, который позволяет программистам разрабатывать решения для извлечения таблиц, текста и изображений из различных типов поддерживаемых форматов документов, таких как PDF, электронные письма, электронные книги, Word (DOC, DOCX), PowerPoint ( PPT, PPTX), Excel (XLS, XLSX), электронные письма (EML, MSG) и многие другие. .NET API включает в себя несколько важных функций для работы с таблицами, таких как извлечение всех таблиц из документов, извлечение таблицы с определенной страницы, получение данных ячейки таблицы, получение общего количества строк и столбцов таблицы, получение строки высота, печать данных таблицы и многое другое.

Извлечь таблицы из XHTML в .NET

GroupDocs.Parser for .NET позволяет разработчикам C# извлекать таблицы из файла XHTML, выполняя несколько простых шагов.

  • Создать объект Parser для исходного документа;
  • Проверьте, поддерживает ли документ извлечение таблицы;
  • Создайте экземпляры классов PageTableAreaOptions и TemplateTableLayout для задания макета таблиц
  • Вызовите метод GetTables и получите коллекцию PageTableArea объектов;

Как извлечь таблицы из файла XHTML, используя пример кода C#

// Извлечение таблиц из файла XHTML с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
using (Parser parser = new Parser(filePath)) {
    // Проверьте, поддерживает ли документ извлечение таблицы
    if (!parser.Features.Tables) {
        Console.WriteLine("Документ не поддерживает извлечение таблиц.");
        return;
    }
    // Создадим раскладку столов
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });
    // Создайте параметры для извлечения таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);
    // Извлечение таблиц из документа.
    IEnumerable<PageTableArea> tables = parser.GetTables(options);
    // Итерация по таблицам
    foreach (PageTableArea t in tables) {
        // Перебирать строки
        for (int row = 0; row < t.RowCount; row++) {
            // Итерация по столбцам
            for (int column = 0; column < t.ColumnCount; column++) {
                // Получить ячейку таблицы
                PageTableAreaCell cell = t[row, column];
                if (cell != null) {
                    // Распечатать текст ячейки таблицы
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
            Console.WriteLine();
        }
        Console.WriteLine();
    }
}

Системные Требования

GroupDocs.Parser for .NET API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.

  • Операционные системы: Microsoft Windows, Linux, MacOS
  • Среды разработки: Microsoft Visual Studio, Xamarin, MonoDevelop
  • Фреймворки
  • Загрузите последнюю версию GroupDocs.Parser for .NET из Nuget

Зачем использовать GroupDocs.Parser for .NET

  • Поддержка извлечения простого текста из любых поддерживаемых документов
  • Парсинг документов по пользовательским шаблонам
  • Полная поддержка извлечения структурированного текста
  • Текстовый поиск по ключевому слову и регулярному выражению
  • Извлечение форматированного текста, метаданных, изображений, контейнеров и вложений
  • Извлечение оглавления для некоторых поддерживаемых форматов документов
  • Парсинг данных форм из PDF-документов
  • Извлечение гиперссылок из документа

Извлечение таблиц из других форматов документов

.NET API анализа документов и сканирования таблиц форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.

Back to top
 Русский