GroupDocs.Parser for .NET

Извлечение таблиц из XML с использованием C#

Быстро идентифицируйте и извлекайте структуры таблиц из PDF, Word, Excel и других форматов файлов, используя GroupDocs.Parser в ваших проектах .NET.

Загрузка NuGet

Бесплатная пробная версия

Шаги для извлечения таблиц из Xml в C#

Следуйте этим инструкциям, чтобы извлечь таблицы из файлов XML с использованием GroupDocs.Parser в вашей среде .NET:

Инициализируйте экземпляр Parser и загрузите ваш документ XML.
Проверьте, поддерживается ли извлечение таблиц для входного формата.
Извлеките содержимое таблицы из файла.
Используйте структурированные данные таблицы для отчетности, автоматизации или аналитики.

Копировать

// Откройте документ, содержащий данные таблицы, с помощью Parser
using (Parser parser = new Parser("input.xml")) {

    // Проверьте, поддерживает ли формат распознавание таблиц
    if (!parser.Features.Tables) {
        Console.WriteLine("Обработайте документы, которые не поддерживают парсинг таблиц");
        return;
    }

    // Определите, как должна распознаваться структура таблицы
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // Уточните параметры извлечения для данных таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Извлеките таблицы из содержимого файла
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  Переберите каждую обнаруженную таблицу
    foreach (PageTableArea t in tables)
    {
    }
}

dotnet add package GroupDocs.Parser

Нажмите для копирования

Скопировано

Больше примеров Документация

Мощные возможности извлечения данных

Помимо парсинга таблиц, GroupDocs.Parser может извлекать содержимое, такое как текстовые блоки, изображения, метаданные и другие структурированные данные для упрощения автоматизации документов.

Распознавание таблиц и извлечение содержимого

Точная многопрофильная детекция таблиц

Извлеките табличные данные из форматов DOCX, XLSX, PDF, HTML и аналогичных с высокой точностью.

Парсинг структур таблиц из файлов

Эффективно получайте данные таблиц из документов и таблиц без потери форматирования.

Гибкая настройка извлечения таблиц

Настройте детекцию макета, выравнивание колонок и параметры заголовков/колонтитулов для точного контроля над выходными данными.

Как извлечь таблицы из Excel-таблиц

Этот образец кода демонс

трирует, как читать и перебрать данные таблицы в файле XLSX с помощью GroupDocs.Parser.

C#

//  Откройте файл Excel с помощью API Parser style=color:#00f>using (Parser parser = new Parser("input.xlsx")) { // Завершите, если таблицы не могут быть извлечены из файла if (!parser.Features.Tables) { return; } // Используйте правила макета для нахождения табличного содержимого TemplateTableLayout layout = new TemplateTableLayout( new double[] { 50, 95, 275, 415, 485, 545 }, new double[] { 325, 340, 365, 395 }); // Настройте параметры извлечения для таблиц PageTableAreaOptions options = new PageTableAreaOptions(layout); // Проведите операцию извлечения таблицы IEnumerable<PageTableArea> tables = parser.GetTables(options); // Просмотрите каждую обнаруженную структуру таблицы foreach (PageTableArea t in tables) { // Переберите каждую строку в таблице for (int row = 0; row < t.RowCount; row++) { // Переберите ячейки в каждой строке for (int column = 0; column < t.ColumnCount; column++) { // Получите доступ к текущей ячейке таблицы PageTableAreaCell cell = t[row, column]; if (cell != null) { // Выведите текстовое содержимое каждой ячейки Console.Write(cell.Text); Console.Write(" | "); } } } } }

`О API GroupDocs.Parser for .NET`

GroupDocs.Parser — это комплексный API для парсинга документов, разработанный для разработчиков .NET. Он обеспечивает точное извлечение текста, таблиц, изображений, гиперссылок и других структурированных элементов из форматов, таких как PDF, DOCX, XLSX, PPTX и многих других — без необходимости в стороннем программном обеспечении.

Узнать больше

`Готовы начать?`

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Загрузка NuGet
Бесплатная пробная версия

`Полезные ресурсы`

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.


Документация
Справочник API
Примеры кода
Бесплатная поддержка
Платная поддержка

`Поддерживаемые форматы для извлечения таблиц`

GroupDocs.Parser может извлекать данные таблиц из различных типов документов. Ниже приведены наиболее часто используемые форматы для структурированного парсинга таблиц.

Парсинг PDF(Формат переносимого документа)
Парсинг DOCX(Документ Word 2007+)
Парсинг PPTX(Формат презентации Open XML)
Парсинг XLSX(Рабочая книга Open XML)
Парсинг TXT(Текстовый файл)
Парсинг RTF(Формат Rich Text)
Парсинг EPUB(Файл открытой электронной книги)

Извлечение таблиц из XML с использованием C#

Шаги для извлечения таблиц из Xml в C#

Мощные возможности извлечения данных

Точная многопрофильная детекция таблиц

Парсинг структур таблиц из файлов

Гибкая настройка извлечения таблиц

Как извлечь таблицы из Excel-таблиц

C#

О API GroupDocs.Parser for .NET

Готовы начать?

Полезные ресурсы

Поддерживаемые форматы для извлечения таблиц

Советы по временной лицензии

`О API GroupDocs.Parser for .NET`

`Готовы начать?`

`Полезные ресурсы`

`Поддерживаемые форматы для извлечения таблиц`

`Советы по временной лицензии`