GroupDocs.Parser for .NET

Извлечение таблиц из XML с использованием C#

Быстро идентифицируйте и извлекайте структуры таблиц из PDF, Word, Excel и других форматов файлов, используя GroupDocs.Parser в ваших проектах .NET.

Шаги для извлечения таблиц из Xml в C#

Следуйте этим инструкциям, чтобы извлечь таблицы из файлов XML с использованием GroupDocs.Parser в вашей среде .NET:

  1. Инициализируйте экземпляр Parser и загрузите ваш документ XML.
  2. Проверьте, поддерживается ли извлечение таблиц для входного формата.
  3. Извлеките содержимое таблицы из файла.
  4. Используйте структурированные данные таблицы для отчетности, автоматизации или аналитики.
// Откройте документ, содержащий данные таблицы, с помощью Parser
using (Parser parser = new Parser("input.xml")) {

    // Проверьте, поддерживает ли формат распознавание таблиц
    if (!parser.Features.Tables) {
        Console.WriteLine("Обработайте документы, которые не поддерживают парсинг таблиц");
        return;
    }

    // Определите, как должна распознаваться структура таблицы
    TemplateTableLayout layout = new TemplateTableLayout(
        new double[] { 50, 95, 275, 415, 485, 545 },
        new double[] { 325, 340, 365, 395 });

    // Уточните параметры извлечения для данных таблицы
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    //  Извлеките таблицы из содержимого файла
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    //  Переберите каждую обнаруженную таблицу
    foreach (PageTableArea t in tables)
    {
    }
}
dotnet add package GroupDocs.Parser
Нажмите для копирования
Скопировано
Больше примеров Документация

Мощные возможности извлечения данных

Помимо парсинга таблиц, GroupDocs.Parser может извлекать содержимое, такое как текстовые блоки, изображения, метаданные и другие структурированные данные для упрощения автоматизации документов.

Распознавание таблиц и извлечение содержимого

Точная многопрофильная детекция таблиц

Извлеките табличные данные из форматов DOCX, XLSX, PDF, HTML и аналогичных с высокой точностью.

Парсинг структур таблиц из файлов

Эффективно получайте данные таблиц из документов и таблиц без потери форматирования.

Гибкая настройка извлечения таблиц

Настройте детекцию макета, выравнивание колонок и параметры заголовков/колонтитулов для точного контроля над выходными данными.

Как извлечь таблицы из Excel-таблиц

Этот образец кода демонстрирует, как читать и перебрать данные таблицы в файле XLSX с помощью GroupDocs.Parser.

C#

//  Откройте файл Excel с помощью API Parser
using (Parser parser = new Parser("input.xlsx"))
{
    // Завершите, если таблицы не могут быть извлечены из файла
    if (!parser.Features.Tables)
    {
        return;
    }

    // Используйте правила макета для нахождения табличного содержимого
    TemplateTableLayout layout = new TemplateTableLayout(
            new double[] { 50, 95, 275, 415, 485, 545 },
            new double[] { 325, 340, 365, 395 });

    // Настройте параметры извлечения для таблиц
    PageTableAreaOptions options = new PageTableAreaOptions(layout);

    // Проведите операцию извлечения таблицы
    IEnumerable<PageTableArea> tables = parser.GetTables(options);

    // Просмотрите каждую обнаруженную структуру таблицы
    foreach (PageTableArea t in tables)
    {
        // Переберите каждую строку в таблице
        for (int row = 0; row < t.RowCount; row++)
        {
            // Переберите ячейки в каждой строке
            for (int column = 0; column < t.ColumnCount; column++)
            {
                // Получите доступ к текущей ячейке таблицы
                PageTableAreaCell cell = t[row, column];
                if (cell != null)
                {
                    // Выведите текстовое содержимое каждой ячейки
                    Console.Write(cell.Text);
                    Console.Write(" | ");
                }
            }
        }
    }
}

О API GroupDocs.Parser for .NET

GroupDocs.Parser — это комплексный API для парсинга документов, разработанный для разработчиков .NET. Он обеспечивает точное извлечение текста, таблиц, изображений, гиперссылок и других структурированных элементов из форматов, таких как PDF, DOCX, XLSX, PPTX и многих других — без необходимости в стороннем программном обеспечении.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы для извлечения таблиц

GroupDocs.Parser может извлекать данные таблиц из различных типов документов. Ниже приведены наиболее часто используемые форматы для структурированного парсинга таблиц.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский