GroupDocs.Parser for .NET

Парсинг документов PDF с использованием C#

Эффективно извлекайте текст, метаданные, таблицы и изображения из файлов PDF, Word, Excel и изображений с помощью GroupDocs.Parser в ваших проектах .NET.

Загрузка NuGet

Бесплатная пробная версия

Шаги для извлечения данных из Pdf в C#

Следуйте этим шагам, чтобы парсить контент из документов PDF в ваших приложениях .NET с использованием GroupDocs.Parser:

Загрузите документ PDF с помощью экземпляра Parser.
Извлеките необходимый контент, такой как текст, таблицы или метаданные.
Убедитесь, что извлеченные данные действительны.
Используйте полученные данные в вашем дальнейшей обработке, автоматизации или бизнес-системах.

Копировать

// Загрузите ваш документ в Parser
using (Parser parser = new Parser("input.pdf")) {

    // Извлеките весь текстовый контент из файла
    using (TextReader reader = parser.GetText()) 
    {
        // Если текст недоступен, результатом будет null
        // Используйте извлеченный текст в вашем приложении
        Console.WriteLine(reader == null ? 
            "Извлечение текста не поддерживается для этого формата" : reader.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

Нажмите для копирования

Скопировано

Больше примеров Документация

Комплексные возможности парсинга документов

GroupDocs.Parser предлагает не только чтение текста — он поддерживает извлечение штрих-кодов, парсинг изображений, доступ к метаданным и обработку структурированных данных для сложной автоматизации и анализа данных.

Возможности извлечения и парсинга контента документов

Поддержка различных типов контента файлов

Извлекайте данные, включая текст, изображения, таблицы и поля из форматов документов, таких как PDF, Word, Excel, HTML и других.

Работа как с отсканированными, так и с цифровыми файлами

Парсите данные как из отсканированных документов, так и из цифровых файлов, с поддержкой OCR и извлечением с учетом разметки.

Конфигурируемые параметры извлечения

Настраивайте логику парсинга с помощью гибких опций, таких как выбор диапазона страниц, таргетинг регионов и шаблоны обнаружения полей.

Как парсить PDF с использованием шаблонов

Этот пример показывает, как извлекать структурированные данные из PDF с использованием предопределенного шаблона парсинга с GroupDocs.Parser.

C#

//  Загрузите PDF-файл с помощью класса Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Парсите документ по шаблону
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Проверьте, поддерживается ли извлечение форм
    if (data == null)
    {
        return;
    }

    // Обработайте полученные поля
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Создайте параметры детектора для таблицы 'Детали'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

О API GroupDocs.Parser for .NET

GroupDocs.Parser — это API для парсинга документов с богатым набором функций, предназначенное для разработчиков .NET. Он поддерживает извлечение необработанного и структурированного текста, метаданных, изображений, таблиц и штрих-кодов из популярных форматов, таких как PDF, DOCX, XLSX, PPTX и других — все это без дополнительных зависимостей программного обеспечения.

Узнать больше

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Загрузка NuGet

Бесплатная пробная версия

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы для извлечения данных

GroupDocs.Parser позволяет парсить разнообразные форматы документов и изображений. Изучите поддерживаемые типы файлов, которые обычно используются в рабочих процессах извлечения данных.

Парсинг DOCX
(Документ Word 2007+)
Парсинг PPTX
(Формат презентации Open XML)
Парсинг XLSX
(Рабочая книга Open XML)
Парсинг TXT
(Текстовый файл)
Парсинг RTF
(Формат Rich Text)
Парсинг XML
(Расширяемый язык разметки)
Парсинг EPUB
(Файл открытой электронной книги)