GroupDocs.Parser for .NET

Парсинг документов PDF с использованием C#

Эффективно извлекайте текст, метаданные, таблицы и изображения из файлов PDF, Word, Excel и изображений с помощью GroupDocs.Parser в ваших проектах .NET.

Шаги для извлечения данных из Pdf в C#

Следуйте этим шагам, чтобы парсить контент из документов PDF в ваших приложениях .NET с использованием GroupDocs.Parser:

  1. Загрузите документ PDF с помощью экземпляра Parser.
  2. Извлеките необходимый контент, такой как текст, таблицы или метаданные.
  3. Убедитесь, что извлеченные данные действительны.
  4. Используйте полученные данные в вашем дальнейшей обработке, автоматизации или бизнес-системах.
// Загрузите ваш документ в Parser
using (Parser parser = new Parser("input.pdf")) {

    // Извлеките весь текстовый контент из файла
    using (TextReader reader = parser.GetText()) 
    {
        // Если текст недоступен, результатом будет null
        // Используйте извлеченный текст в вашем приложении
        Console.WriteLine(reader == null ? 
            "Извлечение текста не поддерживается для этого формата" : reader.ReadToEnd());
    }
}
dotnet add package GroupDocs.Parser
Нажмите для копирования
Скопировано
Больше примеров Документация

Комплексные возможности парсинга документов

GroupDocs.Parser предлагает не только чтение текста — он поддерживает извлечение штрих-кодов, парсинг изображений, доступ к метаданным и обработку структурированных данных для сложной автоматизации и анализа данных.

Возможности извлечения и парсинга контента документов

Поддержка различных типов контента файлов

Извлекайте данные, включая текст, изображения, таблицы и поля из форматов документов, таких как PDF, Word, Excel, HTML и других.

Работа как с отсканированными, так и с цифровыми файлами

Парсите данные как из отсканированных документов, так и из цифровых файлов, с поддержкой OCR и извлечением с учетом разметки.

Конфигурируемые параметры извлечения

Настраивайте логику парсинга с помощью гибких опций, таких как выбор диапазона страниц, таргетинг регионов и шаблоны обнаружения полей.

Как парсить PDF с использованием шаблонов

Этот пример показывает, как извлекать структурированные данные из PDF с использованием предопределенного шаблона парсинга с GroupDocs.Parser.

C#

//  Загрузите PDF-файл с помощью класса Parser
using (Parser parser = new Parser("input.pdf"))
{
    // Парсите документ по шаблону
    DocumentData data = parser.ParseByTemplate(GetTemplate());

    // Проверьте, поддерживается ли извлечение форм
    if (data == null)
    {
        return;
    }

    // Обработайте полученные поля
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

private static Template GetTemplate()
{
    // Создайте параметры детектора для таблицы 'Детали'
    TemplateTableParameters detailsTableParameters = 
        new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);

    TemplateItem[] templateItems = new TemplateItem[]
    {
        new TemplateTable(detailsTableParameters, "details", null)
    };

    Template template = new Template(templateItems);
    return template;
}

О API GroupDocs.Parser for .NET

GroupDocs.Parser — это API для парсинга документов с богатым набором функций, предназначенное для разработчиков .NET. Он поддерживает извлечение необработанного и структурированного текста, метаданных, изображений, таблиц и штрих-кодов из популярных форматов, таких как PDF, DOCX, XLSX, PPTX и других — все это без дополнительных зависимостей программного обеспечения.
Узнать больше
About illustration

Готовы начать?

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Полезные ресурсы

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.

Поддерживаемые форматы для извлечения данных

GroupDocs.Parser позволяет парсить разнообразные форматы документов и изображений. Изучите поддерживаемые типы файлов, которые обычно используются в рабочих процессах извлечения данных.

Советы по временной лицензии

1
Зарегистрируйтесь, используя ваш рабочий e-mail адрес. Бесплатные почтовые сервисы запрещены.
2
Используйте кнопку Получить временную лицензию на втором шаге.
 Русский