GroupDocs.Parser: краткий обзор

API для выполнения анализа документов в приложениях .NET

Illustration parser

Извлечение данных из документов

.NET API позволяет извлекать текст, метаданные и изображения из широкого спектра форматов файлов, таких как документы Office, электронные письма, вложения и архивы. Этот мощный инструмент помогает вам эффективно получать доступ и обрабатывать ценную информацию, содержащуюся в этих файлах, для различных приложений, таких как анализ данных, индексирование поисковыми системами или системы управления контентом.

Разбор документов

Извлекайте различные элементы, такие как гиперссылки, таблицы, QR-коды, штрих-коды и данные, из форм PDF. Также анализируйте любую желаемую информацию из документов, используя пользовательские шаблоны.

Настройка результатов

API .NET позволяет получать данные в различных форматах, таких как необработанные, структурированные, HTML или Markdown. Кроме того, API предлагает функцию поиска определенных слов или фраз в тексте документов.

Независимость от платформы

GroupDocs.Parser for .NET поддерживает следующие операционные системы, платформы и менеджеры пакетов.

Amazon
Docker
Azure
VS Code
ReSharper
macOS
Linux
NuGet

Поддерживаемые форматы файлов

GroupDocs.Parser for .NET поддерживает операции со следующими форматами файлов.

Microsoft Office форматы

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Изображения и другие форматы

  • Portable: PDF
  • Изображений: JPG, BMP, PNG, TIFF, GIF
  • Другие форматы офисов: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Другие форматы

  • Интернет: HTML, MHTML
  • Архивы: ZIP, TAR, 7Z
  • Электронные книги: CHM, EPUB, FB2, MOBI

Возможности GroupDocs.Parser

Быстро и точно извлекайте данные из PDF, документов Office и изображений.

Feature icon

Извлечь текст

Извлекайте текстовую информацию из файлов различных форматов, таких как офисные документы, файлы PDF и изображения, для удобства чтения и анализа.

Feature icon

Извлечение изображений

Извлекайте визуальный контент из различных источников, таких как офисные документы и файлы PDF, для удобного доступа и использования.

Feature icon

Сканировать QR-коды

Обнаруживайте и декодируйте QR-коды, присутствующие в офисных документах, файлах PDF или визуальном контенте, для эффективного поиска информации.

Feature icon

Извлечение данных из вложений и архивов электронной почты

Собирайте ценную информацию из сообщений электронной почты, вложенных файлов и источников сжатых данных для эффективного анализа и использования.

Feature icon

Извлечение таблиц

Идентификация и извлечение табличных данных из документов PDF для организованного анализа и использования.

Feature icon

Извлечение гиперссылок

Находите и извлекайте гиперссылки и адреса электронной почты в офисных документах или файлах PDF для эффективного доступа.

Feature icon

Анализ форм PDF

PDF Формы представляют собой цифровые документы с заполняемыми полями для взаимодействия с пользователем, позволяющими вводить информацию в электронном виде. .NET API можно использовать для извлечения данных из этих форм для эффективной обработки.

Feature icon

Парсить данные по шаблонам

Создавайте собственные шаблоны и используйте их с API .NET для анализа конкретной информации из файлов PDF, упрощая процессы извлечения данных.

Feature icon

Поиск текста в документах

Быстро находите определенные слова или шаблоны в документах.

Пример кода

Некоторые варианты использования типичных операций GroupDocs.Parser for .NET

Извлечение изображений из документов PDF

.NET API позволяет разработчикам C# легко извлекать изображения из документов, выполнив несколько простых шагов.

Извлечение изображений из документов PDF на C#.

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Extract images
    var images = parser.GetImages();

    // Check if images extraction is supported
    if (images != null)
    {
        var imageIndex = 0;

        // Iterate over images
        foreach (var image in images)
        {
            // Save the image to the file
            image.Save($"{++imageIndex}{image.FileType.Extension}");
        }
    }
}

Извлечение штрих-кодов из изображений

.NET API позволяет разработчикам C# легко извлекать штрих-коды из документов, выполнив несколько простых шагов.

Извлечение штрих-кодов из изображений

// Create an instance of Parser class
using (var parser = new Parser(fileName))
{
    // Check if the file supports barcode extracting
    if (parser.Features.Barcodes)
    {
        // Extract barcodes from the file.
        var barcodes = parser.GetBarcodes();

        // Iterate over barcodes
        foreach (var barcode in barcodes)
        {
            // Print the page index
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Print the barcode value
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}
 Русский