Parser для Net

Document Parser SDK для .NET

Добавьте быстрое и точное парсирование документов в ваши приложения .NET и извлекайте текст, изображения, метаданные и структурированные данные из документов и изображений.

Загрузка NuGet Бесплатная пробная версия

Выпущена версия 24.9

Посмотрите, что нового

// Передайте исходный файл в экземпляр Parser
using (var parser = new Parser("source.pdf"))
{
    // Передайте текст документа в TextReader
    using (var textReader = parser.GetText())
    {
        // Обработайте текст документа
        Console.WriteLine(textReader?.ReadToEnd());
    }
}

dotnet add package GroupDocs.Parser

GroupDocs.Parser в двух словах

Document Parser SDK для выполнения высокоточного парсирования документов в приложениях .NET

Извлечение данных из документов

GroupDocs.Parser for .NET API позволяет получать текст, метаданные и изображения из широкого спектра форматов файлов, таких как офисные документы, электронные письма, вложения и архивы. Этот мощный инструмент помогает эффективно получать доступ и обрабатывать ценную информацию, содержащуюся в этих файлах, для различных приложений, таких как аналитика данных, индексация поисковых систем или системы управления контентом.

Разбор документов

Извлекайте различные элементы, такие как гиперссылки, таблицы, QR‑коды, штрихкоды и данные из PDF‑форм. Также разбирайте любую необходимую информацию из документов с помощью пользовательских шаблонов.

Настройка результатов

.NET API позволяет получать данные в различных форматах, таких как сырой, структурированный, HTML или Markdown. Кроме того, API предоставляет функцию поиска для обнаружения конкретных слов или фраз в тексте документов.

Независимость от платформы

GroupDocs.Parser for .NET поддерживает следующие операционные системы, фреймворки и менеджеры пакетов

Поддерживаемые форматы файлов

GroupDocs.Parser for .NET поддерживает работу со следующими форматами файлов.

Форматы Microsoft Office

Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Изображения и другие форматы

Переносимый: PDF
Изображения: JPG, BMP, PNG, TIFF, GIF
Другие офисные форматы: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Другие форматы

Веб: HTML, MHTML
Архивы: ZIP, TAR, 7Z
Электронные книги: CHM, EPUB, FB2, MOBI

Функции GroupDocs.Parser for .NET

Извлекайте данные из PDF, офисных документов, изображений и других форматов быстро и точно с помощью нашего .NET Document Parser SDK

Извлечение текста

Извлекайте текстовую информацию из различных форматов файлов, таких как офисные документы, PDF‑файлы и изображения, для удобного чтения и анализа.

Извлечение изображений

Получайте визуальное содержимое из разнообразных источников, таких как офисные документы и PDF‑файлы, для удобного доступа и использования.

Сканирование QR‑кодов

Обнаруживайте и декодируйте QR‑коды, находящиеся в офисных документах, PDF‑файлах или визуальном контенте, для эффективного получения информации.

Извлечение данных из вложений электронных писем и архивов

Собирайте ценную информацию из электронных сообщений, вложений файлов и сжатых источников данных для эффективного анализа и использования.

Извлечение таблиц

Определяйте и извлекайте табличные данные из PDF‑документов для структурированного анализа и использования.

Извлечение гиперссылок

Находите и извлекайте гиперссылки и адреса электронной почты в офисных документах или PDF‑файлах для удобного доступа.

Разбор PDF‑форм

PDF‑формы — это цифровые документы с заполняемыми полями для взаимодействия с пользователем, позволяющие вводить информацию электронно. .NET API можно использовать для извлечения данных из этих форм для эффективной обработки.

Разбор данных по шаблонам

Создавайте пользовательские шаблоны и используйте их с .NET API для разбора конкретной информации из PDF‑файлов, упрощая процессы извлечения данных.

Поиск текста в документах

Быстро находите определённые слова или шаблоны в документах.

Примеры кода

Некоторые типичные сценарии использования GroupDocs.Parser for .NET

Извлечение изображений из PDF‑документов

GroupDocs.Parser for .NET упрощает

C#‑разработчикам извлечение изображений из документов:

Извлечение изображений из PDF‑документов на C#

// Создайте экземпляр класса Parser style=color:#00f>using (var parser = new Parser("source.pptx")) { // Извлеките изображения var images = parser.GetImages(); // Проверьте, извлечено ли что‑то if (images == null) { return; } // Итерируйтесь по изображениям foreach (PageImageArea image in images) { // Выведите индекс страницы, прямоугольник и тип изображения Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType)); } }

`Извлечение штрихкодов из изображений`

Используйте наш .NET API для извлечения штрихкодов из изображений:

`Извлечение штрих‑кодов из изображений на C#`

// Загрузите исходное изображение в Parser
using (var parser = new Parser("source.jpg"))
{
    // Проверьте, поддерживает ли файл извлечение штрих‑кодов
    if (parser.Features.Barcodes)
    {
        // Извлеките штрих‑коды из файла
        var barcodes = parser.GetBarcodes();

        // Итерируйтесь по штрих‑кодам
        foreach (var barcode in barcodes)
        {
            // Выведите индекс страницы
            Console.WriteLine("Page: " + barcode.Page.Index.ToString());
            // Выведите значение штрих‑кода
            Console.WriteLine("Value: " + barcode.Value);
        }
    }
}

`Готовы начать?`

Загрузите GroupDocs.Parser бесплатно или получите пробную лицензию для полного доступа!

Загрузка NuGet
Бесплатная пробная версия

`Полезные ресурсы`

Изучите документацию, примеры кода и раздел поддержки, чтобы улучшить ваш опыт.


Документация
Справочник API
Примеры кода
Бесплатная поддержка
Платная поддержка