GroupDocs.Parser для .NET — это API извлечения текста, метаданных и изображений для бизнес-приложений, разработанных с использованием C#, ASP.NET и других технологий .NET. Он поддерживает извлечение необработанного, форматированного и структурированного текста, а также метаданных из файлов поддерживаемых форматов. С помощью GroupDocs.Parser для .NET ваши приложения также могут выполнять синтаксический анализ защищенных паролем документов для популярных форматов, таких как документы обработки Word, электронные таблицы Excel, презентации PowerPoint, OneNote, файлы PDF и ZIP-архивы.
Статистический подсчет встречаемости слов в одном или нескольких файлах
Извлечение текста и метаданных из листов Excel и шаблонов презентаций
Извлечение текстового содержимого из файла или потока без установки Document Reader
Получить отформатированный текст из документа, используя режим быстрого или стандартного извлечения текста
Определить тип носителя XML-документов, защищенных паролем, и извлечь из них текст
Программное получение форматированного текста из электронных писем и вложений
Вытягивание текста из одной или нескольких страниц документа OneNote
Извлечение данных из документов PDF, MS Word, Excel и презентаций
Извлечение данных из форм PDF и извлечение текста из простого файла PDF или документа портфолио PDF
Получить отформатированный текст из презентации PowerPoint или вытеснить текст из определенного слайда
Сбор необработанного или форматированного текста из ячеек, строк и столбцов электронной таблицы Excel
Извлечение необработанного или HTML-форматированного текста из документа Word
HTML Formatter поддерживает форматирование абзаца, гиперссылки, шрифта, заголовков, списков и таблиц
Извлечение отдельного предложения или всего текста из файлов EPUB, CHM, Markdown и FB2
Выдержка из содержания базы данных, документов PDF, EPUB, CHM и Word Processing
Вытащить текст с неповрежденной структурой содержимого и извлечь выделенный текст из документов
Получить текстовую область из документов для анализа и извлечь метаданные из поддерживаемых форматов документов
Получить все или выбранные изображения из поддерживаемых форматов и повернуть извлеченные изображения
Извлечение текста из файлов в Zip-архивах и контейнерах OST и обнаружение типов файлов элементов ZIP-контейнеров
Получить данные из контейнера электронной почты (веб-сервер Exchange, POP3, IMAP)
Поиск простого текста, всего слова и регулярного выражения в документах
Подготовка шаблона документа, извлечение данных из документа и анализ полей и таблиц данных
Поиск и извлечение выделенных выражений в документах
Получить текст с помощью форматирования обычного текста (Простой и ASCII) или с помощью форматирования Markdown
Markdown Formatter поддерживает форматирование шрифта, гиперссылок, заголовков, списков и таблиц
Выполнение пользовательского форматирования с помощью краев, углов и пересечений для форматирования обычного текста
Перемещение макета таблицы и обнаружение таблиц в прямоугольной области с помощью разделителей столбцов
Извлечение текста из фигур, объектов WordArt и текстовых полей в форматах файлов Microsoft Office
Извлечь изображенияв файлы — сохранение в форматах JPG, PNG, GIF, BMP, PNG или WEBP