Java Парсер API для извлечения данных

Java API для анализа и извлечения изображений и текста с метаданными из документов, презентаций, архивов и электронных писем.


Скачать бесплатную пробную версию

GroupDocs.Parser для Java — это API-интерфейс для извлечения текста, изображений и метаданных, поддерживающий более 50 популярных типов документов, помогающий создавать бизнес-приложения с функциями анализа необработанного, структурированного и форматированного текста. Он также поддерживает анализ документов с использованием предопределенных шаблонов и позволяет быстро и точно извлекать сложные данные из счетов-фактур и других типичных документов. GroupDocs.Parser для Java позволяет извлекать текст и метаданные из защищенных паролем файлов всех популярных форматов, включая документы обработки текста, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.

GroupDocs.Parser for Java Функции

Статистический подсчет вхождений слов для одного или нескольких документов

Извлечение текста и метаданных из электронных таблиц Excel и шаблонов презентаций PowerPoint

Определите тип носителя защищенных паролем XML-документов и извлеките из них текст

Программное извлечение форматированного текста из презентации PowerPoint, электронных писем и вложений

Изгнать текст с одной или нескольких страниц документа OneNote

Извлечение необработанного текста из простого файла PDF или документа портфолио PDF

Извлечение данных из документов PDF, MS Word, Excel и презентаций

Извлечение необработанного или форматированного текста из ячеек, строк и столбцов электронной таблицы Excel

Соберите необработанный текст или текст в формате HTML из документа Word и извлеките выделенный текст из документов

Получить данные из форм PDF и получить отформатированную таблицу из документа PDF или Word

Извлечение отдельного предложения или всего текста из файлов EPUB, CHM, Markdown и FB2

Извлеките текстовую область из документов для анализа и вытащите текст с неповрежденной структурой содержимого

Получить метаданные из поддерживаемых форматов документов

Извлечение всех или выбранных изображений из поддерживаемых форматов и поворот извлеченных изображений

Получение данных из контейнера электронной почты (веб-сервер Exchange, POP3, IMAP)

Найти простой текст, целое слово и регулярное выражение в документах

Подготовка шаблона документа, извлечение данных из документа и анализ полей и таблиц данных

Поиск и извлечение выделенных выражений в документах

Вытягивание текста с помощью средства форматирования простого текста (простого и ASCII) или пользовательского форматирования с кромками, углами и пересечениями

Извлечение и форматирование текста (шрифт, гиперссылки, заголовки, списки и таблицы) с помощью Markdown Formatter

Получить текст с помощью HTML Formatter и применить форматирование к абзацам, гиперссылкам, шрифтам, заголовкам, спискам и таблицам

Перемещение макета таблицы и обнаружение таблиц в прямоугольной области с помощью разделителей столбцов

Извлечение текста из фигур, объектов WordArt и текстовых полей в форматах файлов Microsoft Office

Extract Text from Email Servers and База данныхs via JDBC

Поддержка и учебные ресурсы

GroupDocs.Parser предлагает API для просмотра документов для других популярных сред разработки.

Back to top
Ru