GroupDocs.Parser для Java — это API-интерфейс для извлечения текста, изображений и метаданных, поддерживающий более 50 популярных типов документов, помогающий создавать бизнес-приложения с функциями анализа необработанного, структурированного и форматированного текста. Он также поддерживает анализ документов с использованием предопределенных шаблонов и позволяет быстро и точно извлекать сложные данные из счетов-фактур и других типичных документов. GroupDocs.Parser для Java позволяет извлекать текст и метаданные из защищенных паролем файлов всех популярных форматов, включая документы обработки текста, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.
Статистический подсчет вхождений слов для одного или нескольких документов
Извлечение текста и метаданных из электронных таблиц Excel и шаблонов презентаций PowerPoint
Определите тип носителя защищенных паролем XML-документов и извлеките из них текст
Программное извлечение форматированного текста из презентации PowerPoint, электронных писем и вложений
Изгнать текст с одной или нескольких страниц документа OneNote
Извлечение необработанного текста из простого файла PDF или документа портфолио PDF
Извлечение данных из документов PDF, MS Word, Excel и презентаций
Извлечение необработанного или форматированного текста из ячеек, строк и столбцов электронной таблицы Excel
Соберите необработанный текст или текст в формате HTML из документа Word и извлеките выделенный текст из документов
Получить данные из форм PDF и получить отформатированную таблицу из документа PDF или Word
Извлечение отдельного предложения или всего текста из файлов EPUB, CHM, Markdown и FB2
Извлеките текстовую область из документов для анализа и вытащите текст с неповрежденной структурой содержимого
Получить метаданные из поддерживаемых форматов документов
Извлечение всех или выбранных изображений из поддерживаемых форматов и поворот извлеченных изображений
Получение данных из контейнера электронной почты (веб-сервер Exchange, POP3, IMAP)
Найти простой текст, целое слово и регулярное выражение в документах
Подготовка шаблона документа, извлечение данных из документа и анализ полей и таблиц данных
Поиск и извлечение выделенных выражений в документах
Вытягивание текста с помощью средства форматирования простого текста (простого и ASCII) или пользовательского форматирования с кромками, углами и пересечениями
Извлечение и форматирование текста (шрифт, гиперссылки, заголовки, списки и таблицы) с помощью Markdown Formatter
Получить текст с помощью HTML Formatter и применить форматирование к абзацам, гиперссылкам, шрифтам, заголовкам, спискам и таблицам
Перемещение макета таблицы и обнаружение таблиц в прямоугольной области с помощью разделителей столбцов
Извлечение текста из фигур, объектов WordArt и текстовых полей в форматах файлов Microsoft Office
Extract Text from Email Servers and База данныхs via JDBC