GroupDocs.Parser for Java — это API для извлечения текста, изображений и метаданных, поддерживающий более 50 популярных типов документов, помогающий создавать бизнес-приложения с функциями парсинга необработанных данных. , структурированный и форматированный текст. Он также поддерживает анализ документов с использованием предопределенных шаблонов и позволяет быстро и точно извлекать сложные данные из счетов-фактур и других типичных документов. GroupDocs.Parser для Java позволяет извлекать текст и метаданные из защищенных паролем файлов всех популярных форматов, включая документы обработки текста, электронные таблицы Excel, презентации PowerPoint, файлы OneNote, PDF и ZIP-архивы.
GroupDocs.Parser API — правильный выбор для корпоративных решений, которым требуется функция извлечения текста из файлов. Эти API хорошо поддерживаются во всех основных операционных системах и платформах, включая Java runtime: J2SE 6.0 and above.
GroupDocs.Parser for Java позволяет разработчикам Java легко извлекать текст из документов, выполняя несколько простых шагов.
// Извлечение текста из документов с помощью API GroupDocs.Parser
// Создайте экземпляр класса Parser
try (Parser parser = new Parser(filePath)) {
// Извлечь текст в ридер
try (TextReader reader = parser.getText()) {
// Распечатать текст из документа
// Если извлечение текста не поддерживается, средство чтения недействительно.
System.out.println(reader == null ? "Извлечение текста не поддерживается" : reader.readToEnd());
}
}
GroupDocs.Parser for Java API поддерживаются на всех основных платформах и операционных системах. Перед выполнением приведенного ниже кода убедитесь, что в вашей системе установлены следующие предварительные компоненты.
Извлекайте текст из документов прямо сейчас, посетив веб-сайт GroupDocs.Parser Live Demos. Живая демонстрация имеет следующие преимущества.
Нет необходимости скачивать API
Нет необходимости писать код
Просто загрузите исходный файл
Скачать результирующий файл
Java API анализа документов и извлечения текста для форматов файлов и изображений. Извлеките данные для некоторых популярных форматов файлов, как указано ниже.
(Документ Microsoft Word)
(Документ Microsoft Word с поддержкой макросов)
(Документ Microsoft Word с открытым XML)
(Шаблон документа Microsoft Word)
(Шаблон Microsoft Word с поддержкой макросов)
(Шаблон документа Word Open XML)
(Формат файла цифровой электронной книги)
(Язык гипертекстовой разметки)
(MIME-инкапсуляция совокупного HTML)
(MIME-инкапсуляция совокупного HTML)
(Формат файла презентации OpenDocument)
(Открыть электронную таблицу документов)
(Открыть текст документа)
(Формат файла Microsoft OneNote)
(Шаблон графика происхождения)
(Открыть шаблон документа)
(Портативный документ)