GroupDocs.Parser for Java 是一个文本、图像和元数据提取器 API,支持 50 多种流行的文档类型,有助于构建具有解析原始、结构化和格式化文本功能的业务应用程序。它还支持使用预定义模板解析文档,并允许快速、准确地从发票和其他典型文档中提取复杂数据。 GroupDocs.Parser for Java 使您能够从所有流行格式的受密码保护的文件中提取文本和元数据,包括Word 处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 存档。
GroupDocs.Parser API 是需要文件文本提取功能的企业解决方案的正确选择。这些 API 在所有主要操作系统和平台(包括 Java runtime: J2SE 6.0 and above)上均得到良好支持。
GroupDocs.Parser for Java 让 Java 开发者只需执行几个简单的步骤即可轻松从文档中提取文本。
// 使用 GroupDocs.Parser API 从文档中提取文本
// 创建 Parser 类的实例
try (Parser parser = new Parser(filePath)) {
// 将文本提取到阅读器中
try (TextReader reader = parser.getText()) {
// 打印文档中的文本
// 如果不支持文本提取,则 reader 为空
System.out.println(reader == null ? "不支持文本提取" : reader.readToEnd());
}
}
GroupDocs.Parser for Java 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。
立即访问 GroupDocs.Parser 现场演示 网站从文档中提取文本。 现场演示有以下好处。
无需下载 API
无需编写任何代码
只需上传源文件
获取下载链接以保存文件
Java 用于文件格式和图像的文档解析和文本提取 API。提取一些流行文件格式的数据,如下所述。
(Microsoft Word Binary Format)
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)