用于提取数据的 Java Parser API

Java API,用于从文档、演示文稿、档案和电子邮件中解析和提取带有元数据的图像和文本。


下载免费试用版

GroupDocs.Parser for Java 是一个文本、图像和元数据提取器 API,支持 50 多种流行的文档类型,以帮助构建具有解析原始、结构化和格式化文本功能的业务应用程序。它还支持使用预定义模板解析文档,并允许从发票和其他典型文档中快速准确地提取复杂数据。 GroupDocs.Parser for Java 使您能够从所有流行格式的受密码保护的文件中提取文本和元数据,包括文字处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 档案。

GroupDocs.Parser for Java 特征

统计单个或多个文档的单词出现次数

从 Excel 电子表格和 PowerPoint 演示模板中提取文本和元数据

从文件或流中获取文本,无需安装文档阅读器

使用快速或标准文本提取模式从文档中提取格式化文本

检测受密码保护的 XML 文档的媒体类型并从中提取文本

以编程方式从 PowerPoint 演示文稿、电子邮件和附件中获取格式化文本

从 OneNote 文档的单页或多页中删除文本

从简单的 PDF 文件或 PDF 组合文档中提取原始文本

从 PDF、MS Word、Excel 和演示文档中提取数据

从 Excel 电子表格的单元格、行和列中提取原始或格式化文本

从 Word 文档中收集原始或 HTML 格式的文本并从文档中摘录突出显示的文本

从 PDF 表单中获取数据并从 PDF 或 Word 文档中获取格式化表格

从 EPUB、CHM、Markdown 和 FB2 文件中提取单个句子或整个文本

摘自数据库、PDF、EPUB、CHM 和文字处理文档的目录

从文档中检索文本区域以进行分析并提取内容结构完整的文本

从支持的文档格式中获取元数据

从支持的格式中提取所有或选定的图像并旋转提取的图像

从 Zip 档案和 OST 容器中的文件中提取文本 – Zip 容器项目的检测媒体类型

从电子邮件容器中获取数据(Exchange Web 服务器、POP3、IMAP)

快速、可靠、高效地从数据库容器中提取文本

在文档中查找简单文本、整个单词和正则表达式

准备文档模板,从文档中提取数据并分析数据字段和表格

在文档中搜索和提取突出显示的表达式

使用纯文本格式化程序(简单和 ASCII)或使用边缘、角度和交叉点的自定义格式提取文本

使用 Markdown Formatter 获取和格式化文本(字体、超链接、标题、列表和表格)

使用 HTML 格式化程序获取文本并将格式化程序应用于段落、超链接、字体、标题、列表和表格

通过列分隔符移动表格布局和检测矩形区域中的表格

从微软办公软件文件格式中的形状、艺术字对象和文本框中提取文本

提取图像到文件 - 保存为 JPG、PNG、GIF、BMP、PNG 或 WEBP 格式

通过 JDBC 从电子邮件服务器和数据库中提取文本

使用纯文本或 HTML 格式化程序获取文本

使用 GroupDocs.Parser for Java,您可以将各种格式化程序应用于文本和 HTML。您可以使用纯文本格式化程序为简单和 ASCII 提取文本。您还可以使用 HTML Formatter 获取文本并将格式应用于段落、超链接、字体、标题、列表和表格。

支持和学习资源

GroupDocs.Parser 为其他流行的开发环境提供文档查看 API

Back to top
Zh