GroupDocs.Parser for Java 是一个文本、图像和元数据提取器 API,支持 50 多种流行的文档类型,以帮助构建具有解析原始、结构化和格式化文本功能的业务应用程序。它还支持使用预定义模板解析文档,并允许从发票和其他典型文档中快速准确地提取复杂数据。 GroupDocs.Parser for Java 使您能够从所有流行格式的受密码保护的文件中提取文本和元数据,包括文字处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 档案。
统计单个或多个文档的单词出现次数
从 Excel 电子表格和 PowerPoint 演示模板中提取文本和元数据
从文件或流中获取文本,无需安装文档阅读器
使用快速或标准文本提取模式从文档中提取格式化文本
检测受密码保护的 XML 文档的媒体类型并从中提取文本
以编程方式从 PowerPoint 演示文稿、电子邮件和附件中获取格式化文本
从 OneNote 文档的单页或多页中删除文本
从简单的 PDF 文件或 PDF 组合文档中提取原始文本
从 PDF、MS Word、Excel 和演示文档中提取数据
从 Excel 电子表格的单元格、行和列中提取原始或格式化文本
从 Word 文档中收集原始或 HTML 格式的文本并从文档中摘录突出显示的文本
从 PDF 表单中获取数据并从 PDF 或 Word 文档中获取格式化表格
从 EPUB、CHM、Markdown 和 FB2 文件中提取单个句子或整个文本
摘自数据库、PDF、EPUB、CHM 和文字处理文档的目录
从文档中检索文本区域以进行分析并提取内容结构完整的文本
从支持的文档格式中获取元数据
从支持的格式中提取所有或选定的图像并旋转提取的图像
从 Zip 档案和 OST 容器中的文件中提取文本 – Zip 容器项目的检测媒体类型
从电子邮件容器中获取数据(Exchange Web 服务器、POP3、IMAP)
快速、可靠、高效地从数据库容器中提取文本
在文档中查找简单文本、整个单词和正则表达式
准备文档模板,从文档中提取数据并分析数据字段和表格
在文档中搜索和提取突出显示的表达式
使用纯文本格式化程序(简单和 ASCII)或使用边缘、角度和交叉点的自定义格式提取文本
使用 Markdown Formatter 获取和格式化文本(字体、超链接、标题、列表和表格)
使用 HTML 格式化程序获取文本并将格式化程序应用于段落、超链接、字体、标题、列表和表格
通过列分隔符移动表格布局和检测矩形区域中的表格
从微软办公软件文件格式中的形状、艺术字对象和文本框中提取文本
提取图像到文件 - 保存为 JPG、PNG、GIF、BMP、PNG 或 WEBP 格式
通过 JDBC 从电子邮件服务器和数据库中提取文本
使用 GroupDocs.Parser for Java,您可以将各种格式化程序应用于文本和 HTML。您可以使用纯文本格式化程序为简单和 ASCII 提取文本。您还可以使用 HTML Formatter 获取文本并将格式应用于段落、超链接、字体、标题、列表和表格。