要在您的Java项目中使用GroupDocs.Parser从RTF文档中提取有用信息,请遵循以下步骤:
- 使用Parser对象打开RTF文件。
- 使用解析器检索所需的数据(文本、表格、元数据等)。
- 确保输出正确且完整。
- 将解析的内容集成到您的数据流、业务流程或应用程序中。
要在您的Java项目中使用GroupDocs.Parser从RTF文档中提取有用信息,请遵循以下步骤:
// 使用输入文档初始化Parser
try (Parser parser = new Parser("input.rtf"))
{
// 从文档中检索所有可用的文本内容
try (TextReader reader = parser.getText())
{
// 如果未找到文本,返回值将为null
// 将提取的内容整合到您的解决方案中
System.out.println(reader == null ?
"此格式可能不支持文本提取" : reader.readToEnd());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parser不仅支持文本提取——它支持对条形码、元数据、图像、表格和其他数据的全面解析,以推动智能自动化和数据驱动的应用程序。
从PDF、Word、Excel、PowerPoint、HTML等广泛使用的文件类型中访问文本、表格和媒体等数据。
处理来自原生数字文件和扫描图像的内容,在必要时使用OCR来解释嵌入文本。
通过页面选择、布局区域和自定义字段模板的设置,量身定制您的解析以满足特定的提取需求。
该示例展示了如何通过GroupDocs.Parser使用自定义模板从PDF中提取结构化字段。
// 使用Parser类打开PDF
try (Parser parser = new Parser("input.pdf"))
{
// 应用解析模板以提取定义的数据
DocumentData data = parser.parseByTemplate(GetTemplate());
// 检查模板基础的提取是否可用
if (data == null) {
return;
}
// 处理提取的数据字段
for (int i = 0; i < data.getCount(); i++) {
System.out.print(data.get(i).getName() + ": ");
PageTextArea area = data.get(i).getPageArea() instanceof PageTextArea
? (PageTextArea) data.get(i).getPageArea() : null;
System.out.println(area == null ? "Not a template field" : area.getText());
}
}
private static Template GetTemplate()
{
// 定义提取“详情”部分的检测器设置
TemplateTableParameters detailsTableParameters =
new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
TemplateItem[] templateItems = new TemplateItem[]
{
new TemplateTable(detailsTableParameters, "details", null)
};
Template template = new Template(java.util.Arrays.asList(templateItems));
return template;
}