按照以下步骤使用GroupDocs.Parser在您的Java项目中从RTF文件中提取文本:
- 使用Parser类加载RTF文档。
- 从文件内容中执行文本提取。
- 检查文本是否成功检索。
- 在搜索、分析或自动化系统中使用文本数据。
按照以下步骤使用GroupDocs.Parser在您的Java项目中从RTF文件中提取文本:
// 使用您的文档初始化Parser
try (Parser parser = new Parser("input.rtf"))
{
// 读取并提取所有文本数据
try (TextReader reader = parser.getText())
{
// 如文本内容缺失,则返回null
// 将提取的文本集成到您的工作流中
System.out.println(reader == null ?
"跳过不支持的文本提取格式" : reader.readToEnd());
}
}
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>24.9</version>
</dependency>
</dependencies>
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://repository.groupdocs.com/repo/</url>
</repository>
</repositories>
GroupDocs.Parser不仅支持简单的文本提取,还能检索图像、元数据和结构化数据,以增强内容处理任务。
从DOCX、XLSX、PPTX、PDF、HTML等多种格式中捕获原始和结构化文本。
从扫描文档、幻灯片、电子表格和其他文件类型中解析文本,同时保留逻辑结构。
配置页面范围、布局区域和精度参数,以实现精确的文本解析。
该示例演示如何使用GroupDocs.Parser从PowerPoint演示文稿中提取文本块及其空间坐标。
// 使用Parser API加载您的PPTX文件
try (Parser parser = new Parser("input.pptx"))
{
// 获取所有矩形文本区域
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// 如果不支持此功能则退出
if (areas == null)
{
return;
}
// 按照页面循环遍历文本区域
for (PageTextArea a : areas)
{
// 处理每个文本块及其页码和边界矩形
System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
}
}