通过遵循以下步骤,您可以使用 GroupDocs.Parser 从 XLSX 文档中提取清晰的结构化文本:
- 使用 Parser 实例打开 XLSX 文档。
- 从文件内容中提取文本。
- 检查结果以确认文本提取成功。
- 将提取的文本应用于业务逻辑、索引或数据管道。
通过遵循以下步骤,您可以使用 GroupDocs.Parser 从 XLSX 文档中提取清晰的结构化文本:
// 将文档加载到 Parser 中
using (Parser parser = new Parser("input.xlsx")) {
// 从文件中提取所有文本内容
using (TextReader reader = parser.GetText())
{
// 如果文本不可用,结果将为 null
// 在您的应用中使用提取的文本
Console.WriteLine(reader == null ?
"此格式不支持文本提取" : reader.ReadToEnd());
}
}
除了纯文本,GroupDocs.Parser 还可以提取图像、结构化元素和元数据,以支持内容分析、转换和自动化。
从 PDF、DOCX、XLSX、PPTX、HTML 及其他格式中获取纯文本或结构化文本。
从扫描的图像、演示文稿、电子表格和数字文档中提取文本,同时保留结构。
自定义文本检测方式——定义页面范围、布局区域,并调整输出以实现最大准确性。
此代码示例展示了如何使用 GroupDocs.Parser 从 PowerPoint 文件中检索文本内容及区域坐标。
// 使用 Parser 加载 PowerPoint 演示文稿
using (Parser parser = new Parser("input.pptx"))
{
// 从文档中提取所有文本区域矩形
IEnumerable<PageTextArea> areas = parser.GetTextAreas();
// 如果文本区域提取不可用则退出
if (areas == null)
{
return;
}
// 遍历每个页面的文本区域
foreach (PageTextArea a in areas)
{
// 访问页面索引、区域矩形和文本值
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
}