请按照以下说明使用 GroupDocs.Parser 在您的 .NET 环境中提取 XML 文件中的表格:
- 初始化一个 Parser 实例并加载您的 XML 文档。
- 检查输入格式是否支持表格提取。
- 从文件中提取表格内容。
- 利用结构化表格数据进行报告、自动化或分析。
请按照以下说明使用 GroupDocs.Parser 在您的 .NET 环境中提取 XML 文件中的表格:
// 使用 Parser 打开包含表格数据的文档
using (Parser parser = new Parser("input.xml")) {
// 检查格式是否支持表格识别
if (!parser.Features.Tables) {
Console.WriteLine("处理不支持表格解析的文档");
return;
}
// 定义如何识别表格结构
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 },
new double[] { 325, 340, 365, 395 });
// 指定表格数据的提取参数
PageTableAreaOptions options = new PageTableAreaOptions(layout);
// 从文件内容中提取表格
IEnumerable<PageTableArea> tables = parser.GetTables(options);
// 遍历每个检测到的表格
foreach (PageTableArea t in tables)
{
}
}
除了表格解析,GroupDocs.Parser 还能够提取丰富的内容,如文本块、图像、元数据及其他结构化数据,以促进文档自动化。
高精度地从 DOCX、XLSX、PDF、HTML 和类似格式中提取表格数据。
高效地从文档和电子表格中检索表格数据,无需格式损失。
调整布局检测、列对齐和页眉/页脚选项,以精确控制输出。
这个代码示例展示了如何使用 GroupDocs.Parser 读取和遍历 XLSX 文件中的表格数据。
// 使用 Parser API 打开 Excel 文件
using (Parser parser = new Parser("input.xlsx"))
{
// 如果无法从文件中提取表格,则退出
if (!parser.Features.Tables)
{
return;
}
// 使用布局规则定位表格内容
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 },
new double[] { 325, 340, 365, 395 });
// 设置表格的提取参数
PageTableAreaOptions options = new PageTableAreaOptions(layout);
// 执行表格提取操作
IEnumerable<PageTableArea> tables = parser.GetTables(options);
// 遍历每个检测到的表格结构
foreach (PageTableArea t in tables)
{
// 遍历表格中的每一行
for (int row = 0; row < t.RowCount; row++)
{
// 循环遍历每行中的单元格
for (int column = 0; column < t.ColumnCount; column++)
{
// 访问当前表格单元格
PageTableAreaCell cell = t[row, column];
if (cell != null)
{
// 显示每个单元格的文本内容
Console.Write(cell.Text);
Console.Write(" | ");
}
}
}
}
}