表是按行和列排列的单元格的集合。表格在存储和组织详细或复杂的数据方面发挥着非常重要的作用,使用户可以轻松阅读和查看数据。表格的使用方式有多种,例如制作列表、比较信息、对齐数据、对信息进行分组、突出显示数据中的趋势或模式等等。 GroupDocs.Parser for .NET 是一个实用的 API,允许软件程序员开发从各种受支持的文档格式中提取表格、文本和图像的解决方案,例如 PDF、电子邮件、电子书、Word (DOC、{ 318})、PowerPoint (PPT、PPTX)、Excel (XLS、XLSX)、电子邮件 (EML、MSG) 格式等等。 .NET API 包含一些用于处理表格的重要功能,例如从文档中提取所有表格、从特定页面提取表格、获取表格单元格数据、获取表格行数和列数、获取行高、打印表格的数据以及更多。
GroupDocs.Parser for .NET 让 C# 开发者只需执行几个简单的步骤即可轻松从 XHTML 文件中提取表。
// 使用 GroupDocs.Parser API 从 XHTML 文件中提取表
// 创建 Parser 类的实例
using (Parser parser = new Parser(filePath)) {
// 检查文档是否支持表格提取
if (!parser.Features.Tables) {
Console.WriteLine("文档不支持表格提取。");
return;
}
// 创建表格布局
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 },
new double[] { 325, 340, 365, 395 });
// 创建表提取选项
PageTableAreaOptions options = new PageTableAreaOptions(layout);
// 从文档中提取表格。
IEnumerable<PageTableArea> tables = parser.GetTables(options);
// 迭代表
foreach (PageTableArea t in tables) {
// 迭代行
for (int row = 0; row < t.RowCount; row++) {
// 迭代列
for (int column = 0; column < t.ColumnCount; column++) {
// 获取表格单元格
PageTableAreaCell cell = t[row, column];
if (cell != null) {
// 打印表格单元格文本
Console.Write(cell.Text);
Console.Write(" | ");
}
}
Console.WriteLine();
}
Console.WriteLine();
}
}
GroupDocs.Parser for .NET 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。