表是按行和列排列的单元格的集合。表格在存储和组织详细或复杂的数据方面发挥着非常重要的作用,使用户可以轻松阅读和查看数据。表格的使用方式有多种,例如制作列表、比较信息、对齐数据、对信息进行分组、突出显示数据中的趋势或模式等等。 GroupDocs.Parser for .NET 是一个实用的 API,允许软件程序员开发从各种受支持的文档格式中提取表格、文本和图像的解决方案,例如 PDF、电子邮件、电子书、Word (DOC、{ 318})、PowerPoint (PPT、PPTX)、Excel (XLS、XLSX)、电子邮件 (EML、MSG) 格式等等。 .NET API 包含一些用于处理表格的重要功能,例如从文档中提取所有表格、从特定页面提取表格、获取表格单元格数据、获取表格行数和列数、获取行高、打印表格的数据以及更多。
GroupDocs.Parser for .NET 让 C# 开发者只需执行几个简单的步骤即可轻松从 DOC 文件中提取表。
// 使用 GroupDocs.Parser API 从 DOC 文件中提取表
// 创建 Parser 类的实例
using (Parser parser = new Parser(filePath)) {
// 检查文档是否支持表格提取
if (!parser.Features.Tables) {
Console.WriteLine("文档不支持表格提取。");
return;
}
// 创建表格布局
TemplateTableLayout layout = new TemplateTableLayout(
new double[] { 50, 95, 275, 415, 485, 545 },
new double[] { 325, 340, 365, 395 });
// 创建表提取选项
PageTableAreaOptions options = new PageTableAreaOptions(layout);
// 从文档中提取表格。
IEnumerable<PageTableArea> tables = parser.GetTables(options);
// 迭代表
foreach (PageTableArea t in tables) {
// 迭代行
for (int row = 0; row < t.RowCount; row++) {
// 迭代列
for (int column = 0; column < t.ColumnCount; column++) {
// 获取表格单元格
PageTableAreaCell cell = t[row, column];
if (cell != null) {
// 打印表格单元格文本
Console.Write(cell.Text);
Console.Write(" | ");
}
}
Console.WriteLine();
}
Console.WriteLine();
}
}
GroupDocs.Parser for .NET 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。
.NET 针对文件格式和图像的文档解析和表扫描 API。提取一些流行文件格式的数据,如下所述。
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)