从 Java 中的文档中提取文本

使用几行 Java 代码从文档中提取文本。


下载免费试用版

如何从文件Java API中提取文本?

GroupDocs.Parser for Java 是一个文本、图像和元数据提取器 API,支持 50 多种流行的文档类型,有助于构建具有解析原始、结构化和格式化文本功能的业务应用程序。它还支持使用预定义模板解析文档,并允许快速、准确地从发票和其他典型文档中提取复杂数据。 GroupDocs.Parser for Java 使您能够从所有流行格式的受密码保护的文件中提取文本和元数据,包括Word 处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 存档。

GroupDocs.Parser API 是需要文件文本提取功能的企业解决方案的正确选择。这些 API 在所有主要操作系统和平台(包括 Java runtime: J2SE 6.0 and above)上均得到良好支持。

从 Java 中的文档中提取文本

GroupDocs.Parser for Java 让 Java 开发者只需执行几个简单的步骤即可轻松从文档中提取文本。

  • 实例化初始文档的 Parser 对象;
  • 调用 getText 方法并获取 TextReader 对象;
  • 检查 reader 是否不为null(文档支持文本提取);
  • 阅读读者的文字。

如何使用 Java 示例代码从文档中提取文本

// 使用 GroupDocs.Parser API 从文档中提取文本
// 创建 Parser 类的实例
try (Parser parser = new Parser(filePath)) {
    // 将文本提取到阅读器中
    try (TextReader reader = parser.getText()) {
        // 打印文档中的文本
        // 如果不支持文本提取,则 reader 为空
        System.out.println(reader == null ? "不支持文本提取" : reader.readToEnd());
    }
}

系统要求

GroupDocs.Parser for Java 所有主要平台和操作系统均支持 API。在执行下面的代码之前,请确保您的系统上安装了以下先决条件。

  • 操作系统:Microsoft Windows、Linux、MacOS
  • 开发环境:NetBeans, Intellij IDEA, Eclipse, etc.
  • 构架
  • Maven 下载最新版本的 GroupDocs.Parser for Java

为什么使用GroupDocs.Parser for Java

  • 支持从任何支持的文档中提取纯文本
  • 通过用户定义的模板解析文档
  • 全面支持结构化文本提取
  • 通过关键字和正则表达式进行文本搜索
  • 提取格式化文本、元数据、图像、容器和附件
  • 提取某些支持的文档格式的目录
  • 从 PDF 文档解析表单数据
  • 从文档中提取超链接

现场演示 - 从在线文档中提取文本

立即访问 GroupDocs.Parser 现场演示 网站从文档中提取文本。 现场演示有以下好处。

无需下载 API

无需编写任何代码

只需上传源文件

获取下载链接以保存文件

从其他文档格式中提取文本

Java 用于文件格式和图像的文档解析和文本提取 API。提取一些流行文件格式的数据,如下所述。

DOC

(Microsoft Word Binary Format)

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 中国人