如何从文件Java API中提取文本？

GroupDocs.Parser for Java 是一个文本、图像和元数据提取器 API，支持 50 多种流行的文档类型，有助于构建具有解析原始、结构化和格式化文本功能的业务应用程序。它还支持使用预定义模板解析文档，并允许快速、准确地从发票和其他典型文档中提取复杂数据。 GroupDocs.Parser for Java 使您能够从所有流行格式的受密码保护的文件中提取文本和元数据，包括Word 处理文档、Excel 电子表格、PowerPoint 演示文稿、OneNote、PDF 文件和 ZIP 存档。

GroupDocs.Parser API 是需要文件文本提取功能的企业解决方案的正确选择。这些 API 在所有主要操作系统和平台（包括 Java runtime: J2SE 6.0 and above）上均得到良好支持。

从 Java 中的文档中提取文本

GroupDocs.Parser for Java 让 Java 开发者只需执行几个简单的步骤即可轻松从文档中提取文本。

实例化初始文档的 Parser 对象；
调用 getText 方法并获取 TextReader 对象；
检查 reader 是否不为null（文档支持文本提取）；
阅读读者的文字。

了解有关文本提取的更多信息

如何使用 Java 示例代码从文档中提取文本

// 使用 GroupDocs.Parser API 从文档中提取文本
// 创建 Parser 类的实例
try (Parser parser = new Parser(filePath)) {
    // 将文本提取到阅读器中
    try (TextReader reader = parser.getText()) {
        // 打印文档中的文本
        // 如果不支持文本提取，则 reader 为空
        System.out.println(reader == null ? "不支持文本提取" : reader.readToEnd());
    }
}