Extraer texto de documentos en Java

Extraiga texto de documentos con unas pocas líneas de código Java.


Descargue prueba gratis

¿Cómo extraer un texto de los archivos Java API?

GroupDocs.Parser for Java es una API de extracción de texto, imágenes y metadatos que admite más de 50 tipos de documentos populares para ayudar a crear aplicaciones comerciales con funciones de análisis de texto sin procesar, estructurado y formateado. También admite el análisis de documentos utilizando plantillas predefinidas y permite extraer datos complejos de facturas y otros documentos típicos con rapidez y precisión. GroupDocs.Parser for Java le permite extraer texto y metadatos de archivos protegidos con contraseña de todos los formatos populares, incluidos Word documentos de procesamiento, Excel hojas de cálculo, PowerPoint presentaciones, OneNote, PDF archivos y ZIP archivos.

GroupDocs.Parser La API es una opción adecuada para soluciones corporativas que necesitan la función de extracción de texto de archivos. Estas API son compatibles con todos los principales sistemas operativos y plataformas, incluido Java runtime: J2SE 6.0 and above.

Extraer texto de documentos en Java

GroupDocs.Parser for Java facilita a los desarrolladores de Java la extracción de texto de los documentos mediante la implementación de unos sencillos pasos.

  • Crear una instancia del objeto Parser para el documento inicial;
  • Llame al método getText y obtenga TextReader objeto;
  • Compruebe si el lector no es null (la extracción de texto es compatible con el documento);
  • Leer un texto del lector.

Más información sobre la extracción de texto

Cómo extraer texto de documentos usando el código de ejemplo Java

// Extrae texto de documentos usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
try (Parser parser = new Parser(filePath)) {
    // Extraer un texto en el lector
    try (TextReader reader = parser.getText()) {
        // Imprimir un texto del documento
        // Si no se admite la extracción de texto, un lector es nulo
        System.out.println(reader == null ? "No se admite la extracción de texto." : reader.readToEnd());
    }
}

Requisitos del sistema

GroupDocs.Parser for Java Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entornos de desarrollo: NetBeans, Intellij IDEA, Eclipse, etc.
  • Marcos
  • Descarga la última versión de GroupDocs.Parser for Java desde Maven

Por qué usar GroupDocs.Parser for Java

  • Compatibilidad con la extracción de texto sin formato de cualquier documento compatible
  • Análisis de documentos a través de plantillas definidas por el usuario
  • Totalmente compatible con la extracción de texto estructurado
  • Búsqueda de texto por palabra clave y expresión regular
  • Extraiga texto formateado, metadatos, imágenes, contenedores y archivos adjuntos
  • Extraiga la tabla de contenido para algunos formatos de documentos compatibles
  • Analizar datos de formulario de PDF documentos
  • Extraer hipervínculos del documento

Demostraciones en vivo: extraiga texto de documentos en línea

Extraiga texto de los documentos ahora mismo visitando el sitio web GroupDocs.Parser Live Demos. La demostración en vivo tiene los siguientes beneficios.

No es necesario descargar la API

No es necesario escribir ningún código

Simplemente cargue el archivo fuente

Obtener enlace de descarga para guardar el archivo

Extraer texto de otros formatos de documentos

Java API de análisis y extracción de texto de documentos para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.

DOC

(Microsoft Word Binary Format)

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Español