GroupDocs.Parser for Java

Recuperar texto de DOCX usando Java

Extraiga de manera fluida texto legible o estructurado de archivos como PDF, Word, Excel y más utilizando GroupDocs.Parser en sus proyectos de desarrollo Java.

Cómo recuperar texto de Docx usando Java

Siga los pasos a continuación para extraer texto de archivos DOCX utilizando GroupDocs.Parser dentro de su proyecto Java:

  1. Cargar el documento DOCX usando la clase Parser.
  2. Realizar la extracción de texto del contenido del archivo.
  3. Verificar si el texto fue recuperado con éxito.
  4. Utilizar los datos de texto en sistemas de búsqueda, análisis o automatización.
// Inicializar Parser con su documento
try (Parser parser = new Parser("input.docx"))
{
    // Leer y extraer todos los datos textuales
    try (TextReader reader = parser.getText())
    {
        // Devolver nulo si el contenido de texto está ausente
        // Integrar el texto extraído en su flujo de trabajo
        System.out.println(reader == null ? 
            "Omitir formatos de extracción de texto no soportados" : reader.readToEnd());
    }
}
<dependencies> <dependency> <groupId>com.groupdocs</groupId> <artifactId>groupdocs-parser</artifactId> <version>24.9</version> </dependency> </dependencies> <repositories> <repository> <id>repository.groupdocs.com</id> <name>GroupDocs Repository</name> <url>https://repository.groupdocs.com/repo/</url> </repository> </repositories>
haga clic para copiar
copiado
Más ejemplos Documentación

Funcionalidad rica de extracción de texto

GroupDocs.Parser va más allá de la simple extracción de texto—soportando la recuperación de imágenes, metadatos y datos estructurados para mejorar las tareas de procesamiento de contenido.

Extraer y estructurar contenido de texto de documentos

Funciona en numerosos formatos de documentos

Capture tanto texto en bruto como estructurado de DOCX, XLSX, PPTX, PDF, HTML y varios formatos.

Extraer texto de contenido visual y textual

Analice texto de documentos escaneados, presentaciones, hojas de cálculo y otros tipos de archivos mientras preserva la estructura lógica.

Control detallado sobre el proceso de extracción

Configure rangos de páginas, zonas de diseño y parámetros de precisión para un análisis de texto más afinado.

Ejemplo: Extracción de regiones de texto de un documento PPTX

Este ejemplo demuestra la extracción de bloques de texto junto con sus coordenadas espaciales de una presentación de PowerPoint utilizando GroupDocs.Parser.

Java

//  Cargar su archivo PPTX con la API Parser
try (Parser parser = new Parser("input.pptx"))
{
    // Obtener todas las zonas de texto rectangulares
    IEnumerable<PageTextArea> areas = parser.GetTextAreas();

    // Salir si esta función no es soportada
    if (areas == null)
    {
        return;
    }

    // Recorrer áreas de texto por página
    for (PageTextArea a : areas)
    {
        // Procesar cada bloque de texto con su número de página y rectángulo delimitador
        System.out.println(String.format("Page: %d, R: %s, Text: %s", a.getPage().getIndex(), a.getRectangle(), a.getText()));
    }
}

Presentamos la API GroupDocs.Parser for Java

GroupDocs.Parser es un robusto y escalable parser de documentos diseñado para desarrolladores Java. Ofrece capacidades para extraer con precisión texto, tablas, imágenes y componentes estructurados de varios formatos, incluyendo PDF, DOCX, XLSX, PPTX y otros—sin depender de utilidades externas.
Aprender más
About illustration

¿Listo para empezar?

Descargue GroupDocs.Parser gratis u obtenga una licencia de prueba para obtener acceso completo.

Recursos útiles

Explore la documentación, las muestras de código y el apoyo de la comunidad para mejorar su experiencia.

Tipos de archivos soportados para extracción de texto

GroupDocs.Parser es capaz de extraer contenido textual de numerosos formatos de archivos e imágenes. A continuación, se presentan los tipos más utilizados que soporta.

Consejos para licencias temporales

1
Regístrate con tu correo electrónico del trabajo. No se permiten servicios de correo gratuitos.
2
Utilice el botón Obtener una licencia temporal en el segundo paso.
 Español