GroupDocs.Parser Descripción general

API para realizar análisis de documentos en Java aplicaciones

Illustration parser

Extraer datos de documentos

Java API le permite recuperar texto, metadatos e imágenes de una amplia gama de formatos de archivo, como documentos de Office, correos electrónicos, archivos adjuntos y archivos. Esta poderosa herramienta lo ayuda a acceder y procesar de manera eficiente información valiosa contenida en estos archivos para diversas aplicaciones como análisis de datos, indexación de motores de búsqueda o sistemas de administración de contenido.

Analizar documentos

Extraiga varios elementos como hipervínculos, tablas, códigos QR, códigos de barras y datos de PDF formularios. Analice también cualquier información deseada de los documentos utilizando plantillas personalizadas.

Personalización de resultados

Java API le permite recuperar datos en varios formatos, como sin formato, estructurado, HTML o Markdown. Además, API ofrece una función de búsqueda para localizar palabras o frases específicas dentro del texto de los documentos.

Independencia de plataforma

GroupDocs.Parser for Java es compatible con los siguientes sistemas operativos, marcos y administradores de paquetes

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

Formatos de archivo admitidos

GroupDocs.Parser for Java admite operaciones con los siguientes formatos de archivo.

Microsoft Office formatos

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

Imágenes y otros formatos

  • Portable: PDF
  • Imágenes: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • Otros formatos de oficina: ODT, OTT, OTS, ODS, ODP, OTP, ODG

Otros formatos

  • Web: HTML, MHTML
  • Archivo: ZIP, TAR, 7Z
  • Libros electrónicos: CHM, EPUB, FB2, MOBI

GroupDocs.Parser características

Extraiga datos de PDFs, documentos de Office e imágenes de forma rápida y precisa.

Feature icon

Extraer texto

Extraiga información textual de varios formatos de archivo, como documentos de Office, PDF archivos e imágenes para facilitar la lectura y el análisis.

Feature icon

Extraer imágenes

Recupere contenido visual de diversas fuentes, como documentos de Office y archivos PDF para acceder y utilizar cómodamente.

Feature icon

Escanear códigos QR

Detecte y decodifique códigos QR presentes en documentos de Office, PDF archivos o contenido visual para una recuperación eficiente de la información.

Feature icon

Extraiga datos de archivos adjuntos y archivos de correo electrónico

Recopile información valiosa de mensajes de correo electrónico, archivos adjuntos y fuentes de datos comprimidos para un análisis y utilización eficaces.

Feature icon

Extraer tablas

Identifique y extraiga datos tabulares de PDF documentos para su análisis y uso organizados.

Feature icon

Extraer hipervínculos

Localice y extraiga hipervínculos y direcciones de correo electrónico dentro de documentos de Office o archivos PDF para un acceso eficiente.

Feature icon

Analizar PDF formularios

PDF Los formularios son documentos digitales que presentan campos que se pueden completar para la interacción del usuario, lo que les permite ingresar información electrónicamente. Java Se puede utilizar API para extraer datos de estos formularios para un procesamiento eficiente.

Feature icon

Analizar datos por plantillas

Cree plantillas personalizadas y utilícelas con Java API para analizar información específica de PDF archivos, simplificando los procesos de extracción de datos.

Feature icon

Buscar un texto en documentos

Localice rápidamente palabras o patrones específicos dentro de los documentos.

Ejemplo de código

Algunos casos de uso de operaciones GroupDocs.Parser for Java típicas

Extraer imágenes de PDF documentos

La API Java facilita a los desarrolladores Java la extracción de imágenes de documentos mediante la implementación de unos sencillos pasos.

Extraiga imágenes de PDF documentos en Java

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

Extraer códigos de barras de imágenes

La API Java facilita a los desarrolladores Java extraer códigos de barras de documentos implementando unos sencillos pasos.

Extraer códigos de barras de imágenes

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}
 Español