Java API para extraer hipervínculos de documentos, páginas o áreas de páginas particulares

La API GroupDocs.Parser for Java facilita el trabajo de los desarrolladores al permitirles extraer hipervínculos de documentos, páginas de documentos o páginas específicas Área de PDF, DOCX, PPTX, EML, MSG, XLS, {322 }, CSV, RTF, EPUB y muchos más.


Descargue prueba gratis

¿Cómo analizar y extraer hipervínculos de documentos DOC a través de la API Java?

Un hipervínculo es un fragmento de texto, una imagen o un icono que apunta a un documento completo o a una parte particular dentro de un documento. El uso de hipervínculos permite a los usuarios navegar a una página web o documento. A menudo se requiere extraer hipervínculos de un documento y usarlo para acceder a documentos externos o páginas web. GroupDocs.Parser for Java es una fascinante API de extracción de texto de documentos que proporciona una funcionalidad completa para implementar soluciones de extracción de texto y metadatos. Admite la extracción de texto e hipervínculos de PDF, correos electrónicos, libros electrónicos, Microsoft Office formatos: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), formatos de LibreOffice y muchos más. Admite varias funciones avanzadas para el análisis de documentos, la extracción de texto sin formato y estructurado, la búsqueda de texto por palabras clave, la extracción de metadatos o imágenes, los contenedores y los archivos adjuntos, y mucho más.

Extraer hipervínculos de DOC en Java

GroupDocs.Parser for Java facilita a los desarrolladores de Java extraer hipervínculos de un archivo DOC mediante la implementación de unos sencillos pasos.

  • Crear una instancia del objeto Parser para el documento inicial;
  • Compruebe si el documento admite la extracción de hipervínculos;
  • Llame al método getHyperlinks y obtenga la colección de PageHyperlinkArea objetos;
  • Recorra la colección y obtenga un texto de hipervínculo y una URL.

Cómo extraer hipervínculos del archivo DOC usando el código de ejemplo Java

// Extraiga hipervínculos del archivo DOC usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // Compruebe si el documento admite la extracción de hipervínculos
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("El documento no admite la extracción de hipervínculos.");
        return;
    }
    // Extraer hipervínculos del documento
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // Iterar sobre hipervínculos
    for (PageHyperlinkArea h : hyperlinks) {
        // Imprimir el texto del hipervínculo
        System.out.println(h.getText());
        // Imprima la URL del hipervínculo
        System.out.println(h.getUrl());
        System.out.println();
    }
}

Requisitos del sistema

GroupDocs.Parser for Java Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entornos de desarrollo: NetBeans, Intellij IDEA, Eclipse, etc.
  • Marcos
  • Descarga la última versión de GroupDocs.Parser for Java desde Maven

Por qué usar GroupDocs.Parser for Java

  • Compatibilidad con la extracción de texto sin formato de cualquier documento compatible
  • Análisis de documentos a través de plantillas definidas por el usuario
  • Totalmente compatible con la extracción de texto estructurado
  • Búsqueda de texto por palabra clave y expresión regular
  • Extraiga texto formateado, metadatos, imágenes, contenedores y archivos adjuntos
  • Extraiga la tabla de contenido para algunos formatos de documentos compatibles
  • Analizar datos de formulario de PDF documentos
  • Extraer hipervínculos del documento

Extraer hipervínculos de otros formatos de documentos

Java API de extracción de hipervínculos y análisis de documentos para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Español