Java API para extraer hipervínculos de documentos, páginas o áreas de páginas particulares

La API GroupDocs.Parser for Java facilita el trabajo de los desarrolladores al permitirles extraer hipervínculos de documentos, páginas de documentos o páginas específicas Área de PDF, DOCX, PPTX, EML, MSG, XLS, {322 }, CSV, RTF, EPUB y muchos más.


Descargue prueba gratis

¿Cómo analizar y extraer hipervínculos de documentos XHTML a través de la API Java?

Un hipervínculo es un fragmento de texto, una imagen o un icono que apunta a un documento completo o a una parte particular dentro de un documento. El uso de hipervínculos permite a los usuarios navegar a una página web o documento. A menudo se requiere extraer hipervínculos de un documento y usarlo para acceder a documentos externos o páginas web. GroupDocs.Parser for Java es una fascinante API de extracción de texto de documentos que proporciona una funcionalidad completa para implementar soluciones de extracción de texto y metadatos. Admite la extracción de texto e hipervínculos de PDF, correos electrónicos, libros electrónicos, Microsoft Office formatos: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), formatos de LibreOffice y muchos más. Admite varias funciones avanzadas para el análisis de documentos, la extracción de texto sin formato y estructurado, la búsqueda de texto por palabras clave, la extracción de metadatos o imágenes, los contenedores y los archivos adjuntos, y mucho más.

Extraer hipervínculos de XHTML en Java

GroupDocs.Parser for Java facilita a los desarrolladores de Java extraer hipervínculos de un archivo XHTML mediante la implementación de unos sencillos pasos.

  • Crear una instancia del objeto Parser para el documento inicial;
  • Compruebe si el documento admite la extracción de hipervínculos;
  • Llame al método getHyperlinks y obtenga la colección de PageHyperlinkArea objetos;
  • Recorra la colección y obtenga un texto de hipervínculo y una URL.

Cómo extraer hipervínculos del archivo XHTML usando el código de ejemplo Java

// Extraiga hipervínculos del archivo XHTML usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // Compruebe si el documento admite la extracción de hipervínculos
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("El documento no admite la extracción de hipervínculos.");
        return;
    }
    // Extraer hipervínculos del documento
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // Iterar sobre hipervínculos
    for (PageHyperlinkArea h : hyperlinks) {
        // Imprimir el texto del hipervínculo
        System.out.println(h.getText());
        // Imprima la URL del hipervínculo
        System.out.println(h.getUrl());
        System.out.println();
    }
}

Requisitos del sistema

GroupDocs.Parser for Java Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entornos de desarrollo: NetBeans, Intellij IDEA, Eclipse, etc.
  • Marcos
  • Descarga la última versión de GroupDocs.Parser for Java desde Maven

Por qué usar GroupDocs.Parser for Java

  • Compatibilidad con la extracción de texto sin formato de cualquier documento compatible
  • Análisis de documentos a través de plantillas definidas por el usuario
  • Totalmente compatible con la extracción de texto estructurado
  • Búsqueda de texto por palabra clave y expresión regular
  • Extraiga texto formateado, metadatos, imágenes, contenedores y archivos adjuntos
  • Extraiga la tabla de contenido para algunos formatos de documentos compatibles
  • Analizar datos de formulario de PDF documentos
  • Extraer hipervínculos del documento

Extraer hipervínculos de otros formatos de documentos

Java API de extracción de hipervínculos y análisis de documentos para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.

Back to top
 Español