Un hipervínculo es un fragmento de texto, una imagen o un icono que apunta a un documento completo o a una parte particular dentro de un documento. El uso de hipervínculos permite a los usuarios navegar a una página web o documento. A menudo se requiere extraer hipervínculos de un documento y usarlo para acceder a documentos externos o páginas web. GroupDocs.Parser for Java es una fascinante API de extracción de texto de documentos que proporciona una funcionalidad completa para implementar soluciones de extracción de texto y metadatos. Admite la extracción de texto e hipervínculos de PDF, correos electrónicos, libros electrónicos, Microsoft Office formatos: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), formatos de LibreOffice y muchos más. Admite varias funciones avanzadas para el análisis de documentos, la extracción de texto sin formato y estructurado, la búsqueda de texto por palabras clave, la extracción de metadatos o imágenes, los contenedores y los archivos adjuntos, y mucho más.
GroupDocs.Parser for Java facilita a los desarrolladores de Java extraer hipervínculos de un archivo XHTML mediante la implementación de unos sencillos pasos.
// Extraiga hipervínculos del archivo XHTML usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// Compruebe si el documento admite la extracción de hipervínculos
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("El documento no admite la extracción de hipervínculos.");
return;
}
// Extraer hipervínculos del documento
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// Iterar sobre hipervínculos
for (PageHyperlinkArea h : hyperlinks) {
// Imprimir el texto del hipervínculo
System.out.println(h.getText());
// Imprima la URL del hipervínculo
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.