Un hipervínculo es un fragmento de texto, una imagen o un icono que apunta a un documento completo o a una parte particular dentro de un documento. El uso de hipervínculos permite a los usuarios navegar a una página web o documento. A menudo se requiere extraer hipervínculos de un documento y usarlo para acceder a documentos externos o páginas web. GroupDocs.Parser for Java es una fascinante API de extracción de texto de documentos que proporciona una funcionalidad completa para implementar soluciones de extracción de texto y metadatos. Admite la extracción de texto e hipervínculos de PDF, correos electrónicos, libros electrónicos, Microsoft Office formatos: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), formatos de LibreOffice y muchos más. Admite varias funciones avanzadas para el análisis de documentos, la extracción de texto sin formato y estructurado, la búsqueda de texto por palabras clave, la extracción de metadatos o imágenes, los contenedores y los archivos adjuntos, y mucho más.
GroupDocs.Parser for Java facilita a los desarrolladores de Java extraer hipervínculos de un archivo DOC mediante la implementación de unos sencillos pasos.
// Extraiga hipervínculos del archivo DOC usando la API GroupDocs.Parser
// Crear una instancia de la clase Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// Compruebe si el documento admite la extracción de hipervínculos
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("El documento no admite la extracción de hipervínculos.");
return;
}
// Extraer hipervínculos del documento
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// Iterar sobre hipervínculos
for (PageHyperlinkArea h : hyperlinks) {
// Imprimir el texto del hipervínculo
System.out.println(h.getText());
// Imprima la URL del hipervínculo
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java Las API son compatibles con todas las principales plataformas y sistemas operativos. Antes de ejecutar el código a continuación, asegúrese de tener instalados los siguientes requisitos previos en su sistema.
Java API de extracción de hipervínculos y análisis de documentos para formatos de archivo e imágenes. Extraiga datos para algunos de los formatos de archivo populares como se indica a continuación.
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)