Hyperlink adalah sepotong teks atau gambar atau ikon yang menunjuk ke seluruh dokumen atau ke bagian tertentu dalam dokumen. Penggunaan hyperlink memungkinkan pengguna untuk menavigasi ke halaman web atau dokumen. Seringkali diperlukan untuk mengekstrak hyperlink dari dokumen dan menggunakannya untuk mengakses dokumen eksternal atau halaman web. GroupDocs.Parser for Java adalah API ekstraksi teks dokumen menarik yang menyediakan fungsionalitas lengkap untuk mengimplementasikan solusi ekstraksi teks dan metadata. Ini mendukung ekstraksi teks & hyperlink dari format PDF, Email, Ebooks, Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), format LibreOffice, dan banyak lagi. Ini mendukung beberapa fitur lanjutan untuk penguraian dokumen, mengekstraksi teks biasa dan terstruktur, pencarian teks dengan kata kunci, mengekstrak metadata atau gambar, wadah serta lampiran dan banyak lagi.
GroupDocs.Parser for Java memudahkan pengembang Java untuk mengekstrak hyperlink dari file DOC dengan menerapkan beberapa langkah mudah.
// Ekstrak hyperlink dari file DOC menggunakan GroupDocs.Parser API
// Buat instance kelas Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// Periksa apakah dokumen mendukung ekstraksi hyperlink
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("Dokumen tidak mendukung ekstraksi hyperlink.");
return;
}
// Ekstrak hyperlink dari dokumen
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// Iterasi melalui hyperlink
for (PageHyperlinkArea h : hyperlinks) {
// Cetak teks hyperlink
System.out.println(h.getText());
// Cetak URL hyperlink
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java API didukung di semua platform dan sistem operasi utama. Sebelum menjalankan kode di bawah ini, harap pastikan bahwa Anda telah menginstal prasyarat berikut di sistem Anda.
Java dokumen mengurai & API ekstraksi hyperlink untuk format file dan gambar. Ekstrak data untuk beberapa format file populer seperti yang dinyatakan di bawah ini.
(Microsoft Word 2007 Marco File)
(Office 2007+ Word Document)
(Microsoft Word Template Files)
(Microsoft Word 2007+ Template File)
(Microsoft Word Template File )
(Open eBook File)
(Hyper Text Markup Language)
(MHTML Web Archive)
(Web Page Archive Format)
(OpenDocument Presentation Format)
(OpenDocument Spreadsheet)
(OpenDocument Text File Format)
(OneNote Document)
(OpenDocument Standard Format)
(OpenDocument Standard Format)
(Portable Document Format)