Java API untuk Mengekstrak Hyperlink dari Dokumen, Halaman, atau Area Halaman Tertentu

GroupDocs.Parser for Java API memudahkan pekerjaan pengembang dengan memungkinkan mereka mengekstrak hyperlink dari dokumen, halaman dokumen atau halaman tertentu Area PDF, DOCX, PPTX, EML, MSG, XLS, {322 }, CSV, RTF, EPUB dan banyak lagi.


Unduh Uji Coba Gratis

Bagaimana cara Mengurai & Mengekstrak Hyperlink dari DOC dokumen melalui Java API?

Hyperlink adalah sepotong teks atau gambar atau ikon yang menunjuk ke seluruh dokumen atau ke bagian tertentu dalam dokumen. Penggunaan hyperlink memungkinkan pengguna untuk menavigasi ke halaman web atau dokumen. Seringkali diperlukan untuk mengekstrak hyperlink dari dokumen dan menggunakannya untuk mengakses dokumen eksternal atau halaman web. GroupDocs.Parser for Java adalah API ekstraksi teks dokumen menarik yang menyediakan fungsionalitas lengkap untuk mengimplementasikan solusi ekstraksi teks dan metadata. Ini mendukung ekstraksi teks & hyperlink dari format PDF, Email, Ebooks, Microsoft Office: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), format LibreOffice, dan banyak lagi. Ini mendukung beberapa fitur lanjutan untuk penguraian dokumen, mengekstraksi teks biasa dan terstruktur, pencarian teks dengan kata kunci, mengekstrak metadata atau gambar, wadah serta lampiran dan banyak lagi.

Ekstrak hyperlink dari DOC di Java

GroupDocs.Parser for Java memudahkan pengembang Java untuk mengekstrak hyperlink dari file DOC dengan menerapkan beberapa langkah mudah.

  • Membuat instance objek Parser untuk dokumen awal;
  • Periksa apakah dokumen mendukung ekstraksi hyperlink;
  • Panggil metode getHyperlinks dan dapatkan kumpulan PageHyperlinkArea objek;
  • Iterasi melalui koleksi dan dapatkan teks hyperlink dan URL.

Cara mengekstrak hyperlink dari file DOC menggunakan kode contoh Java

// Ekstrak hyperlink dari file DOC menggunakan GroupDocs.Parser API
// Buat instance kelas Parser
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
    // Periksa apakah dokumen mendukung ekstraksi hyperlink
    if (!parser.getFeatures().isHyperlinks()) {
        System.out.println("Dokumen tidak mendukung ekstraksi hyperlink.");
        return;
    }
    // Ekstrak hyperlink dari dokumen
    Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
    // Iterasi melalui hyperlink
    for (PageHyperlinkArea h : hyperlinks) {
        // Cetak teks hyperlink
        System.out.println(h.getText());
        // Cetak URL hyperlink
        System.out.println(h.getUrl());
        System.out.println();
    }
}

Persyaratan sistem

GroupDocs.Parser for Java API didukung di semua platform dan sistem operasi utama. Sebelum menjalankan kode di bawah ini, harap pastikan bahwa Anda telah menginstal prasyarat berikut di sistem Anda.

  • Sistem Operasi: Microsoft Windows, Linux, MacOS
  • Lingkungan Pengembangan: NetBeans, Intellij IDEA, Eclipse, etc.
  • Kerangka kerja
  • Unduh versi terbaru GroupDocs.Parser for Java dari Maven

Mengapa Menggunakan GroupDocs.Parser for Java

  • Dukungan ekstraksi teks biasa dari dokumen yang didukung
  • Penguraian dokumen melalui templat yang ditentukan pengguna
  • Sepenuhnya mendukung ekstraksi teks terstruktur
  • Pencarian teks melalui kata kunci serta ekspresi reguler
  • Ekstrak teks yang diformat, metadata, gambar, wadah, dan lampiran
  • Ekstrak daftar isi untuk beberapa format dokumen yang didukung
  • Mengurai data formulir dari PDF dokumen
  • Ekstrak hyperlink dari dokumen

Ekstrak Hyperlink Dari Format Dokumen Lain

Java dokumen mengurai & API ekstraksi hyperlink untuk format file dan gambar. Ekstrak data untuk beberapa format file populer seperti yang dinyatakan di bawah ini.

DOCM

(Microsoft Word 2007 Marco File)

DOCX

(Office 2007+ Word Document)

DOT

(Microsoft Word Template Files)

DOTM

(Microsoft Word 2007+ Template File)

DOTX

(Microsoft Word Template File )

EPUB

(Open eBook File)

HTML

(Hyper Text Markup Language)

MHT

(MHTML Web Archive)

MHTML

(Web Page Archive Format)

ODP

(OpenDocument Presentation Format)

ODS

(OpenDocument Spreadsheet)

ODT

(OpenDocument Text File Format)

ONE

(OneNote Document)

OTP

(OpenDocument Standard Format)

OTT

(OpenDocument Standard Format)

PDF

(Portable Document Format)

Back to top
 Indonesian