하이퍼링크는 전체 문서 또는 문서 내의 특정 부분을 가리키는 텍스트나 이미지 또는 아이콘입니다. 하이퍼링크를 사용하면 사용자가 웹 페이지나 문서로 이동할 수 있습니다. 문서에서 하이퍼링크를 추출하여 외부 문서나 웹 페이지에 접근하기 위해 사용하는 경우가 많습니다. GroupDocs.Parser for Java는 텍스트 및 메타데이터 추출 솔루션을 구현하기 위한 완벽한 기능을 제공하는 매력적인 문서 텍스트 추출 API입니다. PDF, 이메일, 전자책, Microsoft Office 형식에서 텍스트 및 하이퍼링크 추출을 지원합니다: Word (DOC, DOCX), PowerPoint (PPT, PPTX), Excel ( XLS, XLSX), LibreOffice 형식 등. 문서 구문 분석, 일반 및 구조화된 텍스트 추출, 키워드로 텍스트 검색, 메타데이터 또는 이미지 추출, 컨테이너 및 첨부 파일 등을 위한 몇 가지 고급 기능을 지원합니다.
GroupDocs.Parser for Java를 사용하면 Java 개발자가 몇 가지 간단한 단계를 구현하여 XHTML 파일에서 하이퍼링크를 쉽게 추출할 수 있습니다.
// GroupDocs.Parser API를 사용하여 XHTML 파일에서 하이퍼링크 추출
// Parser 클래스의 인스턴스 생성
try (Parser parser = new Parser(Constants.HyperlinksPdf)) {
// 문서가 하이퍼링크 추출을 지원하는지 확인
if (!parser.getFeatures().isHyperlinks()) {
System.out.println("문서가 하이퍼링크 추출을 지원하지 않습니다.");
return;
}
// 문서에서 하이퍼링크 추출
Iterable<PageHyperlinkArea> hyperlinks = parser.getHyperlinks();
// 하이퍼링크 반복
for (PageHyperlinkArea h : hyperlinks) {
// 하이퍼링크 텍스트 인쇄
System.out.println(h.getText());
// 하이퍼링크 URL 인쇄
System.out.println(h.getUrl());
System.out.println();
}
}
GroupDocs.Parser for Java API는 모든 주요 플랫폼 및 운영 체제에서 지원됩니다. 아래 코드를 실행하기 전에 시스템에 다음 필수 구성 요소가 설치되어 있는지 확인하십시오.