GroupDocs.Parser 개요

Java 애플리케이션에서 문서 구문 분석을 수행하기 위한 API

Illustration parser

문서에서 데이터 추출

Java API를 사용하면 Office 문서, 이메일, 첨부 파일, 아카이브 등 다양한 파일 형식에서 텍스트, 메타데이터, 이미지를 검색할 수 있습니다. 이 강력한 도구는 데이터 분석, 검색 엔진 색인화 또는 콘텐츠 관리 시스템과 같은 다양한 응용 프로그램을 위해 이러한 파일에 포함된 중요한 정보에 효율적으로 액세스하고 처리하는 데 도움이 됩니다.

문서 분석

PDF 양식에서 하이퍼링크, 표, QR 코드, 바코드 및 데이터와 같은 다양한 요소를 추출합니다. 또한 사용자 정의 템플릿을 사용하여 문서에서 원하는 정보를 구문 분석합니다.

결과 맞춤설정

Java API를 사용하면 원시, 구조화, HTML 또는 마크다운과 같은 다양한 형식의 데이터를 검색할 수 있습니다. 또한 API는 문서 텍스트 내에서 특정 단어나 문구를 찾는 검색 기능을 제공합니다.

플랫폼 독립성

다음 운영체제, 프레임워크, 패키지 관리자를 지원합니다.

Amazon
Docker
Azure
Eclipse
IntelliJ
Windows
Linux
Maven

지원되는 파일 형식

GroupDocs.Parser for Java 다음 파일 형식을 사용한 작업을 지원합니다.

Microsoft Office 형식

  • Word: DOCX, DOC, DOCM, DOT, DOTX, DOTM, RTF
  • Excel: XLSX, XLS, XLSM, XLSB, XLTM, XLT, XLTM, XLTX, XLAM, SXC, SpreadsheetML
  • PowerPoint: PPT, PPTX, PPS, PPSX, PPSM, POT, POTM, POTX, PPTM

이미지 및 기타 형식

  • Portable: PDF
  • 이미지: JPG, BMP, PNG, TIFF, GIF, DICOM, WEBP
  • 기타 사무실 형식: ODT, OTT, OTS, ODS, ODP, OTP, ODG

기타 형식

  • 편물: HTML, MHTML
  • 아카이브: ZIP, TAR, 7Z
  • 전자책: CHM, EPUB, FB2, MOBI

GroupDocs.Parser 기능

PDF, Office 문서 및 이미지에서 데이터를 신속하고 정확하게 추출합니다.

Feature icon

텍스트 추출

쉽게 읽고 분석할 수 있도록 사무용 문서, PDF 파일, 이미지 등 다양한 파일 형식에서 텍스트 정보를 추출합니다.

Feature icon

이미지 추출

편리한 액세스 및 사용을 위해 사무실 문서, PDF 파일과 같은 다양한 소스에서 시각적 콘텐츠를 검색합니다.

Feature icon

QR 코드 스캔

효율적인 정보 검색을 위해 사무실 문서, PDF 파일 또는 시각적 콘텐츠 내에 있는 QR 코드를 감지하고 디코딩합니다.

Feature icon

이메일 첨부 파일 및 아카이브에서 데이터 추출

효과적인 분석과 활용을 위해 이메일 메시지, 첨부 파일, 압축 데이터 소스에서 귀중한 정보를 수집하세요.

Feature icon

테이블 추출

체계적인 분석 및 사용을 위해 PDF 문서에서 표 형식 데이터를 식별하고 추출합니다.

Feature icon

하이퍼링크 추출

효율적인 액세스를 위해 사무실 문서 또는 PDF 파일 내에서 하이퍼링크와 이메일 주소를 찾아 추출합니다.

Feature icon

PDF 양식 구문 분석

PDF 양식은 사용자 상호작용을 위해 입력 가능한 필드가 포함된 디지털 문서로, 정보를 전자적으로 입력할 수 있습니다. Java 효율적인 처리를 위해 API를 활용하여 이러한 양식에서 데이터를 추출할 수 있습니다.

Feature icon

템플릿으로 데이터 구문 분석

맞춤 템플릿을 만들고 이를 Java API로 활용하여 PDF 파일의 특정 정보를 구문 분석하여 데이터 추출 프로세스를 단순화합니다.

Feature icon

문서에서 텍스트 검색

문서 내에서 특정 단어나 패턴을 빠르게 찾습니다.

코드 샘플

일반적인 GroupDocs.Parser for Java 작업의 일부 사용 사례

PDF 문서에서 이미지 추출

Java API를 사용하면 Java 개발자가 몇 가지 간단한 단계를 구현하여 문서에서 이미지를 쉽게 추출할 수 있습니다.

Java의 PDF 문서에서 이미지를 추출합니다.

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // Extract images
    Iterable<PageImageArea> images = parser.getImages();
    // Check if images extraction is supported
    if (images != null) {
        int imageIndex = 0;
        // Iterate over images
        for (PageImageArea image : images) {
            // Save the image to the file
            image.save(String.format("%s%s", imageIndex, image.getFileType().getExtension()));
        }
    }
}

이미지에서 바코드 추출

Java API를 사용하면 Java 개발자가 몇 가지 간단한 단계를 구현하여 문서에서 바코드를 쉽게 추출할 수 있습니다.

이미지에서 바코드 추출

// Create an instance of Parser class
try (Parser parser = new Parser(fileName)) {
    // // Check if the file supports barcode extracting
    if (!parser.getFeatures().isBarcodes()) {
        // Extract barcodes from the file.
        Iterable<PageBarcodeArea> barcodes = parser.getBarcodes();
        // Iterate over barcodes
        for (PageBarcodeArea barcode : barcodes) {
            // Print the page index
            System.out.println("Page: " + barcode.getPage().getIndex());
            // Print the barcode value
            System.out.println("Value: " + barcode.getValue());
        }
    }
}

임시 라이센스 팁

1
직장 이메일로 가입하세요. 무료 메일 서비스는 허용되지 않습니다.
2
두 번째 단계에서 임시 라이센스 받기 버튼을 사용하세요.
 한국인