다음은 Java용 GroupDocs.Parser의 개요입니다.
- 이미지 추출
- 원시 텍스트 추출
- 서식 있는 텍스트 추출
- 구조화된 텍스트 추출
- 메타데이터 추출
- ZIP 파일 내의 파일에서 추출
- 검색하여 추출
- 텍스트 포맷터로 추출
- 인코딩 표준 감지
- 미디어 유형 감지
- 입력 파일 가져오기
- 원시 또는 서식 있는 텍스트를 가져옵니다.
- 메타데이터 가져오기
Java용 GroupDocs.Parser는 다음 문서 파일 형식을 지원합니다.
- 텍스트: DOC, DOCX, DOT, DOTM, DOTX, DOCM, RTF, ODT, OTT, TXT, MD, WordprocessingML(XML)
- 스프레드시트: XLS, XLSX, CSV, XLSM, XLSB, ODS, SpreadsheetML(XML), XLT, XLTX, XLTM, OTS, XLA,, XLAM, TSV
- 프레젠테이션: PPT, PPTX, PPTM, PPS, PPSX, PPSM, POT, POTX, POTM, ODP, OTP
- 원노트: 하나
- 이메일: MSG, EML, EMLX, PST, OST, MS EXCHANGE SERVER, POP, IMAP
- 전자출판: EPUB, FB2
- Portable Document: PDF, PDF 포트폴리오, 암호화된 PDF
- DOM 기반: XML, HTML, XHTML, MHTML
- 압축 및 포장: ZIP, CHM
- 데이터베이스: ADO.NET
- BOM: UTF32 LE, UTF32 BE, UTF16 LE, UTF16 BE, UTF8 및 UTF7
- 내용: UTF32 LE, UTF32 BE, UTF16 LE, UTF16 BE, UTF8 및 ANSI
- 텍스트: DOC, DOCX, DOT, DOTX, DOTM, OTT, ODT
- 스프레드시트: XLS, XLSX, XLT, XLTX, XLTM, XLA, XLAM, OTS, ODS
- 프레젠테이션: PPT, PPTX, POT, POTX, POTM, PPSM, PPTM, OTP, ODP
- 이메일: MSG, EML, EMLX
- 전자출판: EPUB, FB2
- 기타: PDF
- 템플릿: DOTX, POTX
- 매크로 사용 템플릿: DOTM, POTM, PPSM, PPTM
- OpenDocument 템플릿: OTT
- 텍스트: DOC, DOCX, DOCM, RTF, DOT, DOTM, DOTX, ODT
- 스프레드시트: XLS, XLSX, XLSM, XLSB, ODS, XLT, XLTM, XLTX
- 프레젠테이션: PPT, PPTX, PPTM, ODP, POT, POTM, POTX, PPS, PPSX, PPSM
- 이동식 문서: PDF, POT, POTM, POTX
- 전자책: CHM, EPUB, FB2
- 마크업: HTML

Java용 GroupDocs.Parser는 다음 운영 체제, 프레임워크 및 패키지 관리자를 지원합니다.
- 마이크로소프트 윈도우 데스크탑
- 마이크로소프트 윈도우 서버
- 리눅스
- 맥 OS