Ako odstrániť text zo súborov PDF pomocou regulárnych výrazov a Java

GroupDocs.Redactions Java API umožňuje redigovať, skrývať alebo odstraňovať citlivý text z dokumentov na spracovanie textu, pracovných hárkov, prezentácií, PDFs a obrázkov pomocou regulárnych výrazov.


Stiahnite si bezplatnú skúšobnú verziu

Čo je dezinfekcia textu?

Úprava textu alebo dezinfekcia je proces odstránenia dôverného alebo nechceného textu alebo informácií z digitálnych dokumentov, pričom zvyšok dokumentu alebo odseku, ktorý ho obsahuje, sa ponechá nedotknutý. Redakcia pomáha používateľom, ako aj organizácii chrániť ich citlivé informácie ich skrytím alebo trvalým odstránením. Používatelia rozhrania API GroupDocs.Redaction Java teraz môžu upravovať, skrývať alebo odstraňovať citlivý text z dokumentov na spracovanie textu, pracovných hárkov, prezentácií, PDF a súborov rastrových obrázkov. Rozhranie API poskytuje širokú škálu možností a metód na úpravu súkromných informácií v dokumentoch. Podporuje vyhľadávanie a redigovanie pomocou regulárnych výrazov, používanie textových (kódy výnimiek) alebo grafických (farebné obdĺžniky) redigovania a mnohé ďalšie. Prečo to teda neskúsiť a nezautomatizovať proces úpravy dokumentov stiahnutím rozhrania API a preskúmaním jeho základných a pokročilých funkcií.

Upravte PDF pomocou regulárnych výrazov v Java

GroupDocs.Redaction umožňuje jednoducho odstrániť údaje citlivého alebo súkromného charakteru z vašich dokumentov. Najpopulárnejším prípadom redigovania je odstránenie textu z dokumentu.

Nasledujúci kód možno použiť na aplikáciu textovej úpravy na konkrétnu časť dokumentu pomocou regulárneho výrazu. Umožňuje používateľom nahradiť všetky čísla zodpovedajúce vzoru „AA BB CCCCCC“ modrým obdĺžnikom,

Odstrániť citlivé údaje z PDF

  • Vytvorte inštanciu triedy Redactor a nahrajte súbor PDF
  • Vytvorte inštanciu triedy RegexRedaction
  • Zavolajte metódu redactor.apply s objektom triedy RegexRedaction
  • Na uloženie zmien zavolajte metódu redactor.save


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Požiadavky na systém

GroupDocs.Redaction for Java Rozhrania API sú podporované na všetkých hlavných platformách a operačných systémoch. Kompletnú príručku systémových požiadaviek nájdete na stránke systémové požiadavky Pred spustením nižšie uvedeného kódu sa uistite, že máte vo svojom systéme nainštalované nasledujúce predpoklady :

  • Operačné systémy: Microsoft Windows, Linux, MacOS
  • Vývojové prostredie: NetBeans, Intellij IDEA, Eclipse atď
  • Java Runtime prostredie: J2SE 6.0 a vyššie
  • Získajte najnovšiu verziu aplikácie GroupDocs.Redaction for Java od Maven

Prečo používať GroupDocs.Redaction

  • Umožnite používateľom pridávať vlastné formáty dokumentov a typy úprav
  • Na odstránenie citlivých informácií nie je potrebný žiadny ďalší softvér
  • Možnosť nastaviť vykresľovací dokument rozsahu strán ako PDF
  • Jednoduchý spôsob úpravy rôznych typov metadát: meno autora, verzia, názov, predmet, popis a mnoho ďalších
  • Extrakcia informácií o dokumente – typ súboru, počet strán atď.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Populárny Redukcia možnosti

Redact CSV Súbory

(Comma Seperated Values)

Redact DOC Súbory

(Microsoft Word Binary Format)

Redact DOCM Súbory

(Microsoft Word 2007 Marco File)

Redact DOCX Súbory

(Office 2007+ Word Document)

Redact DOT Súbory

(Microsoft Word Template Files)

Redact DOTM Súbory

(Microsoft Word 2007+ Template File)

Redact DOTX Súbory

(Microsoft Word Template File )

Redact POT Súbory

(Microsoft PowerPoint Template Files)

Redact POTM Súbory

(Microsoft PowerPoint Template File)

Redact PPS Súbory

(PowerPoint Slide Show)

Redact PPSM Súbory

(Macro-enabled Slide Show)

Redact PPSX Súbory

(PowerPoint Slide Show)

Redact PPT Súbory

(Microsoft PowerPoint 97-2003)

Redact PPTM Súbory

(Macro-enabled Presentation File)

Redact PPTX Súbory

(Open XML presentation Format)

Redact RTF Súbory

(Rich Text Format)

Redact XLS Súbory

(Microsoft Excel Spreadsheet (Legacy))

Redact XLSM Súbory

(Macro-enabled Spreadsheet)

Redact XLSX Súbory

(Open XML Workbook)

Redact XLT Súbory

(Excel 97 - 2003 Template)

Redact XLTM Súbory

(Excel Macro-Enabled Template)

Redact XLTX Súbory

(Excel Template)

Back to top
 Slovenčina