Kako odstraniti besedilo iz datotek PDF z uporabo regularnih izrazov in Java

GroupDocs.Redactions Java API omogoča urejanje, skrivanje ali odstranjevanje občutljivega besedila iz dokumentov za obdelavo besedil, delovnih listov, predstavitev, PDFs in slik z uporabo regularnih izrazov.


Prenesite brezplačno preizkusno različico

Kaj je čiščenje besedila?

Redakcija ali čiščenje besedila je postopek odstranjevanja zaupnega ali neželenega besedila ali informacij iz digitalnih dokumentov, pri čemer ostane nedotaknjen preostanek dokumenta ali odstavka, ki ga vsebuje. Redakcija pomaga uporabnikom in organizacijam zaščititi njihove občutljive podatke tako, da jih skrijejo ali trajno odstranijo. Z uporabo GroupDocs.Redaction Java API-ja lahko uporabniki zdaj urejajo, skrivajo ali odstranjujejo občutljivo besedilo iz dokumentov za obdelavo besedil, delovnih listov, predstavitev PDF in rastrskih slikovnih datotek. API ponuja široko paleto možnosti in metod za urejanje zasebnih informacij v dokumentih. Podpira iskanje in urejanje z uporabo regularnih izrazov, uporabo besedilnih (kode izjem) ali grafičnih (obarvani pravokotniki) redigiranja in še veliko več. Zakaj torej ne bi poskusili in avtomatizirali svojega postopka urejanja dokumentov tako, da prenesete API in raziščete njegove osnovne in napredne funkcije.

Uredi PDF z uporabo regularnih izrazov v Java

GroupDocs.Redaction omogoča enostavno urejanje podatkov občutljive ali zasebne narave iz vaših dokumentov. Najbolj priljubljen primer redigiranja je odstranitev besedila iz dokumenta.

Naslednjo kodo je mogoče uporabiti za uporabo redigiranja besedila v določenem delu dokumenta z uporabo regularnega izraza. Uporabnikom omogoča zamenjavo vseh številk, ki se ujemajo z vzorcem “AA BB CCCCCC” s pravokotnikom modre barve,

Odstrani občutljive podatke iz PDF

  • Ustvarite primerek razreda Redactor in naložite datoteko PDF
  • Ustvarite primerek razreda RegexRedaction
  • Pokličite metodo redactor.apply z objektom razreda RegexRedaction
  • Pokličite metodo redactor.save, da shranite spremembe


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Sistemske zahteve

GroupDocs.Redaction for Java API-ji so podprti na vseh glavnih platformah in operacijskih sistemih. Za celoten vodnik po sistemskih zahtevah obiščite sistemske zahteve Preden izvedete spodnjo kodo, se prepričajte, da imate v sistemu nameščene naslednje predpogoje :

  • Operacijski sistemi: Microsoft Windows, Linux, MacOS
  • Razvojno okolje: NetBeans, Intellij IDEA, Eclipse itd
  • Java Izvajalno okolje: J2SE 6.0 in novejši
  • Prenesite najnovejšo različico GroupDocs.Redaction for Java pri Maven

Zakaj uporabljati GroupDocs.Redaction

  • Omogočite uporabnikom, da dodajo oblike dokumentov po meri in vrste redigiranja
  • Za odstranitev občutljivih informacij ni potrebna dodatna programska oprema
  • Možnost nastavitve dokumenta upodabljanja obsega strani kot PDF
  • Enostaven način urejanja različnih vrst metapodatkov: ime avtorja, različica, naslov, zadeva, opis in še veliko več
  • Ekstrakcija informacij o dokumentu - vrsta datoteke, število strani itd.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Priljubljen Redakcija Opcije

Redact CSV Datoteke

(Comma Seperated Values)

Redact DOC Datoteke

(Microsoft Word Binary Format)

Redact DOCM Datoteke

(Microsoft Word 2007 Marco File)

Redact DOCX Datoteke

(Office 2007+ Word Document)

Redact DOT Datoteke

(Microsoft Word Template Files)

Redact DOTM Datoteke

(Microsoft Word 2007+ Template File)

Redact DOTX Datoteke

(Microsoft Word Template File )

Redact POT Datoteke

(Microsoft PowerPoint Template Files)

Redact POTM Datoteke

(Microsoft PowerPoint Template File)

Redact PPS Datoteke

(PowerPoint Slide Show)

Redact PPSM Datoteke

(Macro-enabled Slide Show)

Redact PPSX Datoteke

(PowerPoint Slide Show)

Redact PPT Datoteke

(Microsoft PowerPoint 97-2003)

Redact PPTM Datoteke

(Macro-enabled Presentation File)

Redact PPTX Datoteke

(Open XML presentation Format)

Redact RTF Datoteke

(Rich Text Format)

Redact XLS Datoteke

(Microsoft Excel Spreadsheet (Legacy))

Redact XLSM Datoteke

(Macro-enabled Spreadsheet)

Redact XLSX Datoteke

(Open XML Workbook)

Redact XLT Datoteke

(Excel 97 - 2003 Template)

Redact XLTM Datoteke

(Excel Macro-Enabled Template)

Redact XLTX Datoteke

(Excel Template)

Back to top
 Slovenščina