Come rimuovere il testo dai file PDF utilizzando espressioni regolari e Java

GroupDocs.RedactionL’Java API consente di oscurare, nascondere o rimuovere testo sensibile da documenti di elaborazione testi, fogli di lavoro, presentazioni, PDFe immagini utilizzando espressioni regolari.


Scarica la versione di prova gratuita

Che cos'è la sanitizzazione del testo?

L’oscuramento o sanificazione del testo è il processo di rimozione del testo o delle informazioni riservate o indesiderate dai documenti digitali, lasciando intatto il resto del documento o paragrafo che lo contiene. La redazione aiuta gli utenti e l’organizzazione a proteggere le proprie informazioni sensibili nascondendole o rimuovendole in modo permanente. Utilizzando GroupDocs.Redaction Java gli utenti dell’API possono ora oscurare, nascondere o rimuovere testo riservato da documenti di elaborazione testi, fogli di lavoro, presentazioni, PDF e file di immagini raster. L’API fornisce un’ampia gamma di opzioni e metodi per la redazione di informazioni private nei documenti. Supporta la ricerca e la redazione utilizzando espressioni regolari, l’uso di redazioni testuali (codici di esenzione) o grafiche (rettangoli colorati) e molto altro. Allora perché non provare ad automatizzare il processo di redazione dei documenti scaricando l’API ed esplorandone le funzionalità di base e avanzate.

Oscura PDF utilizzando le espressioni regolari in Java

GroupDocs.Redaction consente di oscurare facilmente dati di natura sensibile o privata dai tuoi documenti. Il caso di redazione più popolare è rimuovere un testo da un documento.

Il seguente codice può essere utilizzato per applicare la redazione testuale a una particolare parte di un documento utilizzando un’espressione regolare. Consente agli utenti di sostituire tutti i numeri, abbinando il modello “AA BB CCCCCC” con un rettangolo di colore blu,

Rimuovi dati sensibili da PDF

  • Crea un’istanza della classe Redactor e carica il file PDF
  • Crea un’istanza della classe RegexRedaction
  • Chiama il metodo redactor.apply con l’oggetto della classe RegexRedaction
  • Chiama il metodo redactor.save per salvare le modifiche


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Requisiti di sistema

GroupDocs.Redaction for Java Le API sono supportate su tutte le principali piattaforme e sistemi operativi. Per una guida completa ai requisiti di sistema, visita requisiti di sistema Prima di eseguire il codice seguente, assicurati di avere i seguenti prerequisiti installati sul tuo sistema :

  • Sistemi operativi: Microsoft Windows, Linux, Macsistema operativo
  • Ambiente di sviluppo: NetBeans, Intellij IDEA, Eclipse ecc
  • Java Ambiente di runtime: J2SE 6.0 e versioni successive
  • Ottieni l’ultima versione di GroupDocs.Redaction for Java da Maven

Perché utilizzare GroupDocs.Redaction

  • Consenti agli utenti di aggiungere formati di documenti personalizzati e tipi di redazioni
  • Non è necessario alcun software aggiuntivo per rimuovere le informazioni sensibili
  • Possibilità di impostare il documento di rendering dell’intervallo di pagine come PDF
  • Un modo semplice per redigere diversi tipi di metadati: nome dell’autore, versione, titolo, oggetto, descrizione e molti altri
  • Estrazione delle informazioni sul documento: tipo di file, numero di pagine, ecc.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Popolare Redazione Opzioni

Redact CSV File

(Comma Seperated Values)

Redact DOC File

(Microsoft Word Binary Format)

Redact DOCM File

(Microsoft Word 2007 Marco File)

Redact DOCX File

(Office 2007+ Word Document)

Redact DOT File

(Microsoft Word Template Files)

Redact DOTM File

(Microsoft Word 2007+ Template File)

Redact DOTX File

(Microsoft Word Template File )

Redact POT File

(Microsoft PowerPoint Template Files)

Redact POTM File

(Microsoft PowerPoint Template File)

Redact PPS File

(PowerPoint Slide Show)

Redact PPSM File

(Macro-enabled Slide Show)

Redact PPSX File

(PowerPoint Slide Show)

Redact PPT File

(Microsoft PowerPoint 97-2003)

Redact PPTM File

(Macro-enabled Presentation File)

Redact PPTX File

(Open XML presentation Format)

Redact RTF File

(Rich Text Format)

Redact XLS File

(Microsoft Excel Spreadsheet (Legacy))

Redact XLSM File

(Macro-enabled Spreadsheet)

Redact XLSX File

(Open XML Workbook)

Redact XLT File

(Excel 97 - 2003 Template)

Redact XLTM File

(Excel Macro-Enabled Template)

Redact XLTX File

(Excel Template)

Back to top
 Italiano