Comment supprimer du texte de fichiers PDF à l’aide d’expressions régulières et de Java

L’API GroupDocs.Redaction de Java permet de caviarder, de masquer ou de supprimer le texte sensible des documents de traitement de texte, des feuilles de calcul, des présentations, des PDF et des images à l’aide d’expressions régulières.


Télécharger la version d'essai gratuite

Qu'est-ce que la désinfection de texte ?

La rédaction ou la désinfection de texte est le processus de suppression du texte ou des informations confidentiels ou indésirables des documents numériques tout en laissant intact le reste du document ou du paragraphe le contenant. La rédaction aide les utilisateurs ainsi que l’organisation à protéger leurs informations sensibles en les masquant ou en les supprimant définitivement. À l’aide de l’API GroupDocs.Redaction Java, les utilisateurs peuvent désormais biffer, masquer ou supprimer le texte sensible des documents de traitement de texte, des feuilles de calcul, des présentations, PDF et des fichiers image raster. L’API fournit un large éventail d’options et de méthodes pour la suppression des informations privées dans les documents. Il prend en charge la recherche et la rédaction à l’aide d’expressions régulières, l’utilisation de rédactions textuelles (codes d’exemption) ou graphiques (rectangles colorés) et bien d’autres. Alors pourquoi ne pas essayer et automatiser votre processus de rédaction de documents en téléchargeant l’API et en explorant ses fonctionnalités de base et avancées.

Caviardez PDF à l’aide d’expressions régulières dans Java

GroupDocs.Redaction permet de supprimer facilement des données de nature sensible ou privée de vos documents. Le cas de rédaction le plus courant consiste à supprimer un texte d’un document.

Le code suivant peut être utilisé pour appliquer une rédaction textuelle à une partie particulière d’un document à l’aide d’une expression régulière. Il permet aux utilisateurs de remplacer tous les chiffres, en faisant correspondre le motif “AA BB CCCCCC” avec un rectangle de couleur bleue,

Supprimer les données sensibles de PDF

  • Créez une instance de la classe Redactor et chargez le fichier PDF
  • Créez une instance de la classe RegexRedaction
  • Appelez la méthode redactor.apply avec l’objet de la classe RegexRedaction
  • Appelez la méthode redactor.save pour enregistrer les modifications


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Configuration requise

GroupDocs.Redaction for Java Les API sont prises en charge sur toutes les principales plates-formes et systèmes d’exploitation. Pour un guide complet de la configuration système requise, veuillez visiter configuration système Avant d’exécuter le code ci-dessous, assurez-vous que les prérequis suivants sont installés sur votre système :

  • Systèmes d’exploitation : Microsoft Windows, Linux, MacOS
  • Environnement de développement : NetBeans, Intellij IDEA, Eclipse, etc.
  • Java Environnement d’exécution : J2SE 6.0 et supérieur
  • Obtenez la dernière version de GroupDocs.Redaction for Java auprès de Maven

Pourquoi utiliser GroupDocs.Redaction

  • Autoriser les utilisateurs à ajouter des formats de document personnalisés et des types de caviardage
  • Aucun logiciel supplémentaire n’est requis pour supprimer les informations sensibles
  • Possibilité de définir le document de rendu de plage de pages comme PDF
  • Un moyen facile de rédiger différents types de métadonnées : nom de l’auteur, version, titre, sujet, description et bien d’autres
  • Extraction d’informations sur les documents - type de fichier, nombre de pages, etc.


What is PDF File Format?

Portable Document Format (PDF) is a type of document created by Adobe back in 1990s. The purpose of this file format was to introduce a standard for representation of documents and other reference material in a format that is independent of application software, hardware as well as Operating System. PDF files can be opened in Adobe Acrobat Reader/Writer as well in most modern browsers like Chrome, Safari, Firefox via extensions/plug-ins. Most of the commercially available software suites also offer conversion of their documents to PDF file format without the requirement of any additional software component.

Read More

Populaire Redaction Choix

Changer CSV Des dossiers

(Comma Seperated Values)

Changer DOC Des dossiers

(Microsoft Word Binary Format)

Changer DOCM Des dossiers

(Microsoft Word 2007 Marco File)

Changer DOCX Des dossiers

(Office 2007+ Word Document)

Changer DOT Des dossiers

(Microsoft Word Template Files)

Changer DOTM Des dossiers

(Microsoft Word 2007+ Template File)

Changer DOTX Des dossiers

(Microsoft Word Template File )

Changer POT Des dossiers

(Microsoft PowerPoint Template Files)

Changer POTM Des dossiers

(Microsoft PowerPoint Template File)

Changer PPS Des dossiers

(PowerPoint Slide Show)

Changer PPSM Des dossiers

(Macro-enabled Slide Show)

Changer PPSX Des dossiers

(PowerPoint Slide Show)

Changer PPT Des dossiers

(Microsoft PowerPoint 97-2003)

Changer PPTM Des dossiers

(Macro-enabled Presentation File)

Changer PPTX Des dossiers

(Open XML presentation Format)

Changer RTF Des dossiers

(Rich Text Format)

Changer XLS Des dossiers

(Microsoft Excel Spreadsheet (Legacy))

Changer XLSM Des dossiers

(Macro-enabled Spreadsheet)

Changer XLSX Des dossiers

(Open XML Workbook)

Changer XLT Des dossiers

(Excel 97 - 2003 Template)

Changer XLTM Des dossiers

(Excel Macro-Enabled Template)

Back to top
 Français