Cómo eliminar texto de archivos DOC usando expresiones regulares y Java

La API de GroupDocs.Redaction Java permite redactar, ocultar o eliminar texto confidencial de documentos de procesamiento de texto, hojas de trabajo, presentaciones, PDF e imágenes mediante expresiones regulares.


Descargue prueba gratis

¿Qué es la desinfección de texto?

La redacción o desinfección de texto es el proceso de eliminar el texto o la información confidencial o no deseada de los documentos digitales y dejar intacto el resto del documento o párrafo que lo contiene. La redacción ayuda a los usuarios, así como a la organización, a proteger su información confidencial ocultándola o eliminándola de forma permanente. Usando la API GroupDocs.Redaction Java, los usuarios ahora pueden redactar, ocultar o eliminar texto confidencial de documentos de procesamiento de texto, hojas de trabajo, presentaciones, PDF y archivos de imágenes rasterizadas. La API proporciona una amplia gama de opciones y métodos para la redacción de información privada en los documentos. Admite la búsqueda y la redacción mediante expresiones regulares, el uso de redacciones textuales (códigos de exención) o gráficas (rectángulos de colores) y mucho más. Entonces, ¿por qué no probarlo y automatizar el proceso de redacción de documentos descargando la API y explorando sus funciones básicas y avanzadas?

Redactar DOC usando expresiones regulares en Java

GroupDocs.Redaction permite redactar fácilmente datos de naturaleza confidencial o privada de sus documentos. El caso de redacción más popular es eliminar un texto de un documento.

El siguiente código se puede usar para aplicar redacción textual a una parte particular de un documento usando una expresión regular. Permite a los usuarios reemplazar todos los números, haciendo coincidir el patrón “AA BB CCCCCC” con un rectángulo de color azul,

Eliminar datos confidenciales de DOC

  • Cree una instancia de la clase Redactor y cargue el archivo DOC
  • Cree una instancia de la clase RegexRedaction
  • Llame al método redactor.apply con el objeto de la clase RegexRedaction
  • Llame al método redactor.save para guardar los cambios


// For complete examples and data files, please go to https://github.com/groupdocs-search/GroupDocs.Redaction-for-Java
//Load document
Document doc = Redactor.load(Utilities.mapSourceFilePath(FilePath));
// Perform regular expression redaction
doc.redactWith(new RegexRedaction("\\d{2}\\s*\\d{2}[^\\d]*\\d{6}", new ReplacementOptions(java.awt.Color.BLUE)));
// Save the document in original format and overwriting original file
SaveOptions so = new SaveOptions();
so.setAddSuffix(false);
so.setRasterizeToPDF(false);
doc.save(so);
doc.close();

Requisitos del sistema

GroupDocs.Redaction for Java Las API son compatibles con las principales plataformas y sistemas operativos. Para obtener una guía completa de requisitos del sistema, visite [requisitos del sistema] (https://docs.groupdocs.com/redaction/java/system-requirements) Antes de ejecutar el código a continuación, asegúrese de tener los siguientes requisitos previos instalados en su sistema :

  • Sistemas operativos: Microsoft Windows, Linux, MacOS
  • Entorno de desarrollo: NetBeans, Intellij IDEA, Eclipse, etc.
  • Java Entorno de tiempo de ejecución: J2SE 6.0 y superior
  • Obtenga la última versión de GroupDocs.Redaction for Java de Maven

Por qué usar GroupDocs.Redaction

  • Permita que los usuarios agreguen formatos de documentos personalizados y tipos de redacciones
  • No se requiere software adicional para eliminar información confidencial
  • Capacidad para configurar el documento de representación de rango de página como PDF
  • Manera fácil de redactar diferentes tipos de metadatos: nombre del autor, versión, título, tema, descripción y muchos más
  • Extracción de información del documento: tipo de archivo, número de páginas, etc.


What is DOC File Format?

Files with .doc extension represent documents generated by Microsoft Word or other word processing documents in binary file format. The extension was initially used for plain text documentation on several different operating systems. It can contain several different types of data such as images, formatted as well as plain text, graphs, charts, embedded objects, links, pages, page formatting, print settings and a lot others.

Read More

Popular Redacción Opcion

Redactar CSV Archivos

(Comma Seperated Values)

Redactar DOCM Archivos

(Microsoft Word 2007 Marco File)

Redactar DOCX Archivos

(Office 2007+ Word Document)

Redactar DOT Archivos

(Microsoft Word Template Files)

Redactar DOTM Archivos

(Microsoft Word 2007+ Template File)

Redactar DOTX Archivos

(Microsoft Word Template File )

Redactar PDF Archivos

(Portable Document Format)

Redactar POT Archivos

(Microsoft PowerPoint Template Files)

Redactar POTM Archivos

(Microsoft PowerPoint Template File)

Redactar PPS Archivos

(PowerPoint Slide Show)

Redactar PPSM Archivos

(Macro-enabled Slide Show)

Redactar PPSX Archivos

(PowerPoint Slide Show)

Redactar PPT Archivos

(Microsoft PowerPoint 97-2003)

Redactar PPTM Archivos

(Macro-enabled Presentation File)

Redactar PPTX Archivos

(Open XML presentation Format)

Redactar RTF Archivos

(Rich Text Format)

Redactar XLS Archivos

(Microsoft Excel Spreadsheet (Legacy))

Redactar XLSM Archivos

(Macro-enabled Spreadsheet)

Redactar XLSX Archivos

(Open XML Workbook)

Redactar XLT Archivos

(Excel 97 - 2003 Template)

Redactar XLTM Archivos

(Excel Macro-Enabled Template)

Redactar XLTX Archivos

(Excel Template)

Back to top
 Español