Eliminar los metadatos de un PDF es el proceso de limpiar la información oculta que viene integrada dentro del archivo: cosas como el nombre del autor, el software utilizado para crearlo, el historial de revisiones e incluso coordenadas GPS en algunos casos. La mayoría de las personas comparten PDFs sin darse cuenta de que todos esos datos viajan con el archivo, revelando detalles que nunca tuvieron intención de compartir. Ya seas un abogado enviando un contrato, un periodista protegiendo una fuente, o simplemente alguien que valora su privacidad, saber cómo limpiar los metadatos de un PDF es una habilidad práctica que vale la pena tener.
Tabla de contenidos
¿Qué son los metadatos de un PDF?
Un archivo PDF no es solo las páginas que ves. Dentro de la estructura del archivo, la especificación PDF de Adobe define dos lugares distintos donde pueden almacenarse los metadatos:
- Document Information Dictionary - un almacén de clave-valor heredado que existe desde PDF 1.0. Contiene campos como Author, Title, Subject, Keywords, Creator, Producer, CreationDate y ModDate.
- XMP (Extensible Metadata Platform) - un paquete más moderno basado en XML, introducido por Adobe, que puede almacenar información mucho más detallada, incluyendo propiedades personalizadas definidas por software de terceros.
Ambos pueden coexistir en el mismo archivo y no siempre coinciden entre sí. Algunas herramientas solo limpian uno de los dos, dejando el otro intacto - por eso una limpieza superficial puede dejar datos sensibles sin eliminar.
¿Qué datos ocultos quedan expuestos?
A continuación, un desglose realista de lo que puedes encontrar oculto en un PDF, dependiendo de cómo fue creado:
| Campo de metadatos | Qué revela | Dónde se almacena |
|---|---|---|
| Author | El nombre registrado en el software - frecuentemente el nombre completo de una persona real o un usuario corporativo | Info Dictionary + XMP |
| Creator / Producer | La aplicación que generó el archivo (por ejemplo, "Microsoft Word 2019", "Adobe Acrobat Pro DC 2023") | Info Dictionary + XMP |
| Creation Date / Mod Date | Marcas de tiempo exactas, a veces incluyendo la zona horaria, que pueden contradecir las fechas declaradas en el documento | Info Dictionary + XMP |
| Revision History | Cuántas veces fue guardado y editado el documento | XMP (namespace xmpMM) |
| Document ID | Un identificador único que puede vincular múltiples versiones del mismo documento | XMP |
| Propiedades personalizadas | Nombre de la empresa, departamento, estado legal, etiquetas internas - añadidas por Word, SharePoint o software legal | Info Dictionary + XMP |
| Fuentes e recursos embebidos | Nombres de fuentes tipográficas que pueden revelar branding interno o software propietario | Diccionario de recursos del PDF |
Riesgos reales de los datos ocultos en PDFs
Esto no es un problema teórico. Existen casos bien documentados donde los datos ocultos en PDFs causaron daños serios:
- El dossier de Iraq de Tony Blair (2003) - Un PDF del gobierno del Reino Unido publicado para justificar la guerra de Iraq tenía cambios rastreados y nombres de autores aún embebidos. Los periodistas extrajeron los nombres de los funcionarios que redactaron el documento, lo que generó un significativo escándalo político.
- Expedientes judiciales - Despachos de abogados han presentado documentos accidentalmente con comentarios de la parte contraria, cambios rastreados o notas internas aún embebidas en el PDF.
- Periodismo - Una fuente que filtra un documento puede ser identificada si el campo Author del PDF o el Document ID se vincula a sus credenciales de acceso.
- Licitaciones y contratación pública - Empresas han revelado su estructura de costos internos a través de campos de metadatos personalizados añadidos por su software de contabilidad antes de enviar documentos de licitación.
Cómo eliminar los metadatos de un PDF
Existen varias formas prácticas de limpiar los metadatos de un PDF, cada una con sus propias ventajas y limitaciones.
Opción 1: Adobe Acrobat Pro (Windows / Mac)
Es la opción de escritorio más completa para quienes ya tienen Acrobat Pro.
- Abre el PDF en Acrobat Pro.
- Ve a Herramientas > Redactar > Sanear documento - esto elimina metadatos, contenido embebido, scripts y capas ocultas en un solo paso.
- Alternativamente, ve a Archivo > Propiedades > Descripción para limpiar campos individuales manualmente, pero ten en cuenta que esto solo afecta al Info Dictionary, no al XMP.
Opción 2: ExifTool (gratuito, línea de comandos)
ExifTool de Phil Harvey es el estándar de referencia para manipular metadatos en decenas de tipos de archivo, incluidos los PDFs. Es gratuito y funciona en Windows, Mac y Linux.
Para eliminar todos los metadatos de un PDF:
exiftool -all= yourfile.pdf
Para eliminar los metadatos y guardar una copia limpia (conservando el original):
exiftool -all= -o cleanfile.pdf yourfile.pdf
ExifTool elimina tanto el Info Dictionary como el paquete XMP. Sin embargo, no elimina fuentes embebidas, capas ocultas ni comentarios - para eso necesitas la función Sanear de Acrobat o un sanitizador de PDF dedicado.
Opción 3: Imprimir a PDF (rápido y sencillo)
Abrir el PDF e imprimirlo a un nuevo PDF usando la impresora PDF integrada del sistema operativo (Imprimir a PDF en Windows, Guardar como PDF en macOS) elimina la mayoría de los metadatos, ya que esencialmente vuelve a renderizar el documento. La desventaja es que puede aplanar elementos interactivos, perder marcadores y a veces reducir la calidad. Es una solución válida para documentos de texto simples, pero no para formularios complejos o gráficos con capas.
Opción 4: Python con pikepdf (para desarrolladores)
Si necesitas procesar PDFs de forma programática, pikepdf es una librería Python limpia construida sobre QPDF que te da control preciso sobre los metadatos.
import pikepdf
with pikepdf.open("input.pdf") as pdf:
with pdf.open_metadata() as meta:
meta.clear()
del pdf.docinfo # clears the Info Dictionary
pdf.save("output_clean.pdf")
Opción 5: Usar una herramienta en línea como PDFDeal
Si prefieres no instalar software ni escribir código, una herramienta en línea es la opción más rápida. PDFDeal te permite subir un PDF, limpiar sus metadatos y descargar el archivo resultante directamente desde el navegador. Sin instalación, lo que lo convierte en una opción cómoda para archivos puntuales o cuando trabajas en un equipo donde no puedes instalar software.
Ten en cuenta que subir documentos sensibles a cualquier servicio de terceros conlleva sus propias consideraciones de privacidad. Para archivos altamente confidenciales, una herramienta local como ExifTool o Acrobat Pro es la opción más segura.
Cómo verificar que los metadatos se eliminaron
Después de limpiar los metadatos del PDF, verifica siempre el resultado antes de compartir el archivo. Asumir que la limpieza funcionó es precisamente cómo ocurren las filtraciones.
-
ExifTool
- Ejecuta
exiftool cleanfile.pdfy revisa la salida. Deberías ver solo campos estructurales básicos (tamaño del archivo, versión del PDF), no datos personales. - Adobe Acrobat Reader (gratuito) - Ve a Archivo > Propiedades y revisa las pestañas Descripción y Personalizado.
- Visores de metadatos en línea - Varias herramientas gratuitas te permiten subir un PDF y ver sus metadatos en bruto. Útil para una comprobación rápida sin instalar nada.
Elimina los metadatos de tu PDF al instante - sin instalar nada
Sube tu PDF y elimina todos los datos ocultos en segundos. Limpia nombres de autor, marcas de tiempo, historial de revisiones y propiedades personalizadas antes de compartir cualquier archivo.
Prueba nuestra herramienta gratuita →
No de forma fiable. Al convertir a Word, los metadatos originales del PDF suelen importarse a las propiedades del documento de Word, y al volver a exportar a PDF pueden reembeberse, a veces con campos adicionales propios de Word, como el nombre de la empresa vinculado a tu licencia de Office. Es mejor usar una herramienta dedicada para eliminar metadatos o ExifTool directamente sobre el PDF.
No - resuelven problemas distintos. La redacción elimina texto o imágenes visibles del contenido de la página (como tachar un nombre en un contrato). La eliminación de metadatos limpia los datos invisibles almacenados en la estructura del archivo. Un documento correctamente redactado puede seguir exponiendo el nombre del autor a través de los metadatos, por lo que ambos pasos suelen ser necesarios juntos.
Sí. El campo Creator registra la aplicación original (como "Microsoft Word"), mientras que el campo Producer registra qué la convirtió a PDF. El campo Author suele transferirse desde el usuario registrado en el documento de origen. Combinado con las marcas de tiempo, esto puede construir una imagen bastante detallada de quién creó y modificó el archivo, incluso a través de conversiones de formato.
No. La protección estándar con contraseña en PDF cifra el contenido de las páginas, pero deja el diccionario de metadatos accesible. Herramientas como ExifTool pueden leer y mostrar los metadatos de un PDF protegido con contraseña sin necesitar esa contraseña. Si el objetivo es la privacidad, debes eliminar los metadatos por separado, antes o después de añadir cualquier protección con contraseña.
En algunas jurisdicciones, sí. Bajo el RGPD en la UE, los datos personales embebidos en un documento (como el nombre del autor) están sujetos a los principios de minimización de datos cuando se comparte con terceros. Varios colegios de abogados también tienen normas de conducta profesional que exigen a los abogados limpiar los metadatos de los documentos antes de enviarlos a la parte contraria o a los tribunales.