PDF 속 숨겨진 데이터 - 메타데이터가 드러내는 것과 삭제하는 방법

PDF 메타데이터 제거 - 작성자 이름, 타임스탬프 등 숨겨진 데이터 필드가 PDF 파일에서 삭제되는 과정

PDF 메타데이터 제거란 PDF 파일 내부에 숨겨진 정보를 삭제하는 작업이에요. 작성자 이름, 사용한 소프트웨어, 수정 이력, 경우에 따라서는 GPS 좌표까지 포함될 수 있어요. 대부분의 사람들은 PDF를 공유할 때 이런 데이터가 파일과 함께 전달된다는 사실을 모르고 있어요. 계약서를 전송하는 변호사든, 취재원을 보호해야 하는 기자든, 아니면 그냥 개인정보를 소중히 여기는 일반 사용자든 - PDF에서 숨겨진 데이터를 제거하는 방법은 꼭 알아둘 만한 실용적인 기술이에요.

PDF 메타데이터란?

PDF 파일은 단순히 보이는 페이지만으로 이루어진 게 아니에요. Adobe의 PDF 사양 에 따르면 파일 구조 내에 메타데이터가 저장될 수 있는 별도의 공간이 두 곳 있어요:

  • Document Information Dictionary - PDF 1.0부터 존재해 온 레거시 키-값 저장소예요. Author, Title, Subject, Keywords, Creator, Producer, CreationDate, ModDate 같은 필드를 포함해요.
  • XMP (Extensible Metadata Platform) - Adobe가 도입한 XML 기반의 최신 메타데이터 형식으로, 서드파티 소프트웨어가 정의한 커스텀 속성을 포함해 훨씬 더 상세한 정보를 담을 수 있어요.

두 가지가 같은 파일에 동시에 존재할 수 있고, 내용이 서로 다를 수도 있어요. 일부 도구는 둘 중 하나만 삭제하고 나머지는 그대로 남겨두기 때문에, 표면적인 정리만으로는 민감한 데이터가 여전히 남아 있을 수 있어요.

실제로 어떤 숨겨진 데이터가 노출되나요?

PDF가 어떻게 만들어졌느냐에 따라 다르지만, 실제로 숨겨져 있을 수 있는 데이터를 정리하면 다음과 같아요:

메타데이터 필드 노출되는 정보 저장 위치
Author 소프트웨어에 등록된 이름 - 실제 사람의 성명이나 회사 계정명인 경우가 많아요 Info Dictionary + XMP
Creator / Producer 파일을 만든 애플리케이션 (예: "Microsoft Word 2019", "Adobe Acrobat Pro DC 2023") Info Dictionary + XMP
Creation Date / Mod Date 타임존 정보를 포함한 정확한 타임스탬프 - 문서에 기재된 날짜와 불일치할 수 있어요 Info Dictionary + XMP
수정 이력 (Revision History) 문서가 저장되고 편집된 횟수 XMP (xmpMM 네임스페이스)
문서 ID (Document ID) 동일 문서의 여러 버전을 연결할 수 있는 고유 식별자 XMP
커스텀 속성 (Custom Properties) 회사명, 부서, 법적 상태, 내부 태그 - Word, SharePoint, 법무 소프트웨어 등이 추가해요 Info Dictionary + XMP
임베디드 폰트 / 리소스 내부 브랜딩이나 전용 소프트웨어를 암시할 수 있는 폰트 이름 PDF 리소스 딕셔너리
숨겨진 텍스트 레이어: OCR이 적용된 스캔 PDF에는 화면에 표시되지 않는 숨겨진 텍스트 레이어가 포함될 수 있어요. 이는 기술적으로 메타데이터와는 다르지만, 파일을 공유하기 전에 반드시 확인해야 할 항목이에요.

PDF 숨겨진 데이터의 실제 위험 사례

이건 단순한 이론적 문제가 아니에요. PDF 숨겨진 데이터로 인해 심각한 피해가 발생한 사례가 실제로 문서화되어 있어요:

  • 토니 블레어 이라크 보고서 사건 (2003) - 이라크 전쟁을 정당화하기 위해 영국 정부가 공개한 PDF에 변경 내역 추적 기록과 작성자 이름이 그대로 남아 있었어요. 기자들이 문서를 작성한 공무원들의 이름을 추출하면서 큰 정치적 파문이 일었어요.
  • 법률 문서 제출 - 법무법인이 상대방 변호사의 의견, 변경 내역 추적 기록, 내부 메모가 그대로 포함된 문서를 실수로 제출한 사례가 있어요.
  • 저널리즘 - 문서를 유출한 제보자가 PDF의 Author 필드나 Document ID를 통해 로그인 계정으로 역추적되어 신원이 노출될 수 있어요.
  • 조달 및 입찰 - 기업이 입찰 서류를 제출하기 전에 회계 소프트웨어가 추가한 커스텀 메타데이터 필드를 통해 내부 원가 구조가 노출된 사례도 있어요.

PDF 메타데이터 제거 방법

PDF 메타데이터를 제거하는 방법은 여러 가지가 있고, 각각 장단점이 달라요.

방법 1: Adobe Acrobat Pro (Windows / Mac)

이미 Acrobat Pro를 사용하고 있다면 가장 철저하게 처리할 수 있는 데스크톱 옵션이에요.

  1. Acrobat Pro에서 PDF를 열어요.
  2. 도구 > 교정 > 문서 삭제 (Sanitize Document) 로 이동하면 메타데이터, 임베디드 콘텐츠, 스크립트, 숨겨진 레이어를 한 번에 제거해요.
  3. 또는 파일 > 속성 > 설명 에서 개별 필드를 수동으로 지울 수 있지만, 이 방법은 Info Dictionary만 처리하고 XMP는 건드리지 않아요.
Acrobat Pro의 Sanitize Document 기능은 단순히 속성을 지우는 것보다 훨씬 강력해요. JavaScript, 임베디드 미디어, 숨겨진 레이어까지 제거해 주기 때문에 깔끔하게 공유할 파일을 만들 때 적합해요.

방법 2: ExifTool (무료, 커맨드 라인)

Phil Harvey가 만든 ExifTool 은 PDF를 포함한 수십 가지 파일 형식의 메타데이터를 다루는 데 있어 사실상 표준 도구예요. 무료이며 Windows, Mac, Linux에서 모두 사용할 수 있어요.

PDF에서 모든 메타데이터를 제거하려면:

exiftool -all= yourfile.pdf

원본 파일을 유지하면서 메타데이터가 제거된 새 파일로 저장하려면:

exiftool -all= -o cleanfile.pdf yourfile.pdf

ExifTool은 Info Dictionary와 XMP 패킷을 모두 제거해요. 다만 임베디드 폰트, 숨겨진 레이어, 댓글은 제거하지 않아요. 그런 항목까지 처리하려면 Acrobat의 Sanitize 기능이나 전용 PDF 정리 도구가 필요해요.

방법 3: PDF로 인쇄 (간단하고 빠른 방법)

PDF를 열고 운영체제 내장 PDF 프린터(Windows의 PDF로 인쇄, macOS의 PDF로 저장)를 사용해 새 PDF로 출력하면 대부분의 메타데이터가 제거돼요. 문서를 다시 렌더링하는 방식이기 때문이에요. 단점은 인터랙티브 요소가 사라지거나, 북마크가 손실되거나, 화질이 떨어질 수 있다는 점이에요. 단순한 텍스트 문서에는 괜찮지만, 복잡한 양식이나 레이어가 있는 그래픽 파일에는 적합하지 않아요.

방법 4: Python과 pikepdf 사용 (개발자용)

프로그래밍 방식으로 PDF를 처리해야 한다면 pikepdf 가 좋은 선택이에요. QPDF 기반의 Python 라이브러리로 메타데이터를 세밀하게 제어할 수 있어요.

import pikepdf

with pikepdf.open("input.pdf") as pdf:
    with pdf.open_metadata() as meta:
        meta.clear()
    del pdf.docinfo  # clears the Info Dictionary
    pdf.save("output_clean.pdf")

방법 5: PDFDeal 같은 온라인 도구 사용

소프트웨어 설치나 코드 작성 없이 바로 처리하고 싶다면 온라인 도구가 가장 빠른 방법이에요. PDFDeal 을 사용하면 브라우저에서 바로 PDF를 업로드하고 메타데이터를 제거한 뒤 정리된 파일을 다운로드할 수 있어요. 별도 설치가 필요 없어서 일회성 작업이나 소프트웨어 설치가 어려운 환경에서 편리하게 쓸 수 있어요.

다만 민감한 문서를 서드파티 서비스에 업로드하는 것 자체가 개인정보 측면에서 고려해야 할 사항이에요. 기밀성이 높은 파일이라면 ExifTool이나 Acrobat Pro 같은 로컬 도구를 사용하는 게 더 안전해요.

메타데이터가 완전히 삭제됐는지 확인하는 방법

메타데이터를 제거한 후에는 파일을 공유하기 전에 반드시 결과를 확인해야 해요. 제거됐다고 가정하고 넘어가는 게 바로 정보 유출로 이어지는 지름길이에요.

  • ExifTool - exiftool cleanfile.pdf 명령을 실행하고 출력 결과를 확인해요. 파일 크기, PDF 버전 같은 기본 구조 필드만 보여야 하고 개인 정보는 없어야 해요.
  • Adobe Acrobat Reader (무료) - 파일 > 속성 으로 이동해 설명 탭과 커스텀 탭을 확인해요.
  • 온라인 메타데이터 뷰어 - PDF를 업로드하면 원시 메타데이터를 표시해 주는 무료 도구들이 있어요. 소프트웨어 설치 없이 빠르게 확인할 때 유용해요.
권장 사항: 정리가 끝난 후 PDF를 일반 뷰어로 열고 모든 페이지를 스크롤해서 확인해 보세요. 화면에 보이지 않아야 할 텍스트 - 워터마크, 댓글, 메타데이터 제거 후에도 남아 있는 주석 레이어 등이 없는지 살펴보세요.
PDF 메타데이터 제거 온라인 도구 - PDF 숨겨진 데이터 삭제

PDF 메타데이터를 즉시 제거 - 소프트웨어 설치 불필요

PDF를 업로드하면 몇 초 만에 모든 숨겨진 데이터를 제거해요. 파일을 공유하기 전에 작성자 이름, 타임스탬프, 수정 이력, 커스텀 속성을 깔끔하게 삭제하세요.

무료 도구 사용해 보기 →

신뢰할 수 있는 방법이 아니에요. Word로 변환하면 원본 PDF 메타데이터가 Word 문서 속성으로 그대로 가져와지고, 다시 PDF로 내보낼 때 재삽입될 수 있어요. 심지어 Office 라이선스에 등록된 회사명 같은 Word 고유 필드가 추가되기도 해요. 전용 메타데이터 제거 도구나 ExifTool을 PDF에 직접 사용하는 게 훨씬 나아요.

아니에요. 둘은 서로 다른 문제를 해결해요. 교정(redaction)은 계약서의 이름을 검게 지우는 것처럼 페이지에서 보이는 텍스트나 이미지를 제거하는 작업이에요. 메타데이터 제거는 파일 구조에 저장된 보이지 않는 데이터를 삭제하는 거예요. 교정이 제대로 된 문서라도 메타데이터를 통해 작성자 이름이 노출될 수 있기 때문에, 두 작업 모두 함께 진행하는 경우가 많아요.

네. Creator 필드에는 원본 애플리케이션(예: "Microsoft Word")이 기록되고, Producer 필드에는 PDF로 변환한 소프트웨어가 기록돼요. Author 필드는 원본 문서의 등록된 사용자 정보를 그대로 가져오는 경우가 많아요. 타임스탬프와 함께 분석하면 형식 변환을 거쳤더라도 파일을 만들고 수정한 사람에 대한 상당히 자세한 정보를 파악할 수 있어요.

아니에요. 표준 PDF 비밀번호 보호는 페이지 콘텐츠를 암호화하지만 메타데이터 딕셔너리는 그대로 접근 가능한 상태로 남아요. ExifTool 같은 도구는 비밀번호 없이도 비밀번호로 보호된 PDF의 메타데이터를 읽고 표시할 수 있어요. 개인정보 보호가 목적이라면 비밀번호 설정과는 별도로 메타데이터를 먼저 제거해야 해요.

일부 지역에서는 그래요. EU의 GDPR에 따르면 문서에 포함된 개인 데이터(예: 작성자 이름)는 제3자와 공유할 때 데이터 최소화 원칙이 적용돼요. 또한 여러 변호사 협회에서는 상대방 변호인이나 법원에 문서를 제출하기 전에 메타데이터를 제거하도록 요구하는 직업 윤리 규정을 두고 있어요.