Limpar Informações do PDF

Tive um probleminha ao transformar alguns DOC para PDF recentemente… Como precisei verificar os dados dos arquivos, acabei gerando um a um com o LibreOffice Write mesmo. Só que depois de converter todos os PDF (cerca de 100), percebi que no título quando abre com o Adobe Reader aparece a descrição que vem do arquivo DOC. Provavelmente alguma informações a mais pode aparecer também, como o Autor e outros. Aí me perguntei como tirar?

A resposta veio com um antigo script que criei para remover senha dos PDF da Linux Magazine para ler no tablet ;-P

#!/bin/bash
(…)
nome_ps=$( echo $lista | awk -F ‘[/.]’ ‘{print $(NF-1)”.ps”}’ )
pdftops -upw $senha $lista && ps2pdf $nome_ps && rm $nome_ps && echo “OK” || echo “FALHOU”
(..)

Onde a variável $lista é um laço for com um ls nos pdf da pasta 😛

As ferramentas usadas são pdftops e ps2pdf, que podem ser instaladas com apt-get:

pdftops: sudo apt-get install poppler-utils
ps2pdf: sudo apt-get install ghostscript

O pdftops é uma ferramenta para converter PDF(Portable Document Format) em PS (PostScript)

Pdftops reads the PDF file, PDF-file, and writes a PostScript file, PS-file. If PS-file is not specified, pdftops converts file.pdf to file.ps (or file.eps with the -eps option). If PS-file is ´-‘, the PostScript is sent to stdout.
Fonte: man

Resumindo: O pdftops le o arquivo PDF e grava em um arquivo PS, como fosse imprimir. No caso, informações como Assunto, Autor, Descrição e outras são eliminadas no arquivo PS.

Basicamente o que eu fiz foi tirar a opção -upw do pdftops (que é utilizado para especificar a senha de usuário do arquivo PDF), e converti tudo em PS. Em seguinda usei o ps2pdf, que converte os arquivos PS em PDF usando o ghostscript.

A variável $nome_ps serve somente para transformar o final .PS em .PDF

Resumindo tudo:

pdftops <arquivo_pdf> – Gera um arquivo .PS com mesmo nome do .PDF (exemplo: “pdftops file.pdf” vai gerar um arquivo file.ps)

ps2pdf <arquivo_ps> – Gera o arquivo PDF a partir do PS (exemplo: “ps2pdf file.ps” vai gerar um arquivo file.pdf)

Conclusão: Basicamente o que eu fiz aqui foi reconverter o PDF, eliminando assim informações indesejadas (no meu caso), que era a Descrição, Autor, Assunto e outros que ficam armazenadas no arquivo as vezes sem a gente notar que estão lá. Como no meu caso eu tinha quase 100 arquivos PDF, foi mais fácil criar um script para automatizar isso.

1 comentário

2 menções

- Gustavo em novembro 1, 2014 às 6:28 am
- Responder
Obrigado, me ajudou.

- Limpando informações de um PDF convertido | Ubuntu Dicas em dezembro 2, 2011 às 9:31 am
[…] informações de um PDF convertido Um artigo que ensina a converter documentos para o formato PDF e ao mesmo tempo, limpando informações […]
- Ano Novo e Novidades (Sorteio) » Blog do Laercio Motta em janeiro 16, 2012 às 8:58 am
[…] Limpar informações do PDF […]

1 comentário

2 menções

Deixe uma resposta Cancelar resposta

Profissional Certificado

Hospede seu site

Google

Parceiros

Últimos Posts

Blogroll