Manipular PDFs

Feito o :6 Xuño 2010

Pdftk é unha ferramenta de manipulación de documentos PDF. Vale para:
Combinar documentos, separar as páxinas nun documento novo, descifrar un documento (necesítase contrasinal), cifrar o documento resultante, desfacer un documento en páxinas soltas, informar das características do PDF, incluíndo metadatos e marcadores, descomprimir e volver comprimir páxinas e reparar un PDF (se é posible). Para usalo o primeiro que temos que facer é instalalo, como está nos repositorios de Debian, tan só fai falla un:

#aptitude install pdftk pdfchain (pdfchain so fai falla se queremos usalo no entorno gráfico)

A potencia da ferramenta é enorme. Imos ver uns exemplos dende a liña de comandos.
Unir dous ou máis PDFs nun documento novo:
$ pdftk 1.pdf 2.pdf 3.pdf cat output 123.pdf
o mesmo usando variables:
$ pdftk A=1.pdf B=2.pdf cat A B output 12.pdf
ou usando comodíns:
$ pdftk *.pdf cat output combined.pdf
Separar páxinas de varios PDFs a un documento novo:
$ pdftk A=one.pdf B=two.pdf cat A1-7 B1-5 A8 output combined.pdf
Cifrar un documento usando 128-Bit (predeterminado) e reter todos os permisos (predeterminado):
$ pdftk mydoc.pdf output mydoc.128.pdf owner_pw foopass
Igual ao anterior, esixindo ademais un contrasinal para abrir o PDF:
$ pdftk mydoc.pdf output mydoc.128.pdf owner_pw foo user_pw baz
Igual ao anterior permitindo a impresión (unha vez que está aberto):
$ pdftk mydoc.pdf output mydoc.128.pdf owner_pw foo user_pw baz allow printing
Descifrar un pdf:
$ pdftk secured.pdf input_pw foopass output unsecured.pdf
Unir dous arquivos, dos que un está cifrado (o arquivo resultante non está encriptar):
$ pdftk A=secured.pdf mydoc.pdf input_pw A=foopass cat output combined.pdf
Descomprimir os fluxos de páxina para editar o código PDF nun editor de texto:
$ pdftk mydoc.pdf output mydoc.clear.pdf uncompress
Reparar unha táboa XREF ou as lonxitudes de fluxo de páxinas dun pdf (se é posible):
$ pdftk broken.pdf output fixed.pdf
Separar un único documento en páxinas soltas e escribir os datos do documento a doc_data.txt
$ pdftk mydoc.pdf burst
Escribir un informe sobre os metadatos, marcadores e etiquetas de páxina dun PDF:
$ pdftk mydoc.pdf dump_data output report.txt
Convertir PDF a texto:
$ pdftotext -layout arquivo.pdf arquivo.texto (hai que ter instalado o paquete poppler-utils)
Se non temos poppler-utils:
$ aptitude install poppler-utils

Referencia:
http://www.accesspdf.com/pdftk/index.es.html

Tema Panorama porThemocracy