Convertir DJVU a PDF

Quiero convertir un documento DJVU en un documento PDF, separando y conservando la capa de texto y las imágenes, a la vez que mantengo la estructura del DJVU. ¿Cómo puedo hacer esto en Ubuntu?

(Luego usaré Calibre para convertir a ePub / Mobi, así que si hubiera un complemento de Calibre para todo este proceso, ¡sería perfecto para mí!)

Nota 1: la impresión desde Evince, la exportación desde DJview o cualquier cosa que utilice el paquete ddjvu , no son soluciones adecuadas, ya que descartan la capa de texto y guardan solo las imágenes.

Nota 2: el uso de DJVULibre parece que solo extrae la capa de texto y las imágenes no se extraen . Del mismo modo, copiar el texto “manualmente” pierde la estructura del documento y las imágenes.

Método 1

Simplemente usa DJView y exporta como PDF

  1. Goto Synaptic Package Manager
  2. Instalar DJview4
  3. Ejecutar DJview (Aplicaciones – Gráficos – DJView4)
  4. Abra su documento .djvu
  5. : Menú – Exportar como: PDF

Método 2

Abre el archivo djvu en evince
Seleccione imprimir —-> imprimir en archivo
cambie .ps a .pdf y haga clic en imprimir

Método 3

  1. Goto Synaptic Package Manager
  2. Instalar

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Ir a terminal y escribir

      sudo apt-get install libtiff-tools 
  4. Vaya al directorio donde está presente el archivo djvu. Haga clic en el botón derecho del ratón. Ir a la opción “Abrir en la terminal”. Haz click en eso. Se abrirá una terminal.

  5. En esa terminal escribe

     ddjvu -format=tiff file_name.djvu file_name.tiff tiff2pdf -j -o file_name.pdf file_name.tiff 

Método 4

También hay un convertidor en línea DjVu a PDF Converter

Aquí hay una forma, que requeriría algunas herramientas no tan comunes:

  1. Ocrodjvu
  2. pdfbeads , que tiene sus propios requisitos que puede encontrar en Google

Podemos usar el comando djvu2hocr (del paquete ocrodjvu ) para extraer la capa de texto oculta del archivo DjVu (no hace ningún OCR o similar, simplemente extrae la capa de texto con geometría), es decir:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed intervención sed corrige los nombres de clase en la salida hOCR (que es un simple archivo HTML)

Ahora extraemos la página de DjVu a formato TIFF con:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

para que terminemos con estos archivos en la carpeta de trabajo:

 sample.djvu pg10.html pg10.tif 

Aquí es donde pdfbeads entra en juego, y simplemente ejecutamos:

pdfbeads -o pg10.pdf

entonces este ingenioso progtwig se encarga de todo lo que está dentro de esta carpeta (archivos HTML y TIFF con el mismo nombre base) y produce un archivo PDF de salida con algunos subproductos:

 sample.djvu pg10.html pg10.tif pg10.jbig2 pg10.pdf pg10.sym 

que es idéntico a la entrada del archivo DjVu y tiene una capa de texto dentro de:

introduzca la descripción de la imagen aquí

Resumen de comentarios:

Los comentarios extensos a continuación discuten la representación de imágenes más pequeñas de la página del documento DjVu como objetos separados, lo que no es fácil porque la página del documento DjVu es solo una imagen con capa de texto opcional, sin “información” sobre imágenes más pequeñas como objetos separados. Si el documento DjVu tiene imágenes en color, generalmente se colocarán en la capa de fondo; en este caso, el usuario puede aprovechar herramientas como ddjvu (extraer solo la capa de fondo) e imagemgick (recorte automático) para generar solo imágenes en lugar de canvass completos, pero no se puede automatizar para crear resultados PDF

Otro enfoque más sensato, pero más lento, es el uso de herramientas de GUI de OCR regulares. Se sugiere gscan2pdf (> 1.0) como posible candidato para PC con Linux

Usando DJVULibre , uno puede extraer la capa de texto a través del comando de terminal :

djvutxt myfile.djvu > myfile-ocr.txt o djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(Ambos hacen lo mismo, y fueron encontrados aquí )

El formateo requiere algo de esfuerzo (ya que muchos símbolos no se convierten correctamente) y las imágenes no se recuperan .

Hay djvu2pdf pero se basa en ghostscript, por lo que podría ser otra opción de impresión. Todavía te sugiero que le eches un vistazo, en caso de que sea más inteligente de lo que le estoy dando crédito.

No está en los repositorys pero puede descargar un deb desde el sitio de los fabricantes: http://0x2a.at/s/projects/djvu2pdf

** Inserte el aviso obligatorio sobre la descarga / instalación de elementos desde fuera de los repositorys aquí **

La forma más fácil: use gscan2pdf para importar el djvu, luego extiéndalo con OCR con tesseract, y finalmente guárdelo como un pdf. El texto de OCR en el pdf puede ser ligeramente diferente del djvu original, y la conversión puede tardar un tiempo, pero este método es muy sencillo y funciona.

http://www.djvu-pdf.com/ – Con este sitio web puede convertir djvu a pdf.