¡Hola a todos!
Después de un larguísimo tiempo sin actualizar fundamentalmente debido a la pereza y a la falta de ideas, creo que ya iba siendo hora de ponerme a redactar una entrada nueva.
Como bien dice el título, voy a tratar de un formato de archivo que suele provocar problemas a los traductores, especialmente en cuanto al formato: el PDF. Ya sabréis que un documento PDF es ideal para textos candidatos a ser impresos, como pueden ser folletos, manuales de usuario, presupuestos, facturas, etc. Los inconvenientes surgen cuando intentamos traducirlos: al no tratarse de un documento editable, nuestra tendencia es intentar copiarlo en un procesador de textos, como Word. Si tenemos la versión Pro de Acrobat o el complemento Sun PDF Importer de OpenOffice o LibreOffice, podemos editar el texto, pero no traducirlo como haríamos con las herramientas típicas (con memoria de traducción, glosarios, etc.).
Dadas las dificultades de trabajar con este formato, lo conveniente cuando recibamos un encargo de traducción en PDF es intentar solicitar al cliente una copia en un formato de archivo editable o, si no es posible, recordarle que, si desea mantener el formato del original (en caso contrario, bastará con copiar y pegar el texto en un procesador de textos, si es que el documento no está protegido), se incluirá una cantidad en concepto de gastos de maquetación (una tarifa por hora sería lo más recomendable en este caso). De todas formas, si recibimos una copia editable de ese documento, debemos asegurarnos de que el formato no traerá problemas (por ejemplo, los documentos con tablas y más tablas suelen ser bastante complicados) si no queremos acabar después por la calle de la amargura.
Si no queda más opción que trabajar con un PDF, contamos con varias opciones a las que he recurrido según el momento. Sea cual fuere el método escogido, es seguro que tendremos que realizar una maquetación del documento final, cuya dificultad y duración dependerá fundamentalmente de la complejidad del formato del PDF de origen y de las herramientas que utilicemos para editarlo.
Antes de comenzar con las opciones, me gustaría señalar que las celdas en el documento PDF de destino de los tutoriales pueden estar un poco desalineadas, pero se debe a las prisas causadas por la limitación de los minutos de extensión del tutorial. Lógicamente, una maquetación profesional debe quedar perfecta, pero ese no es el objetivo de estos tutoriales.
1. CONVERTIR EL PDF
La primera opción consiste en recurrir a un conversor de documentos PDF a otros formatos, como DOC. Hay muchísimas alternativas, como PDFZilla, al que le cuesta, sin embargo, trabajar con documentos con formato más complejo, como tablas. En el vídeo de ejemplo se puede ver como transforma un documento de prueba consistente en una única tabla en un documento editable de texto plano. Dicho de otra forma, se pierde todo el formato, con lo que no evitaríamos tener que realizar una maquetación más adelante.
De entre todos los conversores que existen, el de más calidad que he probado es el Abby FineReader, del que podéis descargar una versión de prueba (funcional durante 15 días y que permite procesar hasta 50 páginas), la cual que me ha salvado alguna vez la vida con relación a la digitalización de documentos gracias al increíble OCR que incluye. En el caso del PDF de ejemplo, lo convierte a Word a la perfección, de forma que podemos trabajar con Trados, Wordfast o, si lo abrimos con OpenOffice o LibreOffice, con Anaphraseus. Una vez hayamos acabado, podemos convertirlo a PDF con el propio Abby FineReader o mediante la opción de guardar como PDF en OpenOffice, LibreOffice, Word 2007 (mediante este complemento) o Word 2010 (incluido en la propia aplicación).
Siguiendo este último paso, nos aseguramos de poder trabajar con un documento editable, que podemos modificar, por ejemplo, para cambiar el tamaño de las filas y columnas de la tabla para que quepa el texto. Luego basta con guardarlo a PDF para terminar nuestra tarea.
2. TRABAJAR CON TRADOS STUDIO
La forma de traducir archivos PDF integrada en Trados Studio me sorprendió muy gratamente en su día, y más con los PDF de gran tamaño o de formato complejo. Para que os hagáis una idea, probé a importar un PDF de varios megas de tamaño y de unas 80 páginas, de las que el 80 % aproximadamente eran tablas. También exporté el documento de origen a Word y me quedé asombrado con la calidad de la exportación: las tablas se mantenían en su sitio y solamente se apreciaban errores menores el formato, subsanables fácilmente si se tiene un poco de maña.
Tenemos dos modos de proceder con Trados Studio en el caso de documentos PDF:
- Importar el documento PDF (que Studio convierte a una variante del formato XLIFF propio de SDL, el SDL XLIFF) y, a continuación, traducirlo directamente en este programa (existe incluso la opción de una vista previa del documento final). Una vez hayamos acabado, basta con ir al menú Archivo > Guardar destino como y seleccionar la opción Microsoft Word. Después abrimos el documento en Word, realizamos los retoques necesarios y lo guardamos como PDF mediante alguna de las opciones descritas en la anterior opción.
- Abrir el PDF con Studio y, a continuación, ir al menú Archivo > Guardar origen y elegir el formato que queramos como, por ejemplo, el propio DOC. Cuando obtengamos el archivo de origen, podemos traducirlo utilizando alguna de las opciones mencionadas anteriormente, para luego realizar los retoques de maquetación que sean precisos y guardarlo como PDF siguiendo alguna de las opciones descritas antes.
Como veis, no es nada complicado trabajar con este programa. Es una verdadera lástima que, en mi opinión, el precio de una licencia sea prohibitivo. Si se redujera este coste, estoy seguro de que sería un programa con mayor tirón, porque su calidad es, a mi modo de ver, lo mejor de SDL que yo conozco.
3.INFIX+ TAGEDITOR/SWORDFISH
Hasta hace no demasiado tiempo, desconocía el programa Infix PDF Editor, que descubría de casualidad en un retuiteo de Pablo Muñoz, el autor del más que recomendable blog Algo más que traducir. Como me gusta mucho trastear y descubrir programas nuevos, lo descargué, lo instalé y lo eché un vistazo. Para mi sorpresa (agradable, todo hay que decirlo), me di cuenta de que, pese a su nombre, este programa es más que un editor de PDF, ya que la versión Professional permite exportar el texto de un PDF como archivo XML, que podemos traducir en algunas herramientas de traducción asistida, como Tag Editor, Deja Vu X o Swordfish II, un programa del que hablaré en futuras entradas.
Para empezar, tenemos que abrir el Infix PDF Editor. Si tenemos la opción de prueba, como en mi caso, nos saldrá una ventana en la que se nos pregunta cómo queremos trabajar con Infix. Seleccionamos Professional Mode (Modo profesional) y se abrirá la interfaz principal del programa. A continuación, abrimos el PDF yendo al menú File (Archivo) y eligiendo la opción Open (Abrir). Buscamos el archivo y pulsamos Abrir.
Una vez abierto, pasamos a exportar el texto como XML, para lo cual vamos al menú Document > Translate > Export XML… (Documento > Traducir > Exportar XML) o pulsamos el atajo Ctrl + Alt + E. Elegimos una ruta y nombre del archivo y pulsamos Aceptar. A partir de ahí, podemos elegir el programa con el que traducirlo. Como dice el título, he recurrido a Tag Editor y a Swordifsh II.
1. En el caso de TagEditor, abrimos el programa y le indicamos el XML que queremos traducir, bien mediante la opción del menú o arrastrando y soltando el XML en la ventana de TagEditor. A continuación, si es la primera vez que abrimos un XML creado en Infix, TagEditor nos indicará que no ha encontrado el archivo de configuración de etiquetas (un archivo de extensión .ini), que es el que le permite a TagEditor, grosso modo, identificar las etiquetas y bloquearlas para que no las traduzcamos o borremos por error, lo que afectaría al texto final. Elegimos la opción Abrir… y lo buscamos en la carpeta de instalación de Infix, similar a «C:\Program Files\Iceni\Infix4\Translation support\Trados\trados.ini». Cuando pulsemos Aceptar, veremos la versión bilingüe del XML, lista para traducir con TagEditor.
Después de realizar la tarea de traducción y de revisión, tenemos que crear el archivo XML de destino. Para ello, vamos a Abrir > Guardar destino como… o pulsamos Mayús. + F12. Elegimos un nombre y ruta donde guardarlo y pulsamos Aceptar.
Para terminar, abrimos Infix de nuevo y nos dirigimos al menú Document > Translate > Import XML… (Documento > Traducir > Importar XML) o pulsamos el atajo Ctrl + Alt + I. Si hemos cerrado el programa antes, Infix nos dirá que no puede importar el XML porque no lo ha exportado primero. Basta con que lo exportemos siguiendo las indicaciones anteriores y, acto seguido, importarlo de manera normal. Entonces Infix sustituirá el texto original por el de destino, con la opción de sustituir texto donde falte, y podremos ver el aspecto del PDF de destino. En caso de que tengamos que retocar alguna parte del texto, Infix nos dejará modificar el archivo con total libertad.
Puede ocurrir que Infix nos llame la atención acerca de que la fuente del texto no admite caracteres españoles, como las letras con tilde o la eñe. En ese caso, tenemos que señalarle al cliente este problema y, en su caso, sustituir la fuente problemática por otra. En el PDF de ejemplo, para poder trabajar más fácilmente con los cuadros de texto, se hace clic con el botón secundario del ratón cuando se esté editando un cuadro de texto y, en la lista desplegable que aparece, se selecciona Text Box Data Fields (Campos de datos de cuadros de texto) y, a continuación, cambiamos el valor de Move Objects Below (Desplazar objetos hacia abajo) de False (Falso) a True (Verdadero).
Para finalizar, guardamos el archivo como PDF pulsando Ctrl + S o bien en el menú File > Save (Archivo > Guardar). Si hay algún problema, como texto que no se ve en una tabla debido al tamaño de la celda, el programa nos lo indica. Aquí encontramos una de las limitaciones de la versión gratuita de este programa: si guardamos el destino como PDF, Infix añadirá una marca de agua, lo que queda cutre y poco profesional si pretendemos enviarle el documento a un cliente. No obstante, Infix nos da la posibilidad de pagar para que podamos guardar tres documentos sin marca de agua por un precio de 22 €, lo que no es un disparate si nos van a pagar una buena cantidad por la traducción. Otra posibilidad consiste en comprar una versión completa del programa, que vale 114 €, que, en mi opinión, se amortizan pronto si trabajamos con una gran cantidad de archivos PDF.
Debajo añado el enlace del tutorial en vídeo de Youtube:
[youtube=http://www.youtube.com/watch?v=6Dcr_4jMxfw]
2. En el caso de querer traducir el archivo con Swordfish II, lo exportaremos en Infix siguiendo las indicaciones anteriores. A continuación, tenemos que convertir el XML en un archivo XLIFF, que es con el que trabaja Swordfish. Abrimos el programa y vamos al menú File > Convert Files to XLIFF Format (Archivo > Convertir archivos a formato XLIFF). Pulsamos el botón Add files (Añadir archivos), buscamos el XML y señalamos los idiomas de origen y destino en el siguiente paso. Si tenemos probar para convertir el archivo, cambiamos el tipo de archivo en File Type y escogemos Generic XML (XML genérico). Procedemos con la traducción como con cualquier otra herramienta TAO y, para obtener el archivo XML de destino, vamos a File > Convert XLIFF Files to Original Format (Archivo > Convertir archivos XLIFF al formato de origen), seleccionamos la ruta y el nombre con el que queremos guardar el archivo y pulsamos el botón Convert XLIFF File to Original Format. Para terminar, abrimos Infix e importamos el XML igual que con Tag Editor.
A continuación os dejo el tutorial en vídeo de Youtube:
[youtube=http://www.youtube.com/watch?v=U2am-Mp2fl4]
Como veréis, el PDF es un formato que suele ocasionar problemas a la hora de traducir, pero, con unas buenas herramientas y alternativas, podemos evitarnos muchos quebraderos de cabeza y facilitarnos el trabajo. Y, por vuestra parte, ¿conocéis alguna otra forma de trabajar con documentos en PDF?
A continuación os dejo los dos tutoriales de la entrada subido a Screncast.com, con una mejor calidad.
Una entrada magnífica. Los PDF siempre han sido un quebradero de cabeza para los traductores. Gracias, José Manuel.
Gracias a ti por pasarte, María 🙂
Pues sí, me temo que los PDF siempre han sido y serán por mucho tiempo un quebradero de cabeza para nosotros. Al menos hay opciones como las que describo que, sin ser perfectas, creo que nos facilitan mucho la tarea, lo cual es de agradecer.
Esta entrada va directamente a Delicious o a las lecturas de esta tarde. Tu vuelta era muy esperada, Jota. ¡Que sigan las actualizaciones!
¡Gracias Ana! 🙂
De momento alguna actualización más habrá, porque tengo un par de ideas interesantes ^^
Me ha encantado la entrada. Gracias por ilustrarme un poco sobre este tema.
Por suerte, mis clientes habituales se suelen encargar ellos mismos de la maquetación y me pasan siempre la versión en DOC, pero también he sufrido en carne propia la maldición de recibir un PDF lleno de tablas y con miles de repeticiones.
Hasta ahora, había optado por traducir sin Trados y dedicar un montón de tiempo al formato, pero voy a probar las opciones que dices porque si algún día me llega otro PDF enorme me gustaría estar preparada para la batalla 😉
Un saludo,
Txell
Muchas gracias por los halagos, Meritxell 🙂
Por suerte, hay clientes con maquetadores propios o que te envían el texto en condiciones, pero siempre puede haber un PDF que nos estropee los planes. Sin ser perfectas estas opciones (porque algo de maquetación siempre habrá que hacer como mínimo), me parecen perfectamente válidas llegado el caso. Así al menos es lo que tú comentas, que se pueden aprovechar las herramientas de traducción, en vez de estar constantemente mirando a ver si has traducido las repeticiones de forma coherente.
Un saludo y gracias por pasarte 🙂
José Manuel
Gracias por toda la información, José Manuel. Realmente muy buena y elaborada!
Estoy de acuerdo con lo que comentas sobre Trados Studio y también sobre Abbyy FineReader, uno de los mejores OCR que existen. Es una lástima que Studio no incluya OCR para los PDF escaneados, aún llegan muchos así.
Probaré Infix, no conocía esta herramienta.
Por cierto, ¿has probado el OCR que se incluye en Google Docs? Yo he hecho pruebas con documentos escaneados pdf (sin formatos complicados) y también con gráficos png, jpeg con resultados bastante aceptables en cuanto a extracción de texto. Te lo deja en su formato propio pero luego puedes exportar a Word, odt, etc
Un saludo,
Maria.
Gracias por pasarte y por tus palabras, María 🙂
Tienes razón, si Studio incluyese un OCR al estilo de Abby, sería probablemente la TAO perfecta. Y si bajara un poco de precio, compraría una licencia el primero.
La verdad es que Google Docs no lo he probado mucho, pero sí me han hablado bien de su OCR, así que lo echaré un ojo. Si va bien con las imágenes, podría facilitar algo su localización, que me parece de lo más complicado, porque, si fallas un milímetro, se echa todo a perder.
También me gusta el OCR que viene con Office 2010 en One Note, pero mi voto sigue siendo para Abby, que me parece espectacular.
¡Un saludo!
Probaré el OCR de OneNote 2010, así podré comparar! Aunque también creo que las posibilidades que ofrece Abbyy son únicas…
Hablando de OneNote, me parece una aplicación muy práctica y sólida y a pesar de eso poca gente la utiliza, Microsoft podría sacarle más partido. Ahora estoy probando la versión gratuita de Evernote, quizás no es tan completa pero también está bastante bien… En fin, tendré que decidirme por una de las dos pues en estos momentos he conseguido dispersar mis documentos por todos lados… aunque eso sí, todas las libretas y blocs de notas sincronizan a la perfección :))
Saludos,
Maria.
Hola, María:
Pues la verdad es que no conocía demasiado OneNote hasta que tuve que recurrir al OCR y me quede con la impresión que tú comentas: una aplicación muy sólida y muy aprovechable. Espero sacar algo de tiempo para echarle una ojeada, pero buena pinta ya tiene. Al menos Microsoft ya ha empezado a darle más cancha y lo incluye ya en la versión más básica.
De Evernote también he oído hablar, pero no me había animado a probarlo. Me estoy descargando la versión gratuita, a ver si me convence. La verdad es que soy más de utilizar los marcadores, o de anotar cosas sueltas en un cuaderno, en el bloc de notas o en las sticky notes de Windows a veces. Pero voy a darle una oportunidad a Evernote, espero que se porte bien 😉
Bienvenido de nuevo 🙂
La entrada me ha servido de repaso sobre los programillas de conversión de pdf y lo que deberíamos pedir a las compañías que se piensan que somos máquinas de maquetación y no nos cuesta nada rehacer las tablas llenas de información, enlaces, imágenes y demás de sus documentos en pdf…
Lo que no conocía es el Swordfish… me lo apunto, y le echaré un vistacillo 🙂 Gracias por la info.
Gracias, Curri 🙂
Pues te doy la razón, los clientes deberían darse cuenta de que la maquetación y la traducción son tareas distintas, y yo creo que se consigue precisamente haciendóselo saber, por ejemplo, como digo yo en el blog, comentándole que por la maquetación se va a cobrar X. Una de dos: o te respetarán más y lo aceptarán, o probablemente acabará «apareciendo» alguna copia editable del archivo que tenían por ahí. En cualquier caso, no pierdes nada. Como mucho, que pierdas el cliente, pero igual se debe a que no merecía la pena trabajar con él.
Swordfish me parece la bomba, por decirlo en pocas palabras. Admite multitud de trabajos, puedes importar y exportar a varios formatos de intercambio. Te puede convertir un archivo de recursos a XLIFF y traducirlo tranquilamente. Yo me quedé asombrado cuando lo descubrí.
Gracias a ti por pasarte 😉
Hola!
Muy buena entrada y muy interesante :D. Y sobre todo me ha gustado que mencionases a Swordfish, que parece que es la herramienta de moda. Y parece que tiene la fama bien ganada: todo el mundo que habla sobre ella lo hace para ponerla por las nubes 🙂
¡Hola, Olli! (Vaya, menudo juego de palabras para empezar 😛 )
Gracias por tus elogios sobre la entrada 🙂 .
Menciono Swordifsh porque creo que se merece esa mención, ya que es un programa con menos fama que otros y de calidad igual o superior. A mí en su momento me dejó sorprendido muy gratamente. Como le digo a Curri, es capaz de que le des un RC, lo pase a XLIFF y puedas traducirlo con las ventajas de las TAO. En las próximas entradas seguiré hablando de Swordfish.
¡Gracias por pasarte!
La verdad es que te ha quedado una entrada completísima, me quito el sombrero.
Supongo que el flujo de trabajo vía Infix va mejor para documentos con diseño simple, ¿no? Porque si tiene muchas tablas, cajas de texto y demás, y el texto se expande un 20%, no creo que el diseño del documento traducido sea reutilizable. Al fin y al cabo, por mucho que se toquetee el XML, el PDF es un formato de visión e impresión, no de edición.
Sospecho que en muchos casos la mejor opción será el Abby PDF Transformer (o el FineReader, aunque sea más complicado) y maquetación a mano antes de la traducción. Lo malo es lo que cuesta convencer a los clientes de lo que vale en tiempo y dinero una maquetación decente. Se creen que por ser Word y no un programa profesional, la maquetación la puede hacer cualquiera en dos patás.
Swordfish tiene grandes puntos a su favor como son su incondicional apoyo a los estándares abiertos, la constante mejora, sobrehumana asistencia y absoluta dedicación de Rodolfo, su creador. Sin embargo, al menos con Swordfish 1.x y las primeras revisiones de la 2.x, el rendimiento era ridículamente bajo. Al menos con PCs de gama media / baja el Trados, SDLx, Deja Vu X y programas similares van sueltos, mientras que importar y exportar BD en Swordfish era un suplicio. No sé si habrá mejorado el rendimiento últimamente, lo tengo bastante abandonado.
Sin haberlo probado y guiándome simplemente por comentarios de traductores que respeto y admiro, creo que para los usuarios de Windows, memoQ es la mejor opción si obviamos el Trados como imposición del mercado.
Gracias por el comentario y por los halagos 🙂
Yo probé Infix con un documento de unas 80 páginas que eran casi todo tabla tras tabla y la importación del XML me funcionó muy bien (aunque es verdad que solamente importé unas pocas páginas traducidas por falta de tiempo en este momento). Con un poco de maña y de paciencia, puedes tener buenos resultados.
Lo que está claro es que, uses Infix, Abby o cualquier otro, vas a tener que maquetar segurísimo, por lo que tú dices sobre los pdf, que son para imprimir o ver, y nunca para editar, que es lo que se hace para traducir. Por eso menciono en la entrada (quizás demasiado de pasada) en que se debe recordar al cliente que la traducción y que la maquetación son tareas diferentes y que, como tales, se cobran por separado. Como tú dices, aunque sea un mero archivo de Word, si necesita maquetación, hay que hacerlo saber. Así al menos el cliente se «asusta» e intenta proporcionarte un archivo editable, recurre a su propio maquetador, etc.
Y lo que dices sobre Swordish, pues la verdad es que yo no lo he notado lento en absoluto. No he probado a importar o exportar bases de datos (porque no tengo ninguna decente, la verdad), pero la traducción y la conversión a XLIFF me parecen muy fluidas. Tú lo conoces más que yo, pero yo también veo los mismo puntos a favor que tú 😉 Y me gusta que tengan una licencia para estudiantes que valga 96 €. Si lo llego a conocer en su época, la habría pagado seguro.
MemoQ también me gusta mucho, sobre todo su vista previa, pero a mí esos 600 euros y pico que cuesta me tiran para atrás, la verdad.
Hi! Your blog has been nominated for our Top 100 Language Lovers 2011 competition.
Read more here: http://www.lexiophiles.com/featured-articles/top-100-language-lovers-2011-competition-starts-today-%E2%80%93-nominate-your-favorite
Good luck!
Giulia – On behalf of the bab.la and Lexiophiles team
Twiteé la entrada el otro día porque tenía una pinta maravillosa y, efectivamente, es una entrada maravillosa que se va directa a mis favoritos. Yo he usado PDF Converter (crackeado, claro): es una herramienta muy potente que te deja los documentos niquelados al pasar de PDF a Word… y Abby Fine Reader es una pasada, lo he usado como OCR para otras cosas y es una maravilla. Lo único que hay que repasar un poquillo por si confunde alguna letra, pero es un software que debemos tener todos instalado en el ordenador.
¡Gracias por compartir tu sabiduría con nosotros! 😀
¡Hola, Eva!
Gracias por el comentario, por tuitear la entrada y por añadirla a tus favoritos. Me alegro de que te haya gustado.
El PDF Converter no lo conozco, pero con Abby me quedé impresionado. Lo uso de OCR y te soluciona muchísimo la vida. Yo hasta le perdono que se equivoque en alguna letra 😛
Y bueno, yo no llamaría a lo mío sabiduría, pero bueno, muchas gracias por el piropo :). A mí me gusta compartir mis conocimientos sin ningún problema. Igual que puede haber gente que aprenda de mí, yo aprendo de otros, así que todo se compensa 🙂
Hola, José Manuel: ¡Excelente entrada!
La verdad es que, hasta leer este artículo, tenía un sistema – algo «otropédico», todo hay que decirlo – para traducir los PDF.
¡La combinación Infix + fichero de definición de documento DTD + herramienta CAT está genial!
Hola, Pablo:
Muchas gracias por pasarte por el blog. Me alegro de que haya gustado la entrada 🙂
A mí me gusta mucho la combinación Infix + DTD + herramienta TAO, especialmente porque permite trabajar con memorias de traducción y editar el documento pdf más fácilmente que con otras herramientas. A pesar de todo, el pdf no es un documento destinado a edición y cambios, por lo que no siempre quedará perfecto. Pero bueno, creo que conviene que los traductores conozcamos formas de trabajar con archivos pdf sin complicarnos la vida. Nunca está de más, en mi opinión.
Simplemente genial
Muchas gracias por tu comentario, Irene 🙂 Espero que vuelvas en futuras entradas 🙂
¡Hola! Si estan interesados en localizar web software, PC software, móvil software o cualqier otro tipo de software, reccomendo con calor este rápido y intuitivo instrumento de localización: http://poeditor.com/.