Por Martín Cristal
Un experimento: lectura del primer tomo de En busca del tiempo perdido de Marcel Proust mediante la tecnología Text to Speech (“Texto a audio”). Primera parte: Motivos y preparativos.
1. Motivos
En un artículo anterior me preguntaba cómo destinarle más tiempo diario a la lectura. Una posibilidad es aprovechar los viajes en transporte público. Siempre llevo conmigo un libro para esos tiempos muertos; sin embargo, las condiciones para leer en colectivos, trenes o subterráneos muchas veces no son favorables. Aunque uno ya se haya acostumbrado al ruido hasta abstraerse de él, lo cierto es que no siempre hay espacio o buena luz para leer. A raíz de esto, en junio se me ocurrió iniciar el experimento que detallo a continuación.
2. Herramientas
Supe de los programas de Text To Speech —“Texto a Audio”; TTS por sus siglas en inglés— más o menos desde que las Mac incorporaron el panel de control “Speech” a mediados de los noventa. Poco después Radiohead utilizaría ese recurso para el tema “fitter happier” de su álbum OK Computer (1997).
Estos programas interpretan los caracteres de un archivo de texto para que un sintetizador de voz los transforme en los fonemas correspondientes. De un archivo de texto (.doc, .rtf, .txt…) se obtiene un archivo de audio (.mp3, .wav…). En la época de OK Computer las voces eran muy robóticas: entrecortadas, metálicas, monocordes. Hoy se han humanizado bastante al incorporar algunos matices según la puntuación. Además hay voces de hombre o de mujer, con pronunciaciones y acentos diferentes… El resultado dista de ser perfecto, pero su grado de avance sorprende cuando uno las escucha por primera vez.
Decidí probar esta tecnología —que también se usa en el software para personas ciegas— con algún libro digital de los miles que pueden conseguirse en Internet. Ya que se trataba de recuperar un tiempo muerto de mi vida, me pareció que el texto indicado podía ser En busca del tiempo perdido, una obra cuya lectura había ido posponiendo por diversos motivos (diversos libros). Sería como superponerle, a la búsqueda introspectiva de Proust, mi propio empeño por recobrar un tiempo de mi vida que siento perdido de antemano cada día.
Una experiencia demasiado larga podía resultar desgastante, así que limité esta prueba al primero de los siete famosos tomos de Proust. Escucharía “Por el camino de Swann” con mi reproductor de mp3 en el ómnibus en el que vuelvo a casa cada día, después del trabajo.
3. Preparativos
El texto. Busqué en Internet el libro de Proust en formato digital (.doc). En la versión que encontré no figura el crédito del traductor; mucho más tarde cotejé algunas partes con una edición en papel, por lo que estimo que se trata de la primera traducción, hecha por Pedro Salinas. [Hay otras más actuales].
Las voces. Probé en el sitio de Loquendo las distintas voces disponibles. En castellano, las hay con acento español, mexicano, chileno, argentino y americano (neutro). Cada voz es un programa en sí mismo, identificado con un nombre de persona. Las voces pueden aplicarse a un texto dado por medio de distintos programas conversores de texto a audio. Aunque en la prueba de internet todas las voces se oyen bien, luego en el funcionamiento real con el conversor no todas andan igual. Opté por bajar las voces de “Diego” (acento argentino), “Francisca” (chileno) y “Jorge” (español).
El programa. Bajé algunos conversores de texto a audio para probarlos. El programa HAL Text To Speech Reader funcionaba bien “en vivo” en mi computadora, pero algo fallaba al querer convertir los archivos a mp3. Finalmente llevé adelante el experimento con un demo del programa Alive Text To Speech. El Text To Speech Maker también funciona, aunque no es tan eficiente.
Pruebas. Hice algunos experimentos cortos variando las voces, las velocidades de lectura y las calidades de audio. Finalmente elegí la voz de “Jorge”: aunque su acento no era el que más me convencía, resultó ser la que funcionaba con mayor fluidez. Para la conversión a audio, determiné una velocidad de lectura intermedia y una calidad de 320 Kbps (alta), en formato mp3. Aquí un minuto de muestra (aunque en menor calidad: 192 Kbps):
|
Extensión. Tomé fragmentos de aproximadamente 17.000 caracteres con espacios (17 Kb: casi 9 páginas A4, si tipeadas en cuerpo 12 y a doble espacio). Al convertirlos a audio, quedaban archivos mp3 de unos 45 Mb; cada fragmento rondaría los 20 minutos de duración. Todo el primer tomo de Proust quedaría comprendido en 54 archivos de audio: casi 18 horas de duración total.
Conversión. La fragmentación del texto tuve que hacerla en forma manual, copiando y pegando en distintos archivos txt, lo cual me llevó casi 50 minutos de mi tiempo (perdido). Hecho esto, el resto de la conversión lo realizó la computadora por sí sola, en forma subordinada (es decir, incluso mientras yo ocupaba la máquina en otras tareas). Alive Text To Speech tardó unas cuatro horas y media para convertir todo el primer tomo de Proust.
_______
Leer la segunda parte, con los apuntes sobre la experiencia propiamente dicha…