SGCG

…esto no es un subtítulo…

Ir a: contenido categorías calendario archivo suscripción

Volver arriba

Nuevos cambios en el mecanismo para descargar contenido multimedia de rtve.es (1)

2012-09-10

Un incauto lector (¡gracias por el aviso, MA!) me informa de que vuelve a haber cambios en el sistema de obtención de vídeo y audio de la página de RTVE. Aquí documento cómo obtener el contenido en esta nueva situación. El material publicado en la página de RTVE está pagado por los contribuyentes españoles y éstos pueden, de hecho, grabar dicho material cuando se emite por señales aéreas de radio y televisión. Si un ciudadano tiene previsto ver un vídeo o escuchar un segmento de audio más de una vez, puede ahorrar recursos del Estado si descarga el contenido y a partir de entonces recurre a su copia local.

Sigue el nuevo procedimiento paso a paso. Hay un algoritmo necesario para recuperar la dirección del contenido (que está ofuscada); este algoritmo aparece en el siguiente artículo de la serie. He actualizado rtve-mediateca-dl, el pequeño programita para sistemas *nix que implementa el método.

Procedimiento paso a paso

  1. Vamos a la página en la que se encuentra el contenido que nos interesa. Inspeccionamos su código.
  2. Hay un elemento <div> con clase VideoContainer (para vídeo) o AudioContainer para audio y en el que irá incrustado el contenido que nos interesa.
  3. Este elemento tiene una propiedad llamada data-assetID cuyo valor es, simbólicamente,
    [IDENTIFICADOR]_es_[TIPO].
    • [IDENTIFICADOR] es un número;
    • [TIPO] es videos o audios.
  4. También necesitamos otra información, una cosa llamada [MANAGER]. Parece que depende del navegador utilizado. Si cogemos identificador de nuestro navegador (la famosa cadena de texto User Agent), lo codificamos en base64 y sustituimos las barras («/») por guiones bajos («_») y los símbolos de suma («+») por guiones («-»), tendremos un texto al que llamaremos [UA]. Una línea en blanco vale y su codificación es Cg==. Con el valor de [UA], construimos la dirección
    http://www.rtve.es/odin/loki/[UA]/
    y descargamos lo que contiene. Dentro habrá un texto semejante a éste:
    {"manager":"[MANAGER]"}
    Anotamos el valor de [MANAGER].
  5. Ahora podemos descargar los metadatos. Éstos se encuentran en la siguiente dirección:
    http://www.rtve.es/ztnr/movil/thumbnail/[MANAGER]/[TIPO]/[IDENTIFICADOR].png
    En efecto: es una imagen, pero una imagen cargada.
  6. Descargamos la imagen de la anterior direcció. Resulta que está codificada en base64, así que la decodificamos.
  7. La imagen contiene campos de propiedades que son texto. Podemos obtener estas propiedades con un programa adecuado para imágenes (por ejemplo, con identify -verbose de ImageMagick o con gm identify -verbose de GraphicsMagick), usar strings o incluso mirar directamente con un editor de texto decente. Lo que nos interesa está al principio del fichero e inmediatamente a continuación de la secuencia tEXt (que no aparecerá en la salida de los programas de tratamiento de imágenes). Habrá dos partes de interés separadas por unos pocos caracteres:
    [TEXTO OFUSCADO]#: [CLAVE NUMÉRICA]
    • [TEXTO OFUSCADO] es una secuencia de caracteres, números y símbolos. Contiene la dirección del contenido que deseamos descargar, pero hay que desofuscarla.
    • [CLAVE NUMÉRICA] es la clave necesaria para desofuscar.

    El algoritmo para recuperar la dirección aparece en un artículo posterior, ya que el actual ya es bastante largo.
  8. Una vez recuperada la dirección, podemos descargar el contenido para nuestro disfrute posterior y para mejor uso de los recursos estatales.

Categorías: Informática

Permalink: http://sgcg.es/articulos/2012/09/10/nuevos-cambios-en-el-mecanismo-para-descargar-contenido-multimedia-de-rtve-es-1/