MPEG-DASH: LA SOLUCIÓN AL PROBLEMA DE LAS TECNOLOGÍAS DE STREAMING PROPIETARIAS PARA LA TELEVISIÓN ONLINE

Por: Carlos Pantsios M.

  1. INTRODUCCIÓN

La entrega de contenido de video sobre Internet se inició en la década de los 90, siendo los mayores retos planteados el de la entrega a tiempo y el consumo de enormes cantidades de datos.

En los últimos años, el contenido de video ha crecido explosivamente en Internet hasta comprender una porción muy significativa de su tráfico. Para el 2011, por ejemplo, solamente los servicios de video streaming de Netflix ya cubrían aproximadamente el 20% del tráfico de downloading pico en Internet. Paralelamente, la capacidad de la red inalámbrica de banda ancha y de los dispositivos móviles ha mejorado muy significativa y rápidamente.

Inicialmente, el Internet Engineering Task Force (IETF) creó el protocolo de transporte denominado Real Time Transport Protocol (RTP) con la finalidad de definir formatos de paquetes para el contenido de video y de audio junto con la gestión de la sesión de streaming, que permitió la entrega de estos paquetes con bajo overhead. RTP trabaja bien en redes IP administradas. Sin embargo, en el Internet actual, las redes administradas fueron reemplazadas por redes de entrega de contenido (CDN), y muchas de ellas no soportan el streaming RTP. Adicionalmente, los paquetes RTP frecuentemente no son admitidos a través de los firewalls. Finalmente, el streaming RTP requiere que el servidor maneje una sesión separada de streaming para cada cliente. Esto hace que los despliegues a gran escala resulten intensos en recursos y, por ello, costosos.

Carlos Pantsios M. Mayo del 2017

Con el importante crecimiento del ancho de banda del Internet y el tremendo crecimiento de la Web, la estrategia de entrega de datos de video y audio por medio de pequeños paquetes ha quedado obsoleta. El contenido de multimedios es entregado ahora en forma mucho más eficiente por medio de segmentos grandes (usados en los protocolos OTT) que emplean el protocolo HTTP. La infraestructura de Internet ha evolucionado para soportar el HTTP en forma efectiva. El streaming HTTP, para millones de usuarios, es muy efectivo en costo y, por otra parte, en el streaming HTTP el cliente administra este streaming sin tener que mantener un estado de sesión separado en el servidor. Por ello, el streaming de un número muy grande de usuarios no impone costo adicional en recursos de servidor más allá del uso estándar del HTTP en la Web.

Recientemente, múltiples soluciones tecnológicas de streaming vía OTT (Over The Top) fueron propuestas por grandes compañías como Apple HLS, Microsoft Smooth Streaming, Adobe HDS, entre otros, con limitado soporte en el mercado de servidores de streaming no propietarios, así como de clientes de playback. Esta situación de dependencia propietaria, para nada deseable, impulsó un proceso de armonización por parte de los cuerpos de estandarización que resultó en la creación de la nueva tecnología llamada MPEG-­‐DASH, en el 2012.

MPEG-­‐DASH (Dynamic Adaptive Streaming over HTTP) es el estándar más reciente creado por el grupo Moving Picture Expert Group (MPEG), ampliamente conocido por sus estándares de multimedios de fama mundial, como son: MPEG-­‐2, el MPEG-­‐4 AVC, el MPEG-­‐7, y el MPEG 21. MPEG-­‐DASH fue desarrollado con la finalidad de dar solución a las complejidades que involucra la entrega de contenido de medios a múltiples dispositivos diferentes a través de un sólo estándar común unificado.

Recientemente, MPEG-­‐DASH se ha integrado a nuevos estándares como, por ejemplo, HTML5 Media Source Extension (MSE) permitiendo la reproducción de MPEG-­‐DASH para video y audio bajo HTML5, así como HTML5 Encryption Media Extension (EME) haciendo posible la protección con el Digital Rights Management (DRM) de la reproducción de contenidos en los navegadores Web. Más aún, la protección DRM con MPEG-­‐DASH está armonizada a través de diferentes sistemas por medio del MPEG-­‐CENC (Common Encryption). Por otra lado, la reproducción MPEG-­‐DASH, por medio de diferentes plataformas SmartTV, se encuentra habilitado vía la integración con el Hybride Broadcast Broadband TV (HbbTv 1.5 y HbbTV 2.0). HbbTV es una tecnología de broadcasting reciente, conocida como la TV-­‐Híbrida, de gran éxito sobre todo en Europa. HbbTV se refiere a un sistema constituido por el clásico terminal de televisión, ya sea el receptor de TV o el set-­‐top-­‐box, y que además de recibir la señal de video y audio por los medios convencionales (aire, cable o satélite) poseen una conexión a la red de Internet por medio de un acceso de banda ancha. Esta convergencia resultó como respuesta del sector de broadcasting al agresivo crecimiento de las entregas online, hoy en día.

El uso del estándar MPEG-­‐DASH se ha simplificado a través de esfuerzos por parte de la industria, representada por el DASH Industry Forum, y sus recomendaciones representadas por el DASH-­‐AVC/264 y el DASH-­‐HEVC/265.

Actualmente, MPEG-­‐DASH está ganando cada vez más aceptación a escala mundial y su despliegue acelerado se catalizó gracias a los servicios ofrecidos por Netflix y Google, que recientemente adoptaron este estándar. Con Netflix y Google, el 50% del tráfico total de Internet se encuentra ahora en manos del estándar MPEG-­‐DASH.

  1. ANTECEDENTES

El streaming con “tasa de bit adaptiva” es hoy en día la tecnología adoptada para la entrega adecuada de contenido de video en Internet a múltiples dispositivos conectados a él. Esta solución tecnológica es una combinación de software de servidor y cliente, capaz de detectar la capacidad de ancho de banda disponible por el cliente para ajustar la calidad de la corriente de video entre múltiples tasas de bit y/o resoluciones disponibles. Igualmente pasa con la corriente de audio. La experiencia que ofrece ésta nueva tecnología de tasa de bit variable (en forma adaptiva) es superior a la entrega de un archivo de video estático a una tasa de bit fija, como se venía operando hasta hace unos años, ya que la corriente de video puede ser conmutada a la mitad de la misma para que la reproducción del video correspondiente sea tan buena o tan mala como lo permita la velocidad de la red disponible del cliente. Esto contrasta con el almacenamiento transitorio (buffering) o con la interrupción en la reproducción del medio, que puede ocurrir cuando la velocidad de la red del cliente no es capaz de soportar la calidad del video que le llega.

Debido a que el streaming con tasa de bit variable emplea el protocolo estándar HTTP, su costo es mucho menor y de allí su gran popularidad.

Como ya se mencionó, existen básicamente tres protocolos principales para este tipo de entrega de video -­‐ HTTP Live Streaming, Microsoft Smooth Streaming, y HTTP Dynamic Streaming. Cada uno de ellos utiliza métodos y formatos propietarios, y por ello, para recibir el contenido de cada uno de los servidores, el dispositivo conectado a la red debe soportar cada uno de estos protocolos.

Un verdadero estándar de HTTP streaming, de contenido de multimedios, permitiría a un cliente con ese estándar hacer streaming de contenido de cualquier servidor basado en dicho estándar, permitiendo una reproducción consistente y una unificación de los servidores y clientes de diferentes marcas.

En respuesta a este problema, el grupo MPEG emitió un llamado de Call of Proposals para la creación de un estándar de streaming en HTTP unificado, en Abril del 2009. En los dos años siguientes MPEG desarrolló especificaciones con la ayuda de muchos expertos participantes y en colaboración con otros grupos de estandarización, tales como el 3GPP. Más de 50 compañías estuvieron involucradas. El resultado final fue la creación del estándar unificado MPEG-­‐DASH.

  1. ¿CÓMO TRABAJA A GRANDES RASGOS MPEG-­‐DASH?

La filosofía de la nueva solución de streaming de medios es proveer múltiples versiones del mismo contenido de multimedios (por ejemplo, diferentes tasas de bit), luego fragmentar estas diferentes versiones en segmentos (ejemplo, 2 segundos), y finalmente dejar que el cliente decida cuál segmento (o que versión) bajará seguidamente, basado en su contexto (ejemplo, ancho de banda). Típicamente, la relación entre las diferentes versiones de segmentos es descrita por un manifiesto, que es suministrado al cliente antes de que la sesión de streaming se produzca.

La tecnología DASH estructura el contenido de multimedios en una forma jerárquica. Aquí, el nivel tope de jerarquía describe un objeto de medio completo (ej., película) y se denomina Presentación. Por medio de un Media Presentation Description (MPD, una forma de meta-­‐data) se describe los diferentes objetos constituyentes que conforman la Presentación. La parte inferior de la jerarquía está constituida por Segmentos, cada uno de los cuales es nombrado utilizando un URI. Sub-­‐segmentos también son posibles, pero no vienen identificados por medio de URIs. Existen estructuras adicionales utilizadas para seleccionar entre y dentro de Segmentos con el fin de satisfacer varios requerimientos de reproducción. La selección puede basarse en un número de factores incluyendo la preferencia del usuario, el estado del dispositivo, y la calidad de operación de la red.

Un ejemplo de escenario de streaming entre un servidor HTTP y un cliente DASH se describe a continuación (Ver figura 1). Aquí, un contenido de multimedios es capturado y almacenado en el servidor HTTP. La entrega de dicho contenido se efectúa por medio del protocolo HTTP. En el servidor, el contenido de medio aparece por medio de dos elementos: 1) el llamado Media Presentation Descriptor (MPD), que describe un manifiesto del contenido disponible, sus diferentes alternativas, sus direcciones URL, y otras características, y 2) por medio de segmentos que contienen las corrientes de bits de medios en forma de trozos, en archivos múltiples o sencillos. Cuando el cliente DASH desea reproducir cierto contenido, el debe primero obtener el correspondiente MPD. Al analizar el MPD recibido, el cliente DASH se entera de la temporización del programa, la disponibilidad del contenido de medio, los tipos de medios, las resoluciones, los anchos de banda mínimo y máximo, y de la existencia de diferentes alternativas de codificación de los componentes de multimedios, elementos de accesibilidad, el digital rights management (DRM) requerido, la ubicación de los componentes del medio en la red, y otras características que posee el contenido. Con esta información, el cliente DASH selecciona la alternativa de codificación más apropiada y, luego, se inicia el envío del contenido por streaming, al buscar los segmentos necesarios vía una solicitud HTTP GET.

Fig 1, Arquitectura de Alto Nivel de DASH

Luego de un almacenamiento provisional apropiado (buffering), que permite variaciones en la entrega de la información por parte de la red, el cliente DASH continua buscando los segmentos subsecuentes y monitoreando las fluctuaciones en el ancho de banda de la red. Dependiendo de los resultados de las mediciones, el cliente DASH decide la forma conveniente de adaptarse al ancho de banda disponible en el momento, al buscar segmentos de diferentes alternativas (con menores o mayores tasas de bits) para poder mantener un adecuado almacenamiento de información.

La especificación MPEG-­‐DASH solamente define el descriptos MPD y los formatos correspondientes a los segmentos. La entrega del MPD y los formatos de codificación de medios que contienen los segmentos, al igual que el comportamiento del cliente DASH en lo que respecta a su búsqueda, método iterativo de adaptación, y reproducción del contenido, se encuentra fuera del alcance del estándar MPEG-­‐DASH.

  1. VENTAJAS DEL ESTÁNDAR MPEG-­‐DASH

La adopción del estándar MPEG-­‐DASH ofrece una serie de beneficios. Debido a que varias empresas poderosas de medios participaron en su desarrollo, el nuevo protocolo eliminará algunos problemas importantes en la entrega y en la compresión. MPEG-­‐DASH unifica todas las tecnologías y estándares de plataformas de streaming previamente existentes en una sola, logrando que el soporte de streaming sea imperceptible en todos los dispositivos. Esto reduce efectivamente muchos dolores de cabeza tecnológicos y costos de transcodificación. De esta forma, los generadores de contenido, en general, pueden crear un simple conjunto de archivos para la codificación y el streaming correspondiente y que deben ser compatibles con la mayor cantidad de dispositivos posible, desde móviles hasta OTT, así como de desctop, vía conexiones de plug-­‐in o HTML5. Los consumidores ya no necesitan preocuparse de si sus dispositivos son capaces de reproducir el contenido que desean disfrutar.

  1. SERVICIOS DE TECNOLOGÍA DASH Y DE OTT

En el enorme ecosistema de video de hoy en día, los distribuidores de video OTT más importantes son, sin duda, los más activos implementadores de la tecnología DASH. DASH se encuentra en una posición privilegiada -­‐ella puede ser fácilmente manejada por JavaScript y el mecanismo de Media Source Extension (MSE) que actualmente se está expandiendo a todos los navegadores de Internet.

La implementación de DASH simplifica el flujo de trabajo a todos los niveles. Para el VoD, MPEG-­‐DASH es realmente el equivalente al estándar fundamental MPEG-­‐TS para el broadcast.

Uno de los elementos más importantes de DASH es el formato de archivo de medios, que es hoy en día utilizado por la mayoría de los dispositivos como receptores de TV, set-­‐top-­‐boxes, reproductores de Blu-­‐ray, etc. Un elemento clave adicional de DASH es el Common Encryption (CENC), ya que no es recomendable tener los archivos de medios ligados a un solo tipo de DRM específico. Esto maximiza la eficiencia del cache ya que tan solo se requiere de una única librería de video.

  1. TECNOLOGÍA DASH Y LOS BROADCASTERS

En broadcasting, la tecnología Hybride Broadcast Broadband TV (HbbTV) por fin ha entrado en el mercado de consumo con sus nuevos receptores 1.5TV. Según las nuevas especificaciones técnicas de HbbTV, DASH es el único formato aceptado cuando se trata de la protección de contenido vía DRM, y los despliegues son cada vez más numerosos.

Especialmente en Europa, HbbTV ha tenido mucho éxito en varios países, comenzando a introducir DASH en sus sistemas de broadcasting. Algunos broadcasters de varios países ya están entregando contenido OTT a set-­‐top-­‐ boxes de usuarios por medio de DASH.

  1. TECNOLOGÍA DASH Y LOS BROADCASTERS VÍA LTE Y DE TV-­‐PAGA

Otro mercado importante que está impulsando DASH viene representado por los Broadascters LTE. Este mercado está floreciendo rápidamente permitiendo a los operadores móviles tener la oportunidad de salir de las limitaciones del modo unicast para entrar en el modo de entrega por multicast, que multiplicará su capacidad de transmisión. Aquí, el dispositivo del usuario conmuta en forma inteligente entre dos manifiestos DASH asociados, dependiendo de las circunstancias de aprovisionamiento de la red. En un caso, se puede tratar de una versión DASH de tasa de bit simple para el broadcaster, y en el otro de una versión DASH de múltiple tasa de bit para la entrega vía unicast, con los fragmentos del video alternándose entre dos canales de entrega.

  1. Conclusiones

El impulso que ha adquirido la tecnología DASH últimamente es imparable. Hasta años recientes DASH fue una revolución suave, pero actualmente ella se está transformando en una verdadera ola con MPEG-­‐5/HEVC (High Efficiency Video Coding).

En el futuro cercano se verán muchos más despliegues a gran escala de DASH en el mundo. No será una invasión rápida, pero DASH dominará en términos de despliegue en unos años.