La videoconferencia con un poco de perspectiva: de RDSI a Javascript

La semana pasada tuve la suerte de asistir a unas jornadas de formación de mi empresa en Barcelona, nos juntamos todos los expertos de Colaboración que tenemos la especialidad de Telepresencia. Fue una oportunidad extraordinaria para ver a viejos amigos, compartir conocimiento y experiencias, pero sobre todo para mí fue una gran oportunidad de hacer un poco de retrospectiva sobre cómo ha evolucionado el mercado de la videoconferencia desde que empecé en esto, hace ya 8 años. Lo que disparó este pensamiento fue, sin duda, verme a mi mismo programando en Javascript, cómo ha cambiado el cuento!!!! me dije, y vaya que si ha cambiado, dejadme que os lo cuente…a mi manera.

Mi background técnico en el mundo de la Colaboración proviene principalmente del ámbito de la videoconferencia, habiendo trabajado durante 6 años en un fabricante exclusivamente de esta tecnología, Tandberg, para posteriormente incorporarme a Cisco tras la adquisión de la anterior y ampliar por tanto el rango de soluciones a las que doy consultoría preventa para incluir la telefonía IP, mensajería unificada, web conferencing, contact center, redes sociales para entorno empresarial, etc… pero, volvamos por un momento a la videoconferencia.

Cuando comencé en este mundo de la video lo que me encontraba principalmente eran clientes que ya utilizaban o querían utilizar la videoconferencia para hablar con el exterior a través de RDSI o, los menos, se planteaban una solución de videoconferencia en IP (por aquel entonces sólo H.323) para uso interno entre distintas delegaciones de su empresa. Los temas más habituales de los que hablar con los clientes era el tipo de resolución (CIF, 4CIF, etc…), si se podía o no compartir datos (Duo Video, H.239, VNC), la posibilidad de conectar una o dos pantallas, si se podía encriptar o no, los distintos interfaces de video (S-Video, RCAs,etc…), sesiones multipunto con MCU externa o interna, gatekeeper H.323, gateways RDSI, etc…

Lo que yo identificaría como un primer gran cambio frente a la situación anterior fue la aparición de H.264. Por aquel entonces no todos los fabricantes habían implementado este codec que ofrecía unos ahorros muy importantes en el ancho de banda para una misma calidad, recuerdo que dependiendo de con qué otros fabricantes hablásemos había que incluso desabilitar el protocolo para que la videoconferencia pudiese funcionar. Era el momento de desmitificar la afirmación tan extendida por aquel entonces de que para poder hacer videoconferencia se necesitaba un ancho de banda enorme no al alcance de muchos clientes, hablábamos de resoluciones, velocidades, tráfico útil, negociación de capacidades, codecs, etc…

Una segunda transición fue la causada por Firewall Traversal, o la forma de hacer videoconferencia en IP sin comprometer la seguridad de la empresa. Se empezó entonces a hablar más de redes IP y el discurso se complicó bastante, comenzamos a hablar más de networking: routers, firewalls, NAT, DMZ, puertos, etc… el cambio fue grande, he de reconocer que los que veníamos del mundo del networking IP nos sentíamos más a gusto en este entorno que no en el puramente audiovisual (matrices de audio y video, acústica, integraciones con controladores, etc…). H.264 junto a Firewall Traversal por ejemplo fueron los causantes de que algunos empezásemos por aquel entonces a teletrabajar, ya que el ancho de banda que nos proporcionaba una línea convencional de ADSL era suficiente para poder tener una reunión con compañeros e incluso con clientes, y la gestión de la seguridad en el firewall corporativo se simplificó enormemente.

Posteriormente llego SIP al mundo de la video, ya no sólo hablábamos de videoconferencia en RDSI o en IP, sino que dentro de IP teníamos que distinguir dos tipos de redes, SIP y H.323: ventajas de una sobre la otra, por qué las dos, pasarelas, integración con telefonía IP y con otras aplicaciones de escritorio, etc…pero sobre todo, qué SIP utilizar? pero no era estándar? Esa es la pregunta que más se repetía por aquel entonces, cada fabricante tenía una idea de lo que SIP debía ser, y añadía sus propias extensiones al protocolo por lo que lejos de facilitar la interoperabilidad entre fabricantes debíamos jugar con distintas implementaciones del mismo.

Alta Definición, así comenzaría otra transición, esta vez a por el mundo de la resolución, comenzó una escalada a ver qué fabricante soportaba mayor resolución a menor ancho de banda, con qué modelos, en punto a punto o multipunto, con qué codec, condiciones de luminosidad, Base Profile, High Profile, etc… era el momento de las demostraciones “un equipo junto a otro”, 448, 720, 576, calidad DVD, etc… días interminables de demostraciones a distintas velocidades, resoluciones, discusiones sobre codecs, estándares, etc…

Y llegó el turno de la Telepresencia o videoconferencia inmersiva, era el momento de las soluciones de gama más alta, un nuevo concepto de sala dedicada exclusivamente a la videoconferencia (o Telepresencia) donde lo importante no era sólo el equipo, pantallas cada vez más grandes, codecs cada vez más potentes, integraciones audiovisuales totalmente transparentes para el usuario, interfaces táctiles, etc… sino el entorno, ya no sólo hablábamos de tecnología, sino también de mobiliario, acústica, colores, etc… todo con el objetivo de hacer la experiencia de los usuarios lo más parecida posible a una reunión física.

Tras la Telepresencia, e impulsado también por ella aunque no de forma exclusiva, podríamos decir que llegaron los servicios gestionados, en los cuales el cliente únicamente se tenía que encargar de escoger el tipo de terminal (personal, de sala, una o dos pantallas, telepresencia, etc…) y el partner le proporcionaba el resto de equipamiento de infraestructura necesario para poder tener un servicio de conferencia adecuado (puertos para sesiones de multiconferencia, grabación, pasarelas a Internet o a RDSI, etc…). Se le dio entonces más importancia al tema de la gestión de esta infraestructura, hablábamos más de cosas como soporte multicliente, interfaces con los sistemas de billing, provisioning, puertos de MCU compartidos, políticas de acceso y utilización de recursos, provisión y gestión remota, etc… sería el germen de lo que ahora se conoce más como Telepresence as a Service o TPaaS. En este punto me gustaría hacer una aclaración, y es que el despliegue de servicios gestionados en España se ha dado en distintos momentos, no necesariamente después de la aparición de la Telepresencia, aunque he decidido ponerlo aquí ya que es cuando experimentó un mayor interés.

En la actualidad, considero que se ha producido otra transición, pero en sentido contrario al de los equipos de gama más alta, haciéndolo accesible a todos los usuarios en su escritorio, es el video en el desktop, entendiendo por desktop no sólo el PC sino cualquier dispositivo que utilicemos para trabajar (iOS, Android, MAC, Windows, etc…), desde cualquier lugar y en cualquier situación, muy en línea con la tendencia actual de Bring Your Own Device (BYOD). Un factor clave de su éxito o no dependerá de su integración con el resto de las soluciones que conforman una solución completa de Colaboración: telefonía, mensajería, presencia, redes sociales, web conferencing, contact center y, como comenzaba este post, de la integración con cualquier otra aplicación web de los clientes, SDK, APIs, Javascript, etc…

Qué deparará el futuro al mundo del video, pues no lo sé, sólo dejadme que os anticipe algunas ideas que darán que hablar a corto-medio plazo: SVC, H.265, VP9, webRTC, realidad aumentada, interfaces táctiles, robótica, etc… como suelo decir, video is on fire.

Para finalizar, me gustaría dejaos con un video de hace unos meses donde el I+D de Telepresencia de Cisco abrió sus puertas a la gente para mostrar algunas de las cosas en las que están trabajando, espero que os guste.

Anuncios

El futuro? Aumentado

Siempre he tenido una fascinación especial por las tecnologías que permiten hacer realidad virtual y crear entornos inmersivos, es decir, construir mundos imaginarios donde poder sumergir al usuario/espectador. No obstante, esta tecnología siempre se ha visto como algo excesivamente complejo y caro para el público en general ya que algunas soluciones de Realidad Virtual, por ejemplo, requieren de grandes espacios, gafas especiales, periféricos costosos, etc… Sin embargo, creo que la “realidad aumentada” es un paso intermedio entre el mundo real y el virtual, y, gracias a la tecnología hoy disponible, al alcance de cualquiera. Dicen que escribir sobre un tema ayuda a poner en orden tus ideas, así que a continuación me gustaría resumir algunas de las cosas que me han ayudado a mí mismo a entender un poco mejor en qué consiste la Realidad Aumentada.

Veamos antes que nada que es la Realidad Aumentada (RA). Según el informe de la Fundación Telefónica titulado “Realidad Aumentada: una nueva lente para ver el mundo”, publicado en 2011, “bajo el paraguas de realidad aumentada (en inglés Augmented Reality o AR) se agrupan aquellas tecnologías que permiten la superposición, en tiempo real, de imágenes, marcadores o información generados virtualmente, sobre imágenes del mundo real. Se crea de esta manera un entorno en el que la información y los objetos virtuales se fusionan con los objetos reales, ofreciendo una experiencia tal para el usuario, que puede llegar a pensar que forma parte de su realidad cotidiana, olvidando incluso la tecnología que le da soporte.”

En el siguiente esquema, tomado de http://www.realidadaumentada.info, se pueden ver los componentes de los que consta básicamente un sistema de Realidad Aumentada, éstos son:SistemaRA

  • Video cámara o webcam.
  • Pantalla.
  • PC u otro dispositivo ejecutando un programa de realidad aumentada.

Asimismo, podemos dividir los sistemas de RA en dos tipos:

  • Aquellos que funcionan en base al reconocimiento de un patrón o marcador (marker AR)
  • Los que no necesitan reconocer ningún patrón o marcador específico (markerless AR).

Un ejemplo del primer tipo (marker AR) es el de la figura anterior, donde el PC o dispositivo ejecuta un programa de RA y cuando éste identifica algún patrón en la imagen captada por la cámara (normalmente denominado marcador, y que podría ser un gráfico publicitario, caja de producto, etc…), el software hace que se visualice un “objeto” en la pantalla (en el caso del ejemplo un coche). Ese objeto suele ser un modelo 3D que se puede mover libremente al mismo tiempo que se mueve el marcador, pudiendo ver con mucho detalle y desde distintos ángulos el objeto.

Otros ejemplos de este tipo pueden ser:

  • Utilizando unos marcadores especiales llamados QR (Quick Response) existen múltiples aplicaciones, como por ejemplo una sobre Smartphones o tablets que sirve para añadir contactos a la agenda de forma automática desde una tarjeta de visita y que se puede ver en el siguiente video:

  • Utilizando marcadores impresos en libros, por ejemplo en una consola de videojuegos como la PlayStation 3 de Sony y su libro Wonderbook

  • Con marcadores impresos en el embalaje de juguetes, como Lego para mostrar los modelos a construir con sus piezas en unos stands específicos.

  • Con marcadores impresos en catálogos y revistas, como Ikea con su nuevo catálogo de 2013

Respecto al segundo tipo (markerless AR), estas se diferencian de las primeras en que la información que muestran (objeto 3D, etiquetas de texto, etc…) no depende de un marcador diseñado con ese propósito sino que utilizan otro mecanismo para lanzar la información virtual, como por ejemplo el GPS, y por lo tanto la información mostrada dependerá de hacia donde orientemos el dispositivo (geotagging) u otro tipo en el que se utilizan objetos reales como marcadores y características de visión por computadora, como es el reconocimiento de objetos, la detección de movimiento, colisiones, etc.. Algunos ejemplos de ambos tipos son:

  • Peak AR. App que te proporciona información sobre una montaña utilizando el GPS y enfocando la cámara hacía ella.

PeakAR

Foto extraída de: http://peakar.salzburgresearch.at

  • Google Sky Map. App que te proporciona información sobre el mapa de las estrellas enfocado por la cámara.

  • Wikitude. Browser de AR que te permite ver información geoetiquetada insertada por los propios usuarios.

Wikitude

Foto extraída de http://www.wikitude.com/app.

  • Probador virtual: Utilizando técnicas de reconocimiento de objetos y la cámara Kinect de Microsoft: :

  • Visualizadores o browsers de RA (Mobile  Browser AR applications)  que trabajan en base al reconocimiento de objetos, como Layar o Aurasma.

Aurasma

Imagen extraída de http://youtu.be/wi80g9WJvmw

Según el estudio de Telefónica comentado anteriormente, la tecnología de Realidad Aumentada, pasará de facturar 8 millones de dólares en 2008 a 350 millones en 2014, lo que supone un CAGR del 97%, y vendrá impulsada por una serie de factores que potenciarán su difusión entre el público en general, gracias sobre todo a la explosión de dispositivos móviles como smartphones o tablets, teniendo aplicaciones muy importantes en muchos sectores de nuestra sociedad, como por ejemplo el sector sanitario, educación, marketing y ventas, servicios públicos, etc…

En próximas entradas de este blog pretendo hablar con un poco más de detalle de la aplicación de la Realidad Aumentada a dos escenarios muy concretos, por un lado al sector educativo, y por otro al ámbito en el que desarrollo mi profesión, las Comunicaciones Unificadas y la Colaboración, lo que yo llamaría Colaboración Aumentada o Inmersiva, pero de momento os dejo con un video muy ilustrativo del potencial de esta tecnología, espero que os guste.