Asociación de
                  Técnicos de Informática


Novática:
                  revista creada en 1975 por ATI (Asociación de Técnicos
                  de Informática)

Revista decana de la
prensa informática española

Núm. 237 (julio-octubre 2016))

Información
sobre ATI

Información sobre
Novática

Info about Novática
(in English)

Índice general de Novática

Subscripción a Novática o compra de números atrasados

Último número

Búsqueda
 


 
Portada de Novática número 237
  Monografía


  Big Data

 
Portada  (pulse aquí si desea ver la versión a tamaño real en formato PDF - 0,7 Mb.)
  "La decisión" - Concha Arias Pérez © 2016 ATI (Asociación de Técnicos de Informática) 

  Notas importantes:

 
1. Este número de la revista se distribuye solamente en formato digital. Tal como anunciamos en el editorial de
  Novática 215 a partir de 2013, Novática se publicaexclusivamente en versión digital.

  2. En esta página encontrará una versión reducida de este número.
Si desea comprar este u otro número de la
  revista, o
suscribirse a ella, infórmese pulsando aquí. Los socios de ATI tienen acceso a las versiones digitales
  íntegras de todos los números en la IntrATInet de la asociación.

  3
. Los artículos almacenados en PDF requieren el programa Acrobat Reader (gratuito) para su visualización. 
                                                   

                                                    Sumario
                                                    [contenido completo en formato PDF]

                                                    Versión reducida  - PDF navegable mediante árbol de marcadores.
                                                                     [contenido reducido en formato PDF - 2,7 Mb]    
 

                                                    Para aquellos que visualicen el PDF a través de un navegador debemos indicar que en Mozilla Firefox la opción de navegar
                                                                     a través de los marcadores se activa en el menú Ver, opción "Mostrar/Ocultar" "Paneles de navegación".
                                                                     Mientras que en Internet Explorer es a través del menú contextual del botón derecho, opción "Mostrar botones del panel de
                                                                     navegación". Para cualquier información adicional, rogamos contacten con nosotros en novatica@ati.es.

                                                                                                 
                                               

Bloque
Editorial
Monografía
Secciones Técnicas
Sociedad de la Información
Asuntos Interiores

     Nota muy importante: los artículos almacenados en PDF requieren el programa Acrobat Reader (gratuito) para su visualización.


Bloque editorial [contenido completo en formato PDF]

Editorial
La hora del Big Data
Periodicidad de Novática desde julio de 2016 hasta junio de 2017  2

Noticias de ATI
Nombramiento de la nueva Directora de Novática  3

En resumen
Un agradecimiento muy especial para todos nuestros colaboradores  3
Llorenç Pagés Casas

Noticias de IFIP
Asamblea General de IFIP  4
Ramon Puigjaner Trepat
WITFOR 2016  5
Ana Pont Sanjuán 

Noticias del TC9: ICT and Society  5
Ignacio Gil Pechuán
Reunión anual del TC2 “Software: Theory and Practice”  6
Antonio Vallecillo Moreno

Actividades de ATI
X Edición del Premio Novática: Entrega del premio al autor ganador  6


Monografía: "Big Data"

Editores invitados: José María Gómez Hidalgo y Ricardo Baeza-Yates

Presentación. Big Data: Conceptos y aplicaciones  9
José María Gómez Hidalgo, Ricardo Baeza-Yates
[contenido completo en formato PDF]

Datos masivos en la Web  12
Ricardo Baeza-Yates
[resumen]

Big Data: Preprocesamiento y calidad de datos  17
Salvador García, Sergio Ramírez-Gallego, Julián Luengo, Francisco Herrera
[resumen]

Internet de las Cosas: La minería de flujos de datos masivos en tiempo real  24
Albert Bifet, Jesse Read
[resumen]

Análisis Big Data en sistemas de computación de alto rendimiento: Tecnologías, herramientas y ejemplos  31
Alexey Cheptsov, Bastian Koller
[resumen]

Big Data y sistemas de recomendación  39
David C. Anastasiu, Evangelia Christakopoulou, Shaden Smith, Mohit Sharma, George Karypis
[resumen]

Estudio sobre la escalabilidad del algoritmo de agrupamiento estructural paralelo para redes en Big Data  46
Weizhong Zhao, Gang Chen, Venkata Swamy-Martha, Xiaowei Xu
[resumen]

Introducción a la analítica de texto con Spark  53
José María Gómez Hidalgo
[resumen]

Cómo mejorar el conocimiento de tu audiencia: Experiencias de la CCMA en un entorno Big Data  60
Xavier Ferràndiz Bofill, Alberto Alejo Marcos
[resumen]

Privacidad en la analítica masiva de datos  65
José María del Álamo Ramiro, Esmeralda Saracibar Serradilla, Emilio Aced Félez
[resumen][contenido completo en formato PDF]


Secciones Técnicas

Tendencias Tecnológicas
¿Nos está haciendo felices la tecnología?  70
Dorian Peters
[resumen][contenido completo en formato PDF]

Referencias autorizadas  72
En esta sección  se contienen recomendaciones de lecturas, noticias  y fuentes diversas que elaboran los coordinadores de las Secciones Técnicas
de nuestra revista Novática, todos ellos destacados especialistas en sus respectivos campos

[contenido completo en formato PDF]


Sociedad de la información


Programar es crear      
El problema del robot de exploración de Marte
(Competencia UTN-FRC 2014, problema 5, enunciado)  78

Julio Javier Castillo, Diego Javier Serrano, Marina Elizabeth Cárdenas
[contenido completo en formato PDF]

Programar es crear
Discos duros
(Competencia UTN-FRC 2015, problema A, solución)
  79
Julio Javier Castillo, Diego Javier Serrano, Marina Elizabeth Cárdenas
[contenido completo en formato PDF]


Asuntos Interiores

Coordinación editorial / Programación de Novática / Socios Institucionales  80
[contenido completo en formato PDF]
Monografía del próximo número: "Seguridad Digital"




Resúmenes de artículos

Monografía: "Big Data"

Editores invitados

José María Gómez Hidalgoha sido profesor e investigador en la Universidad Complutense de Madrid y la Universidad Europea de Madrid, durante 16 años, y Director de I+D en la empresa multinacional de seguridad de Optenet (ahora Allot Communications). Actualmente es Analytics Manager en la empresa de Big Data Pragsis Technologies, donde realiza consultoría de Big Data Analytics para empresas de banca y finanzas, turismo, industria, medios de comunicación, etc. A nivel de investigación, José María se centra principalmente en el Procesamiento del Lenguaje Natural y Aprendizaje Automático sobre datos textuales, con aplicaciones en el acceso a la información de actualidad y biomédica, y la Recuperación de Información con Adversario (filtrado de correo basura, filtrado Web y protección del menor en Internet). Es autor de numerosos trabajos de investigación en estas áreas, coordinador de la sección  técnica de “Acceso y recuperación de información” de Novática, y fue coeditor de la monografía del número 185 de la revista, titulada “Buscando en la Web del Futuro”. Asimismo, José María es miembro de SEPLN, ACM y ATI.

Ricardo Baeza-Yates es Director de Tecnología (Chief Technology Officer, CTO) de NTENT <http://www.ntent.com>, una compañía de tecnología de búsqueda semántica basada en New York y California, desde junio de 2016. Antes fue Vicepresidente de Investigación de Yahoo Labs, primero en Barcelona y luego en Sunnyvale, California, desde enero del 2006 hasta febrero del 2016. Entre 2008 y 2012 también supervisó Yahoo Labs Haifa y entre 2012 y 2015 estuvo a cargo de Yahoo Labs Londres. Hasta 2005 fue director del Centro de Investigación de la Web <http://www.cwr.cl/> en el Departamento de Ciencias de la Computación <http://www.dcc.uchile.cl> de la Escuela de Ingeniería <http://www.fcfm.uchile.cl> de la Universidad de Chile <http://www.uchile.cl>; y catedrático ICREA y fundador del Grupo de Investigación de la Web <http://wrg.upf.edu> en el Dept. de Tecnologías de la Información y las Comunicaciones <http://www.upf.edu/dtecn> de la Universitat Pompeu Fabra <http://www.upf.ed/> en Barcelona (España). Mantiene vínculos con ambas universidades como catedrático jornada parcial. Obtuvo su doctorado en Ciencia de la Computación en la Universidad de Waterloo (Canadá) en 1989. Sus intereses de investigación incluyen algoritmos y estructuras de datos, recuperación de información, búsqueda y minería deatos en la Web además de  data science y visualización de datos. Tiene más de 500 publicaciones donde destaca el libro Modern Information Retrieval, cuya segunda edición fue publicada en 2011 por Addison-Wesley. Ha obtenido varios premios, incluyendo distinciones de la Organización de Estados Americanos, el Centro Latinoamericano de Estudios en Informática, el Instituto de Ingenieros de Chile y la Universidad de Waterloo. Es Fellow de la ACM y de la IEEE.
Vuelta a inicio

Datos masivos en la Web
Ricardo Baeza-Yates
Director de Tecnología (CTO) de NTENT,Catedrático part-time de la Universitat Pompeu Fabra y la Universidad de Chile


Resumen:
La Web es sin duda el repositorio de datos público más grande creado por la Humanidad, siendo el mejor ejemplo de lo que hoy se llama “big data” o datos masivos. En este artículo describimos los datos que se pueden encontrar en la Web, su volumen y analizamos sus características: calidad, escalabilidad, sesgos, dispersión y privacidad.

Palabras clave: Calidad, datos masivos, dispersión, escalabilidad, privacidad, sesgo, Web.

Vuelta a inicio

Big Data: Preprocesamiento y calidad de datos
Salvador García, Sergio Ramírez-Gallego, Julián Luengo, Francisco Herrera
Departamento de Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada (España)


Resumen: En los últimos años, el crecimiento masivo en la escala de los datos está siendo un factor clave en el actual escenario de procesamiento de datos. La eficacia de los algoritmos de extracción de conocimiento depende en gran medida de la calidad de los datos, la cual puede ser garantizada por los algoritmos de preprocesamiento. Sin embargo, en esta era de Big Data, los algoritmos de preprocesamiento tienen dificultades para trabajar con tal cantidad de datos, siendo necesario nuevos modelos que mejoren su capacidad de escalado. El objetivo de este trabajo es presentar la importancia del preprocesamiento de datos en Big Data, así como, estudiar las herramientas y técnicas de análisis de datos que dan soporte a la tarea del preprocesamiento de datos masivos.

Palabras clave: Big Data, calidad de datos, datos imperfectos, datos masivos, discretización, minería de datos, preprocesamiento de datos, selección de atributos, selección de instancias, transformación de datos.

Vuelta a inicio

Internet de las Cosas: La minería de flujos de datos masivos en tiempo real
Albert Bifet, Jesse Read
Telecom ParisTech, París (Francia)

Resumen: Una de las características principales de los datos masivos (Big Data) es que se producen a alta velocidad en tiempo real. Para tratarlos de manera apropiada tenemos que ser capaces de adaptarnos a los cambios en la distribución de los datos que se producen, y tenemos que hacerlo con la cantidad mínima de tiempo y memoria. Internet de las Cosas (IoT por sus siglas en inglés, Internet of Things) es un buen ejemplo de este tipo de flujos de datos producido en tiempo real. En este artículo, hablamos de algunas metodologías de vanguardia en la minería de datos en tiempo real, y las herramientas de código abierto disponibles para el aprendizaje automático/minería de datos en tiempo real en este entorno complejo.

Palabras clave:
Agrupamiento, aprendizaje automático, aprendizaje de máquinas, ciencia de datos, clasificación, flujos de datos, Internet de las Cosas, Internet de los Objetos.

                                                                                                                                                                                                                                                                                                                                                                                                    Vuelta a inicio

Análisis Big Data en sistemas de computación de alto rendimiento: Tecnologías, herramientas y ejemplos
Alexey Cheptsov, Bastian Koller
High Performance Computing Center, Stuttgart (Alemania)

Resumen: Las aplicaciones actuales de análisis de datos imponen exigentes requerimientos de recursos de almacenamiento y de proceso. De este modo han evolucionado hacia una nueva clase denominada aplicaciones de  Computación de Alto Rendimiento (CAR). Sin embargo, las típicas plataformas Big Data tales como Hadoop, Spark, etc…, no se encuentran normalmente soportadas por defecto en las infraestructuras tradicionales CAR. La razón principal se debe a que están basadas en tecnología Java que no permite que el hardware de las CAR, muy complejo y caro, pueda ser utilizado de una manera eficiente. El rendimiento sostenible y la eficiencia de la infraestructuraes un factor de uso de las CAR que no es irrelevante en las configuraciones de aplicaciones Big Data. En este capítulo analizaremos la aplicabilidad de las tecnologías CAR más establecidas y herramientas tales como Message-Passing Interface (MPI) para la implementación de aplicaciones de análisis de datos, demostraremos las ventajas de este enfoque sobre los más tradicionales.

Palabras clave:
Análisis de datos, CAR, Java, MPI, rendimiento.
                                                                                                                                                                                                                                                                                                                                                                                                     Vuelta a inicio

Big Data y sistemas de recomendación
David C. Anastasiu (1), Evangelia Christakopoulou (2), Shaden Smith (2), Mohit Sharma (2), George Karypis (2)
(1) Departamento de Ingeniería Informática, San Jose State University, California (EEUU) (2) Departamento de Ciencias de la Computación, Universidad de Minnesota (EEUU)

Resumen: Los sistemas de recomendación son hoy en día ubicuos en el mercado y tienen una enorme importancia comercial como se evidencia a partir del gran número de empresas que comercializan soluciones de sistemas de recomendación. Los sistemas de recomendación exitosos usan datos de compras pasadas y datos de satisfacción para realizar recomendaciones personalizadas de alta calidad. Las enormes cantidades de datos disponibles para los sistemas de recomendación actuales hacen necesaria una reevaluación de los métodos que se usan para calcular recomendaciones. En este artículo, proporcionamos una revisión de los sistemas de recomendación de la era Big Data. Destacamos los algoritmos de recomendación prevalentes y como éstos se adaptan para operar en entornos de computación paralelos y distribuidos. En el contexto de los sistemas de recomendación, centramos nuestra discusión en dos retos específicos: Cómo ampliar las búsquedas de los vecinos más cercanos y cómo desarrollar los métodos de recomendación enfocados a factores latentes con especial énfasis en la factorización de tensor.

Palabras clave:
Big Data, computación paralela, escalado, factorización de tensor, modelos de factor latente, sistemas de recomendación, vecinos más próximos

                                                                                                                                                                                                                                                                                                                                                                                                    Vuelta a inicio

Estudio sobre la escalabilidad del algoritmo de agrupamiento estructural paralelo para redes en Big Data
Weizhong Zhao (1), Gang Chen (1), Venkata Swamy-Martha (1), (2), Xiaowei Xu (1)
(1) Universidad de Arkansas, Little Rock, Arkansas (EEUU); (2) Cuberon Inc. Sunnyvale, California (EEUU)

Resumen: Las redes se han empleado habitualmente como estructuras de datos para representar datos complejos. Muchas aplicaciones aprovechan la(s) representación(es) de la(s) red(es) (denominadosnormalmente grafos) para tratar con los datos. SCAN (Agrupamiento Estructural para Análisis de Redes) es uno de los algoritmos complejos para agrupar los nodos de una red. El algoritmo SCAN se ha ampliado para trabajar con Big Data, pasando a llamarse algoritmo PSCAN (SCAN Paralelo). En este trabajo utilizamos el algoritmo PSCAN con un conjunto de datos disponible públicamente, derivado del sitio de la red social Twitter, para investigar la eficiencia, en términos de precisión y complejidad temporal, del algoritmo. Analizamos la red Twitter con más de 40 millones de nodos de usuarios y 1,4 mil millones de relaciones de seguidores/seguimientos, usando PSCAN en un clúster Hadoop con 32 ordenadores. El  resultado muestra que PSCAN detectó con éxito comunidades interesantes de personas que comparten intereses comunes. Además, se han creado varias redes artificiales usando el generador de referencias LFR para entender la escalabilidad del algoritmo PSCAN con las redes de Big Data. Una evaluación empírica usando tanto las redes reales como las virtuales, demostró un rendimiento excepcional en términos de precisión y tiempos de ejecución.

Palabras clave:
Algoritmos de agrupamiento de red, Big Data, estructuras de comunidad, Hadoop, MapReduce.
                                                                                                                                                                                                                                                                                                                                                                                                   Vuelta a inicio

Introducción a la analítica de texto con Spark
José María Gómez Hidalgo
Analytics Manager de Pragsis Bidoop, coordinador de la sección técnica “Acceso y recuperación de información” de Novática

Resumen: Con el creciente volumen de datos textuales existentes en las corporaciones y generados por los usuarios, se hace cada vez más necesario ser capaz de procesarlos y analizarlos con tecnologías escalables en volumen y en tiempo real. Una de las tecnologías Big Data más consolidadas actualmente, la plataforma Spark, proporciona funcionalidades que permiten el desarrollo rápido de sistemas capaces de clasificar documentos de manera automática, utilizando algoritmos de Aprendizaje Automático. En este artículo explicamos este tipo de sistemas, describimos cómo Spark puede ayudarnos en su desarrollo, y mostramos un ejemplo de aplicación al análisis de sentimiento, que es una de las tareas de clasificación de texto más populares hoy en día.

Palabras clave:
Análisis de sentimiento, analítica de texto, aprendizaje automático, clasificación de texto, procesamiento del lenguaje natural, Spark, Spark MLlib, Spark Streaming.
                                                                                                                                                                                                                                                                                                                                                                                                                                                              Vuelta a inicio

Cómo mejorar el conocimiento de tu audiencia: Experiencias de la CCMA en un entorno Big Data
Xavier Ferràndiz Bofill (1), Alberto Alejo Marcos (2)
(1) Director de Ingeniería e Infraestructuras, Corporació Catalana de Mitjans Audiovisuals, SA (CCMA, SA); (2) Responsable de Desarrollo de Software, Ingeniería e Infraestructuras,
Corporació Catalana de Mitjans Audiviovisuals, SA

Resumen: Este artículo ofrece una visión de alto nivel del enfoque de soluciones Big Data en la CCMA, SA: qué motiva iniciar esta nueva línea de trabajo empresarial, qué pasos se han realizado,con qué tecnologías,
qué conclusiones se han obtenido y los próximos pasos previstos.

Palabras clave:
Analítica, audiencia, audiovisual, Big Data, Cloudera, clusterización, Data Lake, ElasticSearch, HDFS, Hive, HortonWorks, personalización, perfilado de usuarios, media, motor derecomendación, K-Means, segmentación, Spark, NodeJS, Storm..
                                                                                                                                                                                                                                                                                                                                                                                                   Vuelta a inicio

Privacidad en la analítica masiva de datos
José María del Álamo Ramiro (1), Esmeralda Saracibar Serradilla (2), Emilio Aced Félez (3)
(1) Departamento de Ingeniería de Sistemas Telemáticos, Escuela Técnica Superior de Ingeniería de Telecomunicación, Universidad Politécnica de Madrid; (2) ECIX Group; (3) Unidad de Evaluación y Estudios Tecnológicos,
Agencia Española de Protección de Datos

Resumen: La analítica masiva de datos promete revelar relaciones entre datos hasta ahora ocultas, predecir tendencias generales y ofrecer nuevo conocimiento inferido mediante la recolección de enormes y complejos conjuntos de datos y la aplicación de novedosos algoritmos de análisis. Este avance tecnológico trae consigo grandes posibilidades para organizaciones de distintos tipos y tamaños, que ven en él una posibilidad para mejorar sus procesos, resultando tanto en beneficios sociales como económicos. Sin embargo, los avances tecnológicos normalmente llevan asociados nuevos desafíos para las sociedades que los adoptan, y la analítica masiva de datos plantea notables riesgos para la privacidad de las personas por su capacidad para revelar información que se creía privada. En este artículo se ofrece una panorámica general sobre los principales riesgos que la analítica masiva de datos entraña para la privacidad y la protección de datos personales, y se ofrecen distintos enfoques jurídicos, organizativos y técnicos que las organizaciones pueden adoptar para sacar el máximo provecho de los datos de que disponen a la vez que respetan los derechos individuales.

Palabras clave:
Análisis de datos, Big Data, GDPR, inferencia, privacidad, procesamiento, protección de datos personales, recolección, regulación.
                                                                                                                                                                                                                                                                                                                                                                                                    Vuelta a inicio
Secciones Técnicas


Tendencias tecnológicas
¿Nos está haciendo felices la tecnología?
Dorian Peters
Creative Leader, Positive Computing Lab, Universidad de Sidney (Australia), coautora del libro “Positive Computing: Technology for Wellbeing and Human Potential”

Resumen: Durante décadas, los ingenieros han realizado diseños para cosas sensibles como la productividad, la eficiencia o la certeza. Esas medidas funcionaban bien para el lugar de trabajo, pero fallan ahora que las tecnologías penetran cada vez más íntimamente en nuestras vidas, mediatizando cada experiencia que nos modela. En respuesta a ello, ha emergido un nuevo campo de trabajo llamado “Computación Positiva” (Positive Computing) para investigar cómo la psicología del bienestar puede ayudar al diseño de la tecnología para crear experiencias digitales que den mayor soporte a nuestro bienestar. En última instancia, la visión de la computación positiva es un futuro en el cual todas las tecnologías, desde los medios sociales al correo electrónico y los juegos, sean diseñados para ayudarnos a prosperar.

Palabras clave:
Bienestar, computación positiva, experiencia de usuario, interacción personaordenador, psicología.
                                                                                                                                                                                                                                                                                                                                                                                                     Vuelta a inicio

Sociedad de la Información

Programar es crear
El problema del robot de exploración de Marte
Julio Javier Castillo, Diego Javier Serrano, Marina Elizabeth Cárdenas
Laboratorio de Investigación de Software MsLabs, Dpto. Ing. en Sistemas de Información, Facultad Regional Córdoba - Universidad Tecnológica Nacional (Argentina)


Vuelta a inicio

Programar es crear
Discos duros
Julio Javier Castillo, Diego Javier Serrano, Marina Elizabeth Cárdenas
Laboratorio de Investigación de Software MsLabs, Dpto. Ing. en Sistemas de Información, Facultad Regional Córdoba - Universidad Tecnológica Nacional (Argentina)


Vuelta a inicio



Última actualización: 2 de enero de 2017 Autor: Llorenç Pagés Casas
Sugerencias,novatica@ati.es
Mejor con
                    cualquierHTML
                    3.2