Example: air traffic controller

Big data. Un nuevo paradigma de análisis de datos

10 anales de mec nica y electricidad / noviembre-diciembre 2014 Palabras clave: c lculo distribuido, conjuntos de datos masivos, estad sti-ca, miner a de datos . Resumen: En nuestros d as, es un hecho in-cuestionable la ingente cantidad de informaci n que se genera cada se-gundo en nuestro planeta. Dicha in-formaci n puede ser estructurada, semiestructurada o no estructurada. Tambi n puede aportar enorme valor a cualquier entidad o puede suponer un consumo excesivo de recursos hu-manos, inform ticos, an lisis inteligente (y la mayor a de las veces en tiempo real) de este tipo de informaci n est empezando a ser un requisito innegable para la su-pervivencia de muchas empresas y or-ganizaciones.

Un nuevo paradigma de análisis de datos 11 Introducción Tradicionalmente la estructura de un conjunto de datos se presenta como una matriz de n filas y p co-lumnas, representando cada fila infor-mación sobre p variables medidas en cada unidad (individuo, empresa, in-mueble, calle de una gran ciudad, pro-cedimiento judicial, etc.). Por ejemplo,

Tags:

  Paradigma, Paradigma de

Information

Domain:

Source:

Link to this page:

Please notify us if you found a problem with this document:

Other abuse

Transcription of Big data. Un nuevo paradigma de análisis de datos

1 10 anales de mec nica y electricidad / noviembre-diciembre 2014 Palabras clave: c lculo distribuido, conjuntos de datos masivos, estad sti-ca, miner a de datos . Resumen: En nuestros d as, es un hecho in-cuestionable la ingente cantidad de informaci n que se genera cada se-gundo en nuestro planeta. Dicha in-formaci n puede ser estructurada, semiestructurada o no estructurada. Tambi n puede aportar enorme valor a cualquier entidad o puede suponer un consumo excesivo de recursos hu-manos, inform ticos, an lisis inteligente (y la mayor a de las veces en tiempo real) de este tipo de informaci n est empezando a ser un requisito innegable para la su-pervivencia de muchas empresas y or-ganizaciones.

2 Como consecuencia de ello han surgido en los ltimos a os t rminos de nuevo cu o como big data, Mapreduce, Hadoop o compu-taci n en la nube. As , la demanda de los llamados cient ficos de datos est creciendo exponencialmente. Este art culo plantea una introduc-ci n divulgativa a todos estos t rmi-nos y analiza las estructuras m s co-nocidas para el tratamiento de los big data, as como las cuestiones legales y words: data mining, distributed computing, massive datasets, :An unquestionable fact is the vast amount of information that each second is now generated on our planet.

3 This in-formation can be structured, semi-struc-tured or unstructured. It can also bring tremendous value to any entity or may lead to undue consumption of human or computing resources. Intelligent analysis (generally in real time) of this informa-tion is becoming absolutely undeniable for the survival of many companies and organizations. As a result demand for the so-called data scientist is growing exponentially and new concepts like big data, Mapreduce, Hadoop or cloud com-puting have article presents an informative in-troduction to all these terms and analy-zes the best known structures for the treatment of big data, as well as legal and ethical Mat Jim nez Profesor Propio de la ETSI (ICAI) de la Universidad Pontificia Comillas de Madrid, adscrito al Departa-mento de Organizaci n Industrial y al Instituto de Investigaci n Tecnol gica (IIT).

4 Doctor en Ciencias Matem ticas y diplomado en Ciencias Econ micas y Empresariales por la Universidad Complutense. Actualmente imparte las asignaturas de An lisis de datos , Econom a y Gesti n de Empresas y Estad sti-ca. Reconocido experto en predicci n y en an lisis de datos simb licos, ha escrito varios libros sobre Estad stica y publicado diversos art culos sobre aplicaciones de los m todos estad sticos en pres-tigiosas revistas internacionales y nacionales, tanto del mbito industrial, inform tico y de organizaci n como del econ mico. There was five exabytes of information created between the dawn of civilization through 2003, but that much information is now created every two days, and the pace is Schmidt, former CEO of Google, 2010 Big data.

5 Un nuevo paradigma de an lisis de datosBig data. Un nuevo paradigma de an lisis de datos 11 Introducci nTradicionalmente la estructura de un conjunto de datos se presenta como una matriz de n filas y p co-lumnas, representando cada fila infor-maci n sobre p variables medidas en cada unidad (individuo, empresa, in-mueble, calle de una gran ciudad, pro-cedimiento judicial, etc.). Por ejemplo, la hoja de c lculo Excel 2013 puede utilizarse para mostrar filas por columnas en cada hoja, siendo los l mites m ximo de almace-namiento en memoria de 2 gigabytes (GB) en un entorno de 32 bits, y los l mites del sistema y su memoria en un entorno de 64 bits.

6 Recordamos que un bit es la m ni-ma cantidad de informaci n procesada, s lo puede ser 1 o 0; mientras que un byte es un conjunto de 8 bits. La Tabla 1 muestra los distintos m ltiplos del byte con algunos ejemplos de los mbitos est tico y din mico de la informaci n, tomando como base el a o soluci n a las limitaciones de Excel procedi de los sistemas de gesti n de bases de datos relaciona-les (RDBMS), que utilizan lenguaje de consultas estructurado (SQL) para definir consultas y actualizar la base de datos . Las empresas l deres en el mercado de sistemas de bases de da-tos son Oracle, IBM y Microsoft.

7 Estos sistemas se dise aron para la retenci n de datos estructurados, en lugar de para asimilar un crecimiento vertiginoso de los mismos y la mayor a de las veces present ndose en forma no estructurada o semiestructurada, lo que hace de ellos una herramienta extraordinariamente costosa si la qui-si ramos utilizar para manejar y alma-cenar datos masivos. Por ejemplo, se pueden consultar las especificaciones de capacidad m xima para un servi-dor SQL en 2014 en la web: conclusi n a la que se llega es la incapacidad de las bases de datos tradicionales para dar respuesta a muchos de los datos que aparecen ahora en las empresas.

8 Por ejemplo, la informaci n que se genera cada d a a trav s de la opini n de los clientes de una marca en las redes sociales como Facebook, Twitter, t rmino big data : definiciones y tipos. Internet de las cosasDesde hace unos a os (especial-mente los dos ltimos a os), se ha venido observando que las cantidades masivas de datos recogidas a lo largo del tiempo responden al concepto de big data. Se han propuesto varias de-finiciones para este t rmino, aunque todav a no hay una definici n uni-versal al respecto ( recoge m s de 40 definiciones). La Organiza-ci n Mundial de Normalizaci n (ISO) ha creado un grupo de trabajo que va a redactar la norma de vocabulario ISO 3534-5, dedicada al mundo del big data y la anal tica predictiva.

9 Mientras llega esa definici n universal comenta-mos algunas de las m s definici n que proporciona el dic-cionario de ingl s de Oxford es datos de tama o muy grande, t picamente hasta el extremo de que su gesti n presenta retos log sticos significativos .El estudio publicado por McKinsey Global Institute (MGI) en junio de 2011: el sentido de la definici n anterior al definir big data como con-juntos de datos cuyo tama o va m s all de la capacidad de captura, alma-cenado, gesti n y an lisis de las herra-mientas de base de datos .Tabla 1. Unidades b sicas de informaci n y tratamiento de datosNombreS mbolo Sistema internacionalEjemplo 2014 est ticoEjemplo 2014 din micoByteB100 bytes1 B es un n mero de 0 a 255 KilobyteKB103 bytes2 KB es aproximadamente un sector de CD-ROMM egabyteMB106 bytes3 MB es aproximadamente una canci n de 3 minutos4 MB/min en llamadas de v deo por SkypeGigabyteGB109 bytes8/16 GB es el tama o est ndar de mercado de un pen-drive 4 GB/hora de v deo de alta calidad TerabyteTB 1012 bytes4 TB es el tama o de un disco de 120 que almacena fotos o canciones mp320 TB/hora es la informaci n generada por un motor

10 De avi n en el airePetabytePB 1015 bytes2 PB es la informaci n almacenada en todas las bibliotecas de investigaci n acad micas de USA24 PB/d a es la informaci n recogida por GoogleExabyteEB1018 bytes5 EB es aproximadamente todas las palabras pronunciadas por todos los seres humanos 966 EB es aproximadamente la predicci n del volumen total de Internet en 2015 ZettabyteZB1021 bytesSe estim que en 2012 la capacidad instalada de almacenamiento de informaci n en el mundo ser a de 2,5 ZB/a o es la cantidad de datos digitales pro-medio que se van a generar en la Tierra en los pr ximos 8 a osYottabyteYB1024 bytes1 YB equivale a la capacidad del Data Center inaugurado por la NASA en 2013 XerabyteXB1027 bytes1 XB equivale a iPad 3 de m xima capacidad por cada habitante de la tierra12 anales de mec nica y electricidad / noviembre-diciembre 2014En 2012 Gartner defini big data como activos de informaci n carac-terizados por su volumen elevado, ve-locidad elevada y alta variedad.


Related search queries