Big Data - Dia 1
- 2 minutes read - 299 wordsCurso de BigData
Los datos son el pivot central de la nueva era digital
El BigData lo podemos definir como un conjunto de datos demasiado grandes o complejos que no pueden ser procesados por las aplicaciones tradicionales que se han quedado obsoletas. Los datos ya los tenemos disponibles solo necesitamos tecnologías BigData para extraer valor.
Las 5 V del BigData: Volumen, Velocidad, Variedad, Veracidad y Valor. Cada tipo de dato tiene que ser procesados con las herramientas adecuadas:
- Estructurados: Datos bien definidos, DBMS relacionales
- Desestructurados: Datos iniciales (PDF, email) generalmente sin curar.
- Semi Estructurados: Datos variables poco regulares pero con ciertas marcas (HTML, XML)
Dentro de los origenes de datos tenemos que pensar en todas las fuentes de las que disponemos: Personas, Transacciones, E-Marketing, Web, Machine2Machine, Biometria, IoT, Servidores de Aplicaciones, Sensores…
Técnicas
- Asociación: Relación entre datos. E-Commerce
- Data Mining: Encontrar comportamientos predictivos. Estádisticas y Machine Learning
- Agrupación: Evaluación preliminar de datos
- Análisis de Texto: Extracción de información de datos no estructurados. Predicción de sentimientos.
Ámbitos
- Empresa
- Redes Sociales: Análisis de sentimiento, predicción de comportamientos
- Consumo: Ventas cruzadas, Moviemiento dentro de recintos
- Intimidad
- Deporte
- Optimización de rendimiento
- Entrenamientos adaptados
- Investigación
- Salud
- Seguridad (Palantir)
- Ciencia
- Gobierno
Proyectos BigData
Suponen un cambio de paradigma en los proyectos, donde el enfoque debe partir desde Negocio, no desde IT, que busca solventar un problema específico, no todos. Este enfoque permite maximizar el ROI de cada proyecto.
Motivaciones
- El procesado y/o almacenaje de datos se vuelve insostenible y se hace necesario una arquitectura mejor.
- La introducción de fuentes externas de datos no normalizados.
Ecosistema
- Modelado: texto, secuencia, avro, Thrift, Parquet, ORC
- Ingesta: sqoop, kafka, flume, flafka
- Almacenamiento: HDFS (Batch o RealTime)
- Procesado
- Orquestación
- Análisis: SparkQL
- Gobernación: Gestión de DataSets (Auditoria, identificación)
- Integración con BI
Hay tres grandes actores de soluciones completas: Cloudera, Horton, MapR.