Want to make creations as awesome as this one?

Big Data, 5 v´s, ETL, ciclo de vida de los datos

Transcript

INFORMÁTICA

Ciclo de vida de los datos

Ing. Francisco Paz García

Variedad

Variabilidad formas tipos y fuentes en las que se registran los datos, pueden ser estructurados (Son aquellos que ya se diseñan, como por ejemplo pasar un conjunto de datos a una hoja de cálculo. ), semiestructurados, no estructurados (son aquellos que no tienen una estructura definida, correos electrónicos, conversaciones, Etc).

Big Data

Lo que hace que Big Data sea tan útil para las empresas es el hecho de que proporciona respuestas a muchas preguntas que ni siquiera sabían que tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan grande de información, los datos pueden ser moldeados o probados de cualquier manera que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de identificar los problemas de una forma más comprensible. Saber si ventas suben bajan en que temporada, el caso de la manipulación de la elección en EE UU Open data para la ciudadanía encontrar soluciones de tráfico, seguridad, analizar el índice de delincuencia para zonas seguras o en base a la hora

E

Extracción Para ello primero se centralizan los datos.

T

Transformación Standarizacion o data cleaning en base a un algoritmo

L

Load Cargarlos o guardarlos en un datawarehouse para después analizarlos

Es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que provienen de varias fuentes, pero no es la cantidad de datos lo que es importante. Lo que importa con el Big Data es lo que se hace con los datos.Se refieren a conjuntos de datos que van desde 30-50 Terabytes a varios Petabytes. Cuando hablamos de Big Data nos referimos a datos o combinaciones de datos que deben cumplir las 7 V’s

Volumen

Volumen gran cantidad de datos difícil de procesar con los medios tradicionales (Terabytes, Petabytes, Hexabytes), con la finalidad de transformar los datos en acciones

Veracidad

Veracidad Es la incertidumbre de los datos (Autenticidad, originalidad, confiabilidad) se ajusten a la realidad, que datos son veraces o no (1,000,000 seguidores de una cuenta pero son comprados)

Velocidad

Velocidad es la rapidez en la que son creados, almacenados y procesados en tiempo real

Valor

Valor datos que se transforman en información; esta a su vez se convierte en conocimiento y este en acción o decisión

Si los datos vienen de varias fuentes para poder analizarlos como si fuera solo una, se utiliza un proceso llamado

Captura

Captura primera etapa de ETL

Almacenamiento

Almacenamiento ya se realizó el ETL, datos guardados, limpios y standarizados

Procesamiento y análisis

Procesamiento y análisis encontrar patrones, nosotros definir que estamos buscando y escribir los modelos, algoritmos para esas búsquedas o ayudarnos de machine learning (es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que aprenden automáticamente.) que encuentra patrones que ni siquiera estábamos buscando

Exploración y visualización

Exploración y visualización mostrarla en un dashboard, en un tablero para que los tomadores de decisiones, gerentes de empresa gobernantes puedan tomar de decisiones viendo la información ya procesada, en gráficas, pero siguen siendo datos, pero muestran tendencias, comportamientos, predicciones, aunque no de forma exacta.

Viabilidad

Viabilidad capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan

Visualización

Visualización modo en que son presentados los datos para encontrar patrones y claves ocultas en el tema de investigar