¿Cual es la tecnología Big Data necesaria para iniciarse en la materia?
Desde que internet irrumpió en nuestras vidas existen innumerables aplicaciones a nuestro alcance para ser usadas. Antes poseer y consumir todo este material era absolutamente imposible económica y tecnológicamente. El uso de la información estaba limitado a los puntos más relevantes. Existen herramientas open-source. El ecosistema hadoop.
Tecnología big data: Hardware
Actualmente no es necesario un superordenador de 10 plantas. En primer lugar podemos fácilmente hacer pruebas viables con sistemas a partir de 16 GB RAM y 1 TB de disco duro. En un entorno productivo se usa «comodity hardware», es decir máquinas baratas y fáciles de reemplazar. ¿Dónde recae la fiabilidad del sistema entonces? en el software. El hardware deberá ser configurado acorde al escenario en el que vayamos a trabajar.
Para usar este software no es necesario un cluster de máquinas muy potentes puesto que podemos hacer máquinas virtuales en un simple PC. También podemos usar VM como la cloudera quickstart vm que trae todo lo necesario para poder formarse.
Hadoop
Hablar de tecnología Big Data es hablar de hadoop y todo su ecosistema. Hadoop se sustenta en la forma en que se acceden y almacenan los datos. Principalmente Hadoop está conformado por dos herramientas HDFS y MapReduce. El trabajo combinado de ambas nos permite que los datos estén distribuidos y replicados. Hadoop se encargará de procesar la porción de los datos dentro del nodo contenedor.
Esto permite aprovechar el uso local de los datos cerca del centro de proceso y es escalabre de forma casi lineal. Para crecer en capacidad tan solo habría que añadir más nodos.
- HDFS: Almacenamiento
- Mapreduce: Procesamiento
Otras herramientas
Con esto adquirimos la capacidad de almacenar datos brutos realizando procesos en paralelo, ahora es el momento de añadir otras herramientas superiores para potenciar la capacidad de nuestro sistema.
- YARN: Su función es proporcionar un entorno que gestione los recursos para realizar trabajos. YARN los distribuye teniendo en cuenta la localización de los datos separando el sistema de ficheros del de ejecución.
- HBASE: Basado en bigtable de google es «la base de datos».
- HIVE: Permite estructurar los datos en tablas y vistas permitiendo realizar todo tipo de consultas.
- SPARK: Carga en memoria los datos y realiza las operaciones entre RDDs. Su rendimiento es increíble.