Que MapReduce?
Tabla de contenido
¿Qué MapReduce?
MapReduce es un framework que proporciona un sistema de procesamiento de datos paralelo y distribuido. MapReduce está orientado a resolver problemas con conjuntos de datos de gran tamaño, por lo que utiliza el sistema de archivos distribuido HDFS.
¿Qué función provee MapReduce a Hadoop?
MapReduce es el paradigma de programación y de procesamiento de Hadoop. Consiste en dividir el trabajo en múltiples tareas independientes que se pueden paralelizar para procesar cantidades masivas de datos en un clúster.
¿Qué es el mecanismo de MapReduce?
El mecanismo de MapReduce es tolerante de fallos cuando uno de los workers se ve sometido a un fallo. Como MapReduce se ha diseñado para procesos en los que se encuentran involucrados grandes tamaños de datos mediante el empleo de cientos o miles de ordenadores.
¿Cuáles son las alternativas de MapReduce?
Sin embargo, tiene ciertas limitaciones que otras tecnologías intentan mejorar. En MapReduce, hasta que la fase map completa su procesamiento, los reducers no empiezan a ejecutar. Tampoco se puede controlar su orden de ejecución. Entre las alternativas, se encuentran Apache Spark, Apache Hive o Pig.
¿Cómo se ordenan los datos de la fase Map?
Los datos obtenidos de la fase Map se ordenan para que los pares clave-valor sean contiguos (fase de ordenación, sort fase ), esto hace que la operación Reduce se simplifique ya que el archivo se lee secuencialmente. Si se ejecuta el modo distribuido estos necesitan ser primero copiados al filesystem local en la fase de copia.
¿Cuál es la función de reducción del mapa?
Del mismo modo, un conjunto de «reductores» puede realizar la fase de reducción, siempre que todas las salidas de la operación de mapa que comparten la misma clave se presenten al mismo reductor al mismo tiempo, o que la función de reducción sea asociativa.