El mapa de hadoop reduce la clasificación secundaria


Answers

Me resulta fácil entender ciertos conceptos con la ayuda de diagramas y este es sin duda uno de ellos.

Supongamos que nuestra clasificación secundaria está en una clave compuesta hecha de Apellido y Nombre.

Con la llave compuesta fuera del camino, ahora veamos el mecanismo de clasificación secundario

El particionador y el comparador de grupos usan solo la clave natural , el particionador lo usa para canalizar todos los registros con la misma clave natural a un solo reductor. Esta partición ocurre en la Fase de Mapa, los datos de varias tareas de Mapa son recibidos por los reductores donde se agrupan y luego se envían al método de reducción . Esta agrupación es donde el comparador de grupo entra en la imagen, si no hubiéramos especificado un comparador de grupo personalizado, Hadoop habría utilizado la implementación predeterminada que habría considerado la clave compuesta completa, lo que habría llevado a resultados incorrectos.

Descripción de los pasos de MR

Question

¿Puede alguien explicarme cómo funciona la clasificación secundaria en hadoop?
¿Por qué uno debe usar GroupingComparator y cómo funciona en hadoop?

Estaba revisando el enlace que figura a continuación y tengo dudas sobre cómo funciona groupcomapator.
¿Alguien puede explicarme cómo funciona el comparador de agrupación?

http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html




Los ejemplos mencionados arriba tienen una buena explicación, permítanme simplificarlo. Necesitamos realizar tres pasos principales.

  1. Mapout debería ser (clave + valor, valor)
  2. Cuando nos unimos a Key & Value. Todavía tenemos que tener un mecanismo para ordenar tanto la clave original como el valor. Así que agregaríamos un comparador personalizado.
  3. Ahora los datos se ordenan en la clave original, pero si enviamos estos datos a Reducer, no se garantizará que se envíe todo el valor de una clave determinada a un reductor, ya que estamos utilizando Key + Value como clave. Para asegurarnos de que agreguemos el comparador de grupos.