El mapa de hadoop reduce la clasificación secundaria



Answers

Me resulta fácil entender ciertos conceptos con la ayuda de diagramas y este es sin duda uno de ellos.

Supongamos que nuestra clasificación secundaria está en una clave compuesta hecha de Apellido y Nombre.

Con la llave compuesta fuera del camino, ahora veamos el mecanismo de clasificación secundario

El particionador y el comparador de grupos usan solo la clave natural , el particionador lo usa para canalizar todos los registros con la misma clave natural a un solo reductor. Esta partición ocurre en la Fase del Mapa, los datos de varias tareas del Mapa los reciben los reductores, donde se agrupan y luego se envían al método de reducción . Esta agrupación es donde el comparador de grupo entra en la imagen, si no hubiéramos especificado un comparador de grupo personalizado, Hadoop habría utilizado la implementación predeterminada que habría considerado la clave compuesta completa, lo que habría llevado a resultados incorrectos.

Descripción de los pasos de MR

Question

¿Puede alguien explicarme cómo funciona la clasificación secundaria en hadoop?
¿Por qué uno debe usar GroupingComparator y cómo funciona en hadoop?

Estaba revisando el enlace que figura a continuación y tengo dudas sobre cómo funciona groupcomapator.
¿Alguien puede explicarme cómo funciona el comparador de agrupación?

http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html




Un particionador solo asegura que un reductor reciba todos los registros que pertenecen a una clave, pero no cambia el hecho de que el reductor se agrupa por clave dentro de la partición.

En el caso de una clasificación secundaria, formamos claves compuestas y si dejamos que el comportamiento predeterminado continúe, la lógica de agrupamiento considerará que las claves son diferentes.

Entonces, necesitamos controlar la agrupación. Por lo tanto, debemos indicar al marco que se agrupe en función de la parte natural de la clave en lugar de la clave compuesta. Por lo tanto, el comparador de agrupación debe ser usado para el mismo.






Links