tutorial - mapreduce wordcount hadoop



Dans Mapreduce, la réplication s'applique-t-elle également aux données intermédiaires? (1)

Les fichiers déversés du mappeur sont stockés dans le système de fichiers local du nœud de travail sur lequel le mappeur est exécuté. De même, les données transmises d'un nœud à un autre nœud sont stockées dans le système de fichiers local du nœud de travail où la tâche est en cours d'exécution.

Ce chemin d'accès au système de fichiers local est spécifié par la propriété hadoop.tmp.dir qui est par défaut '/ tmp' .

Après l'achèvement ou l'échec du travail, l'emplacement temporaire utilisé sur le système de fichiers local est effacé automatiquement, vous n'avez pas à effectuer de processus de nettoyage, il est automatiquement géré par le framework.

Dans Mapreduce, nous disons que la sortie produite par les mappeurs est appelée données intermédiaires.

Les données intermédiaires sont-elles également répliquées?

Les données intermédiaires sont-elles temporaires?

Quand les données intermédiaires seront-elles supprimées? Est-il supprimé automatiquement ou devons-nous le supprimer explicitement?





mapreduce