hadoop - tutorial - pig vs hive
Comment puis-je extraire le premier tuple d'un sac généré(dont la taille peut varier) en PIG? (2)
Je génère un «sac» d'informations dont la taille (nombre de tuples à l'intérieur du sac) peut varier. De cela, je veux extraire le premier élément à la volée. Comment puis-je faire cela?
Si la commande du tuple dans le sac est importante pour obtenir le "premier" (bien sûr que c'est le cas!) Alors vous pouvez faire quelque chose comme ceci qui est expliqué plus en détail à https://community.hortonworks.com/ questions / 22863 / cant-we-filtre-les-données-que-nous-avons-fait-en-37-s.html # answer-22995 .
max_runs = FOREACH grp_data {
inner_sorted = ORDER runs BY runs DESC;
first_row = LIMIT inner_sorted 1;
GENERATE first_row AS most_hits;
}
Utilisez DataFu UDF: FirstTupleFromBag ( http://datafu.incubator.apache.org/docs/datafu/1.2.0/datafu/pig/bags/FirstTupleFromBag.html )