Exécuter Python sur Hadoop


Answers

Vérifiez hive.log et / ou le journal du travail hadoop (job_201110270917_20215 dans votre exemple) pour un message d'erreur plus détaillé.

Question

J'essaie d'exécuter un script python très simple via ruche et hadoop.

C'est mon script:

#!/usr/bin/env python
import sys

for line in sys.stdin:
    line = line.strip()
    nums = line.split()
    i = nums[0]
    print i

Et je veux l'exécuter sur le tableau suivant:

hive> select * from test;
OK
1       3
2       2
3       1
Time taken: 0.071 seconds
hive> desc test;
OK
col1    int
col2    string
Time taken: 0.215 seconds

Je cours:

hive> select transform (col1, col2) using './proba.py' from test;

Mais toujours obtenir quelque chose comme:

...
2011-11-18 12:23:32,646 Stage-1 map = 0%,  reduce = 0%
2011-11-18 12:23:58,792 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_201110270917_20215 with errors
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask

J'ai essayé beaucoup de différentes modifications de cette procédure mais j'échoue constamment. :(

Est-ce que je fais quelque chose de mal ou il y a un problème avec mon installation ruche / hadoop?