hadoop tutorial “使用Hive時太多的獲取失敗”



hive wiki (1)

我正在對3個節點的hadoop集群運行配置單元查詢。 我得到一個錯誤,說“太多的提取失敗”。 我的蜂房查詢是:

  insert overwrite table tablename1 partition(namep)
  select id,name,substring(name,5,2) as namep from tablename2;

這是試圖運行的查詢。 我想要做的就是將數據從tablename2傳輸到tablename1。 任何幫助表示讚賞。


這可能是由各種hadoop配置問題引起的。 這裡有一對夫婦要特別注意:

  • DNS問題:檢查你的/etc/hosts
  • Reducer在mapper端沒有足夠的http線程

一些建議的修復(從Cloudera故障排除)

  • 設置mapred.reduce.slowstart.completed.maps = 0.80
  • tasktracker.http.threads = 80
  • mapred.reduce.parallel.copies = sqrt (node count) but in any case >= 10

這裡是鏈接到疑難解答更多細節

http://www.slideshare.net/cloudera/hadoop-troubleshooting-101-kate-ting-cloudera