全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 Hadoop论坛
1506 0
2014-06-12

运行Hadoop作业时一处常见错误以及解决方法

当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常:

[15:10:41,949][INFO][main][org.apache.hadoop.mapred.JobClient:1330] – Task Id :attempt_201202281244_0003_m_000000_1, Status : FAILED

Error:java.lang.ClassNotFoundException: com.sca.commons.ScaException

atjava.net.URLClassLoader$1.run(URLClassLoader.java:202)

atjava.security.AccessController.doPrivileged(Native Method)

atjava.net.URLClassLoader.findClass(URLClassLoader.java:190)

atjava.lang.ClassLoader.loadClass(ClassLoader.java:306)

atsun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)

atjava.lang.ClassLoader.loadClass(ClassLoader.java:247)

at java.lang.Class.forName0(NativeMethod)

atjava.lang.Class.forName(Class.java:247)

atorg.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)

atorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)

atorg.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)

atorg.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)

atorg.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)

atorg.apache.hadoop.mapred.Child$4.run(Child.java:255)

atjava.security.AccessController.doPrivileged(Native Method)

atjavax.security.auth.Subject.doAs(Subject.java:396)

atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)

atorg.apache.hadoop.mapred.Child.main(Child.java:249)

大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。

经个人总结,这通常是由于以下几种原因造成的:

(1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写

(2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。

之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。

2. 解决方法

(1) 在运行脚本中添加classpath.

在$HADOOP_HOME/conf/hadoop_env.sh或者$HADOOP_HOME/bin/hadoop-config.sh中添加:

exportHADOOP_CLASSPATH=$HADOOP_HOME/my_jars

然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)

【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。

(2) 使用“-libjars“参数

这种方式是本人推荐的方法,但是支持这个功能,需要按照如下方式编写Hadoop程序:

  

1

  

2

  

3

  

4

  

5

  

6

  

7

  

8

  

9

  

10

  

11

  

12

  

13

  

14

  

15

  

16

  

17

  

18

  

19

  

20

  

21

  

22

  

23

  

24

  

25

  

26

  

27

  

28

  

29

  

30

  

31

  

32

  

33

  

34

  

35

  

36

  

37

  

38

  

39

  

40

  

41

  

42

  

43

  

44

  

45

  

46

  

47

  
  

public class MyHadoopJob extends Configured implements Tool {

  

  

   public static class  MapClass

  

  

      extends Mapper<LongWritable,  Text, IntPair, IntWritable> {

  

  

      //your mapper

  

  

   }

  

  

   public static class  Reduce

  

  

      extends  Reducer<IntPair,  IntWritable, Text, IntWritable> {

  

  

      //your reducer

  

  

   }

  

  

//设定并读取应用程序相关的,自己定义的一些参数

  

  

   public int run(String[] args)   throws Exception {

  

  

      if(args.length <  2) {

  

  

         printUsage();

  

  

        return 2;

  

  

    }

  

  

   Job job = new Job(getConf());

  

  

   …......

  

  

   }

  

  

   //真正的main函数

  

  

   public static void main(String[]  args) throws  Exception{

  

  

      int  res =  ToolRunner.run(new Configuration(), new SleepJob(), args);

  

  

      System.exit(res);

  

  

   }

  

  

}

  

运行作业:

#run_myjob.sh

bin/hadoop jarmyjob.jar MyHadoopJob \

-Dmapred.job.name=MyHadoopJob \

-Dmapred.map.tasks=24 \

-Dmapred.mreduce.tasks=12 \

-Dmapred.input.dir=/test/input1,test/input2 \

-Dmapred.output.dir=/test/output \

-libjarsmyjob.jar,third-party.jar

-my1 5 \

-my2 china

运行./run_myjob.sh

其中 “-libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。

3. 解决方案比较

第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群