网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS
网赢中国是大数据营销代名词。
大数据营销
当前位置:网赢中国 > 行业资讯 > 技术文章 > 大数据营销技术文章 > Hadoop作业提交深度剖析3–作业文件上传-Hadoop
Hadoop作业提交深度剖析3–作业文件上传-Hadoop
编辑:wuyudong 发布时间: 2015-7-9    文章来源:工学1号馆
大数据营销

本文主要剖析Hadoop作业提交系列的作业文件上传过程,后面将陆续介绍生成Split文件和作业的提交


 


JobClient将作业提交到JobTracker端之前,需要进行一些初始化工作,包括:获取作业ID,创建HDFS目录,上传作业文件以及生成Split文件等,这些工作由函数JobClient.submitJobInternal(job)实现。


MapReduce作业文件的上传和下载是由DistributedCache工具完成的,整个工作流程对用户而言是透明的,用户只需在提交作业时指定文件位置


通常而言,一个典型的java MapReduce作业,可能包含以下资源:


程序jar包:用户用java编写的MapReduce应用程序jar包


作业配置文件:描述MapReduce应用程序的配置信息(根据JobConf对象生成的xml文件))


依赖第三方jar包:应用程序依赖的第三方jar包,提交作业的时候用参数“-libjars”指定


依赖的归档文件:应用程序中用到多个文件,可以直接打包成归档文件(通常是一些压缩文件),提交作业的时候用参数“-archives”指定


依赖的普通文件:应用程序中可能用到普通文件,比如文本格式的字典文件,提交作业的时候用参数“-files”指定


应用程序依赖的文件可以放在本地,也可以放在HDFS上,默认放在本地。


上述多有的文件都在JobClient端被提交到HDFS上,涉及的父目录如下表:




















作业属性属性值说明
mapreduce.jobtracker.staging.root.dir${hadoop.tmp.dir}/mapred/stagingHDFS上作业文件的上传目录,由管理员配置
mapreduce.job.dir${mapreduce.jobtracker.staging.root.dir}/

${user}/.staging/${jobId}


用户${user}的作业${jobId}相关文件存放目录

文件上传完毕后,会将这些目录信息保存到作业配置对象JobConf中,其对应的作业属性如下表所示:

















































作业属性说明
mapred.cache.files作业依赖的普通文件在HDFS上的存放路径
mapred.job.classpath.archives作业依赖的jar包在HDFS上的存放路径
mapred.cache.archives作业依赖的压缩文件在HDFS上的存放路径
mapreduce.job.cache.files.visibilities作业依赖的普通文件的可见性。如果是public可见性,则为true,否则为false
mapreduce.job.cache.archives.visibilities作业依赖的归档文件的可见性。如果是public级别的可见性,则为true,否则为false
mapred.cache.files.timestamps作业依赖的普通文件的最后一次修改时间的时间戳
mapred.cache.archives.timestamps作业依赖的压缩文件的最后一次修改时间的时间戳
mapred.cache.files.filesizes作业依赖的普通文件的大小
mapred.cache.archives.filesizes作业依赖的归档文件的大小
mapred.jar用户应用程序jar路径

作业文件上传到HDFS后,可能会有大量节点同时从HDFS上下载这些文件,进而产生文件访问热点现象,造成性能瓶颈。为此,JobClient上 传这些文件时会调高它们的副本数(由参数mapred.submit.replication指定,默认是10)以通过分摊负载方式避免产生访问热点。


大数据营销
编辑推荐
图片行业资讯
  • 雷军隔空喊话董明珠:格力 小米欢迎你
  • 杨元庆:Moto在华上市一周预定量超100万
  • 小米洪锋谈O2O布局:做商城不做具体服务
  • 盖茨向不知名实体捐赠15亿美元微软股票 持股降至3%
  • 刘强东:允许我获取数据 冰箱免费送给你
营销资讯搜索
大数据营销
推荐工具
    热点关注
    大数据营销
    大数据营销
    大数据营销
    大数据营销
     

    大数据营销之企业名录

    网络营销之邮件营销

    大数据营销之搜索采集系列

    大数据营销之QQ号采集

    大数据营销之QQ精准营销

    大数据营销之QQ消息群发

    大数据营销之空间助手

    大数据营销之QQ联盟

    大数据营销之QQ群助手
     
    设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网站地图 | 网站RSS | 友情链接
    本站网络实名:网赢中国  国际域名:www.softav.com  版权所有 2004-2015  深圳爱网赢科技有限公司
    邮箱:web@softav.com 电话:+86-755-26010839(十八线) 传真:+86-755-26010838
    在线咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息  点击这里给我发消息  点击这里给我发消息

    深圳网络警
    察报警平台
    公共信息安
    全网络监察
    经营性网站
    备案信息
    不良信息
    举报中心
    中国文明网
    传播文明
    分享