大数据开发之HDFS分布式文件存储系统详解
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
相关文章
-
微信官方人工客服在线咨询
-
五年前的淘宝爆款火出国,为什么羽绒服成了最热单品?
-
让知识内容真正应用于现实生活
-
B类产品的科学化设计与分析流程
-
3.3亿人集齐五福,微信红包被挤爆,应用商城也崩了…昨晚,你抢了多少红包?
-
从产品经理到总监,就差一张高价值Excel表
-
Facebook短视频功能可支持60秒以上视频发布
-
京东零售首席科学家胡鲁辉:人工智能与大数据的融合之道丨CCF-GAIR2019
-
特斯拉龙舌兰空酒瓶卖779元一夜间卖完下架
-
贝店顾荣:电商社交化成趋势,用户与供应链创新将打破传统电商格局
-
你能想象iOS14是什么样子吗?
-
熊猫阵亡,陌陌、YY财报背后的直播江湖仍在
-
微软发布学习软件ImmersiveReader的VR版本
-
苹果今年要发布三款iPhone,但在中国市场恐难翻身
-
Facebook考虑将Libra与单一法币挂钩;雷军:小米明年计划推出十款以上5G手机 |早8点档
-
怎么将手机蓝牙设置为所有人可见
-
2019“马云乡村人才计划”20日起接受申报三项目均有变化
-
西安做小程序开发该如何入手,有没有什么好的方法或者简单的操作
-
内容APP如何给用户打标签&内容推送?
-
【钛晨报】比特大陆发生重大人事变动;三星开放Tizen系统推流媒体电视服务;特斯拉上海超级工厂周产量预计达3000辆
-
财务软件“新物种”来了!唯你科技“精采智能”领势
-
大港油田信息中心举办无纸化办公平台开发应用培训
-
华为手机怎么恢复原装系统
-
微信大改版,只针对 iOS 用户?安卓内测开启!
-
经营30多家天猫店,双11销售18亿,卖身5年后它终于赎回了自己
-
Facebook假新闻太多,维基百科创始人办了一个新的社交网络
-
好的拼团活动,都有下面这些特征
-
如何防止自己的图片被盗用?这4招教你优雅加水印
-
居家期间,这些免费神仙软件了解一下