大数据开发之HDFS分布式文件存储系统详解
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
Namenode
Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。
元数据管理
Namenode对元数据的管理采用了三种形式:
1) 内存元数据:基于内存存储元数据,元数据比较完整
2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息
3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据
fsimage + edits = 内存元数据
注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中
可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml
元数据的checkpoint(非HA模式)
Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:
dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的
相关文章
-
如何实现SCI文章的高效发表????
-
爱奇艺与携程合作再升级,娱乐+出行两开花
-
工信部下架106款侵害用户权益APP
-
雷军和罗振宇都不发好人卡了
-
CCRC信息安全服务资质名单查询!
-
印度挥刀,抖音不抖
-
【PW早报】小米9紧急叫停发售,致歉称因备货不足
-
“电商造节”十年:剁手背后的无限战争
-
StrategyAnalytics:全球可折叠智能手机出货量将在2025年达到1亿
-
谷歌真爱粉为儿子取名Google Kai,中国的“张百度”在哪儿?
-
零钱通上线会撼动余额宝吗?
-
因哈佛大学专家论文造假,美政府暂停心脏干细胞研究
-
微信“史诗级”更新要来了?
-
这5种二维码千万别扫,一不小心钱就没了!
-
网站文章搜索引擎为什么不收录
-
【虎嗅早报】特朗普“封杀”中兴华为?外交部:安全问题最好用事实来说话;锤子投资人:罗永浩没有卸任CEO
-
业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?
-
老板说“春节不放假”,钛妹儿喊你来挑战“年终大考”,躺赢大奖!
-
2021年全球及中国半导体前道测试设备市场规模及市场格局分析
-
华为打脸美国,三星包揽韩国基站,5G时代真的来了
-
万物互联将至!BAT激战云端,以此抢夺物联网赛道
-
同人手办迷局:山寨、、情怀与被抄袭
-
【虎嗅晚报】蚂蚁金服不再持有趣店股份;传腾讯进军出行领域,已申请“腾讯打车”等多个商标
-
智东西晚报:亚洲消费电子展宣布永久停办微软分拆小冰业务并独立发展
-
共享衣橱重视自我造血能力,「衣二三」扭亏为盈
-
宇宙中心成长三角?五道口第一个不服!
-
东数云储分布式存储:开启未来新存储给数据一个安全的家
-
折叠屏手机已经OUT了,折叠屏电视正在登场!华为或将入战局
-
领英中国首发“顶尖公司排行榜”:中国人最向往阿里巴巴、百度、字节跳动等25家公司