大数据开发之HDFS分布式文件存储系统详解

2021-09-29 10:25:39 来源:网络整理 作者:管理员

原标题:大数据开发之HDFS分布式文件存储系统详解

HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)

Namenode

Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。

元数据管理

Namenode对元数据的管理采用了三种形式:

1) 内存元数据:基于内存存储元数据,元数据比较完整

2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息

3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据

fsimage + edits = 内存元数据

注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中

可以通过hdfs的一个工具来查看edits中的信息

bin/hdfs oev -i edits -o edits.xml

查看fsimage

bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

元数据的checkpoint(非HA模式)

Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:

dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒

dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的

HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)

Namenode

Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。

元数据管理

Namenode对元数据的管理采用了三种形式:

1) 内存元数据:基于内存存储元数据,元数据比较完整

2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息

3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据

fsimage + edits = 内存元数据

注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中

可以通过hdfs的一个工具来查看edits中的信息

bin/hdfs oev -i edits -o edits.xml

查看fsimage

bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

元数据的checkpoint(非HA模式)

Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:

dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒

dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的

显示全文
为您推荐
历史上真实的宋仁宗 宋仁宗究竟有多仁慈
历史上真实的宋仁宗 宋仁宗究竟有多仁慈

宋仁宗原名赵祯,十三岁就接过皇权,是北宋历史上年龄最小的一位皇帝。少年时期的宋仁宗由刘太后监国理政,刘太后霸道专权,使宋仁宗养成了文弱多猜疑的性格,这对后期宋仁宗执政产生了很大的影响。宋仁宗最值得称赞的是培养了大量人才,这与他的为人宽厚和善有很大关系。唯一遗憾的是,并没有皇子来继承他的皇位。...

发布时间:2023-10-02 00:00:12

拉丁美洲有哪些国家
拉丁美洲有哪些国家

【导读】 拉丁美洲有哪些国家,下面是小编为你收集整理的,希望对你有帮助!墨西哥、危地马拉、洪都拉斯、萨尔瓦多、尼加拉瓜、哥斯达黎加、巴拿马、古巴、海地、多米尼克、牙买加、特立尼达和多巴哥、巴巴多斯、格林纳达、圣卢西亚等。拉丁美洲共有三十三个国家和若干未独立地区。拉丁美洲全......

发布时间:2023-10-01 23:01:20

历史上刘娥皇后是怎样一个人 刘娥对真宗和仁宗的影响
历史上刘娥皇后是怎样一个人 刘娥对真宗和仁宗的影响

刘娥,第一位以女性身份临朝的人,历史评价刘娥经常将她与吕后、武后进行对比,认为刘娥有二人之才华,却无二人之恶毒,可见历史对其是极度赞扬的。她一生极具传奇色彩,在她的影响下,极大地促进了仁宗盛世的出现。...

发布时间:2023-10-01 23:00:17

九灵元圣:太乙救苦天尊的坐骑(是一只九头狮子)
九灵元圣:太乙救苦天尊的坐骑(是一只九头狮子)

【导读】 九灵元圣:太乙救苦天尊的坐骑(是一只九头狮子),下面是小编为你收集整理的,希望对你有帮助!在我们的印象中,《西游记》中的妖怪都是奔着唐僧肉去的,毕竟吃唐僧肉可以长生不老的诱惑太大了。但是有个妖怪他对唐僧肉并不感兴趣,他只是听说孙悟空很厉害,想要看看孙悟空的功力。那这个妖怪是谁呢?他就是九灵......

发布时间:2023-10-01 22:48:33

雪燕炖多久最合适
雪燕炖多久最合适

【导读】 雪燕炖多久最合适,下面是小编为你收集整理的,希望对你有帮助!雪燕炖30分钟左右合适。切忌不能炖煮超过1小时,雪燕会化成水。雪燕的做法:1、将干雪燕浸泡至全透明,无花果冲洗干净,对半切开。2、雪燕用碗盛好,加入8分满的水,放入冰糖、无花果。3、用锡纸把碗封好,冷......

发布时间:2023-10-01 22:01:22

历史课本删除康乾盛世?康乾盛世为什么会被删除
历史课本删除康乾盛世?康乾盛世为什么会被删除

康熙、乾隆时期是中国历史上最后一个鼎盛时期,如今已经被历史课本删除。康乾盛世被中学历史课本删除的主要原因是其与之前的贞观之治、开元盛世有很大的区别,从它真实的现状来看它不符盛世具备的条件。...

发布时间:2023-10-01 22:00:19

水会过期吗
水会过期吗

【导读】 水会过期吗,下面是小编为你收集整理的,希望对你有帮助!矿泉水会过期。矿泉水未开封的状态下保质期为一年,当矿泉水已开封的状态下,空气中的病菌会进入水里,一立方米气体约有5000病菌,时间一长病菌会繁育生长,影响矿泉水的卫生,因此开封后的矿泉水要尽快饮用,不......

发布时间:2023-10-01 21:01:15

恐龙真正的灭绝之谜 强大的恐龙是怎么灭绝的
恐龙真正的灭绝之谜 强大的恐龙是怎么灭绝的

关于恐龙的灭绝之谜,科学家们有很多的猜测。首先在6500万年前发生了小行星撞击地球,地球上火灾四溢,恐龙没有办法扑灭火灾,只能选择死亡。另一种猜测是地球上的磁场发生了变化,恐龙没有办法熟悉地球上磁场的变化,导致了物种的灭绝。除此之外,还有传说是恐龙和其他种族在争斗中,恐龙蛋被其他生物偷吃,导致恐龙的灭亡。...

发布时间:2023-10-01 21:00:12

1800年是平年还是闰年为什么
1800年是平年还是闰年为什么

【导读】 1800年是平年还是闰年为什么,下面是小编为你收集整理的,希望对你有帮助!1800年是平年。1800是一个世纪年,不是一般的年份,世纪年判断它是否为闰年需要除以400,如果能被400整除,则说明这一年是闰年,否则就是平年。闰年的判定方法:1、普通年能被4整除且不能被100整......

发布时间:2023-10-01 20:01:19

恐龙时代人类在干嘛 人类和恐龙一同存在吗
恐龙时代人类在干嘛 人类和恐龙一同存在吗

在几亿年前,恐龙是属于霸主的地位,但是后来恐龙灭绝,恐龙时代结束,进入到了人类的时代,人类成了世界的新霸主。在恐龙时代是有人类存在的,只不过当时的人类和现在的人类不一样,当时的人类还是没开始进化的。...

发布时间:2023-10-01 20:00:10

埃及金字塔传说,金字塔的死亡传说
埃及金字塔传说,金字塔的死亡传说

【导读】 埃及金字塔传说,金字塔的死亡传说,下面是小编为你收集整理的,希望对你有帮助!金字塔是古埃及的法老们,为了死后能够去天上复活成神而建造的通往天上的天梯。在埃及的神话中,只有把尸体完好的保存下来才能使灵魂有寄托的地方,才能够复活成神。所以在法老死亡后他们会把尸体的内脏挖掉,浸泡在......

发布时间:2023-10-01 19:01:12

恐龙是怎么灭绝的 关于恐龙灭绝的原因有三种说法
恐龙是怎么灭绝的 关于恐龙灭绝的原因有三种说法

关于恐龙灭绝的原因总共有三种,其中分别为小行星撞击地球假设论、酸雨学说以及物种争斗学说,这三种学说是目前科学家提出来比较可信的三种假设。恐龙曾经是地球上最强大的霸主,但是就是这样一个庞然大物在一瞬间突然离开了地球,只留给人类无限的猜想,到底恐龙是怎样离开这个美丽的世界的。...

发布时间:2023-10-01 19:00:08