您的位置: 网界网 > 软件 > 正文

分布式文件系统HDFS中Block介绍

2014年09月01日 10:34:44 | 作者:佚名 | 来源: | 查看本文手机版

摘要:Block概念 磁盘有一个Block size的概念,它是磁盘读/写数据的最小单位。构建在这样的磁盘上的文件系统也是通过块来管理数据的,文件系统的块通常是磁盘块的整数倍。文件系统的块一般为几千字节(byte),磁盘块一般为512字节(by...

标签
HDFS

Block概念

磁盘有一个Block size的概念,它是磁盘读/写数据的最小单位。构建在这样的磁盘上的文件系统也是通过块来管理数据的,文件系统的块通常是磁盘块的整数倍。文件系统的块一般为几千字节(byte),磁盘块一般为512字节(byte)。

HDFS也有Block的概念,但它的块是一个很大的单元,默认是64MB。像硬盘中的文件系统一样,在HDFS中的文件将会按块大小进行分解,并作为独立的单元进行存储。但和硬盘中的文件系统不一样的是,存储在块中的硬的一个比块小的文件并不会占据一个块大小盘物理空间(HDFS中一个块只存储一个文件的内容)。

那为什么HDFS中的块如此之大呢?

在HDFS学习(一) – HDFS设计中,我们曾说过,对HDFS来说,读取整个数据的时间延迟要比读取到第一条记录的数据延迟更重要,就体现在这里。HDFS的Block设计的如此之大,也就是为了最小化寻道时间。把一个数据块设计的足够大,就能够使得数据传输的时间显著地大于寻找到Block所在时间。这样,传输一个由多个Block组成的文件的时间就取綜NW.com.cn资讯】

  1. 分布式文件系统HDFS设计
  2. 大数据[注]时代的总统选举
  3. HBase设计:看上去很美
  4. 三种东西永远不要放到数据库里
  5. 没有数据驱动的流程和产品 大数据将毫无价值

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]