HDFS的全称是Hadoop Distributed File System,即Hadoop分布式文件系统。它是一个用于存储文件的分布式文件系统,设计用于处理大规模数据集,提供高容错性和可靠性。在HDFS中,文件被切分成多个块,并分散存储在多个服务器上,以支持大规模数据处理和分析。
分布式存储:文件被分割成多个块,并分布在集群中的不同服务器上。
高容错性:通过数据复制机制,确保即使部分服务器发生故障,数据仍然可用。
适合大数据处理:设计用于存储和处理超出单台服务器能力的超大文件。
一次写入,多次读取:适合数据分析等场景,但不支持文件的随机修改。
Master-Slave结构:集群由一个Namenode(主节点)和多个Datanode(数据节点)组成。
HDFS适用于需要处理大量数据的场景,如大数据分析,并且可以构建在廉价的商用硬件上,以降低成本。然而,它不适合需要低延迟数据访问的应用,也不适合存储大量小文件或支持多用户同时写入和修改文件