HDFS可以存哪些数据?
一、HDFS介绍和使用
HDFS(Hadoop Distributed File System ),意为:Hadoop分布式文件系统。它是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。
HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。
HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非常适于存储大型数据 (比如 TB 和 PB)。
HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。
二、HDFS优缺点
1、优点
高可靠性;
数据自动保存多个副本(默认3个,可以通多dfs.replication参数设置),通过增加副本来提高容错性;
某个副本丢失可以自动恢复;
适合处理大批量数据;
数据规模:能够处理GB,TB,甚至PB级别规模的数据;
文件规模:能够处理百万规模以上的文件数量;
可以在廉价的机器上运行良好。
2、缺点
不适合低延迟数据访问,比如秒级、毫秒级;
对大量小文件不友好;
存储大量小文件会占用NameNode大量的内存来存储文件目录及块信息等元数据,而NameNode的内存是有限的;
小文件存储的寻址时间会超过读取时间,寻址时间较好在传输时间的1%;
不支持并发写入、文件随机修改;
一个文件只能由一个线程写,不允许多个线程同时写;
仅支持文件内容追加(append),不支持随机修改。
以上就是关于HDFS的知识希望对大家有帮助。

相关推荐HOT
更多>>
大数据处理软件有哪些?
一、什么是大数据处理大数据的生命周期分为数据获取(data acquisition)、数据存储(data storage)、数据分析(data analysis)以及结果(res...详情>>
2023-10-15 14:09:46
php什么时候用单引号?
一.PHP里符号有几类1.PHP,mysql两方的关键词与函数。例如echo,print,mysql_connect等等.这些肯定不加引号的.2.常量。新手可能用得不多,常量的好...详情>>
2023-10-15 13:57:18
原型模式和应用拷贝构造函数、重载赋值操作符有什么区别?
一、原型模式和应用拷贝构造函数、重载赋值操作符的区别原型模式、拷贝构造函数和重载赋值操作符都是用于创建和复制对象的方式,但它们有不同的...详情>>
2023-10-15 13:10:16
Eclipse保存生成class文件,与编译后生成的class有哪些区别?
一、Eclipse保存生成class文件,与编译后生成的class的区别在Eclipse中,保存一个Java源代码文件并不会生成class文件,只有当编译Java源代码文...详情>>
2023-10-15 12:58:58热门推荐
什么是高级编程语言?
沸C++中的friend究竟有什么用?
热rust解引用再引用是什么操作?
热什么是元编程?
新取地址运算符“&”为什么不能施加在常量和表达式上面?
大数据分析和大数据研发的区别是什么?
Trustdata和TalkingData的区别是什么?
大数据处理软件有哪些?
php什么时候用单引号?
VBS 和 Powershell 有什么区别?
数据挖掘和机器学习有什么区别?
大数据分析与数据分析有什么区别?
原型模式和应用拷贝构造函数、重载赋值操作符有什么区别?
Eclipse保存生成class文件,与编译后生成的class有哪些区别?
技术干货






