全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  大数据面试题

大数据的五个V是什么?

卷(Volume)-卷表示卷,即以高速率增长的数据量,即以PB为单位的数据量,速度(Velocity)–速度是数据增长的速度。多样性(Variety)–多样性是指不同的数据类型,即各种数据格式,例如文本,音频,视频等。

2022-12-09

数据及集群管理(三)

缺点是split和compaction会很频繁,特别是数量较多的小Region不同的split,compaction,会导致集群响应时间波动很大,Region数量太多不仅给管理上带来麻烦,设置会引起一些HBase个bug。

2022-12-09

数据及集群管理(二)

通过配置一次拉取较大的数据量可以减少客户端获取数据的时间,但是他会占用客户端的内存,有三个地方可以进行配置,在HBase的conf配置文件中进行配置hbase.

2022-12-09

数据及集群管理(一)

默认情况下,在创建HBase表的时候会自动创建一个Region分区,当导入数据的时候,所有的HBase客户端都向Region写数据,知道这个Region足够大才进行切分,一种可以加快批量写入速度的方法是通过预先创建一些空的Regions,这样当数据写入HBas...

2022-12-09

大数据之hbase的优化读数据方面

对于频繁查询 HBase 的应用场景,可以考虑在应用程序中做缓存,当有新的查询请求时,首先在缓存中查找,如果存在则直接返回,不再查询 HBase;否则对 HBase 发起读请求查询,然后在应用程序中将查询结果缓存起来。

2022-12-09

大数据之hbase的优化写入数据方面

在客户端开启多个 HTable 写线程,每个写线程负责一个 HTable 对象的 flush 操作,这样结合定时 flush 和写 buffer(writeBufferSize),可以既保证在数据量小的时候,数据可以在较短时间内被 flush(如1秒内)...

2022-12-09

大数据中Store相关有哪些

MemStore内存中的数据写到文件后就是StoreFile,StoreFile底层是以HFile的格式保存。HFile:HBase中KeyValue数据的存储格式,是Hadoop的二进制格式文件。

2022-12-09

大数据中HRegion的作用

HRegion定位:HRegion被分配给哪个HRegionServer是完全动态的,所以需要机制来定位HRegion具体在哪个HRegionServer,HBase使用三层结构来定位HRegion:

2022-12-09

大数据中HRegionServer的作用

负责切分正在运行过程中变得过大的HRegion可以看到,Client访问HBase上的数据并不需要HMaster参与,寻址访问ZooKeeper和HRegionServer,数据读写访问HRegionServer,HMaster仅仅维护Table和Region的元数据信息...

2022-12-09

大数据中HMaster的作用

HBase中的每张表都通过键按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过256M就要被分割成两个,这个过程由HRegionServer管理,而HRegion的分配由HMaster管理   1.为HRegionServer分配HRegion   2.

2022-12-09

如果让你处理hbase怎么保证数据的安全性可靠性?

hbase是基于hdfs的一种数据存储解决方案,所以有关数据的安全性可靠性可以利用hdfs自身的副本机制保障。另外原生的hbase(1.x)并没有提供数据备份机制,目前还是依赖于企业自身的研发保障,如阿里的云hbase进行数据备份。

2022-12-09

传统数仓的程度有哪些

传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统),建模工具:powerDesiger、Erwin、Visio,ETL工具: kettle/informatic(主流的两款) 等等,BI报表工具:superset、cboard、redash、帆软B...

2022-12-08

数据中台和数仓构建

应用数据层(ADS):存放数据产品个性化的统计指标数据,根据CDM层与ODS层加工生成。选择合适的数据模型,不同的行业涉选取的模型近不相同,合适的模型,更利于在数据存储,计算,开发,安全,以及数据查询的效率,更能体现数仓的价值。

2022-12-08

元数据管理apache atlas

type:代表一类数据,如hdfs_path、hive_db等,entity:代表这类数据的一个实例,如数据库default是hive_db的一个entity,attribute:定义type和entity的具体属性

2022-12-08

数仓与数据库的区别

数仓则往往需要大范围磁盘扫描,数据量:数据库数据一般为GB级别,数仓的数据则往往上百TB,响应速度:数据库是毫秒级,数仓任务的执行时间往往数小时,存储上:数据库是真实的物理存储,数仓则是逻辑存储。

2022-12-08

大数据面试题-架构方式(重点)

自下而上的开发模式,往往已经存在某个关系明确的业务数据库,架构师需要根据数据库中的数据寻找出有价值的分析指标,然后根据这些指标建立数据集市,再从数据集市出发向下建设需要的数据仓库表。

2022-12-08

大数据面试题-数据模型

针对星型模型的维度表进行扩展的模型,将维度表拆解成维度表+说明表,说明表又可以进一步拆分,最终形成事实表-维度表-说明表的多次连接。Data Vault模型,从上述模型中我们不难看出,如果解决了拉链表的维护问题,星型模型的缺陷就已经可以忽略。

2022-12-08

数仓搭建之建模流程

根据业务部门进行划分,理清部门之间的关系,然后将各个部门的具体业务程序化,与业务部门开会协商出需求的指标、保存年限、维度等等。逻辑建模,将概念模型实体化,具体考虑概念对应的属性,事件考虑事实属性,维度考虑维度属性。

2022-12-08

大数据面试题-拉链表如何实现

SCD1:不保存历史数据,直接覆盖更新SCD2:通过维护一个记录时间和一个过期时间来保存变化历史,增量更新SCD3:通过维护一个历史字段来保存上次的数据,更新数据时,先检查旧数据是否存在,如果存在就把旧数据的最新值保存到新数据的旧值字段,采用覆盖更新的方式存储数据。

2022-12-08

大数据面试题-表的种类和特征(重点)

全量表:保存每天所有的最新状态的数据,增量表:当数据改变时,将这个改变和改变后的结果记录下来,就是增量表。累积快照表:按过程对事实表进行统计生成的表,将每个事务切分成多个小事务,明确开始和结束的状态,每个小事务只保存一条结果。

2022-12-08

大数据面试题-数仓分层(重点)

按照范式存储的数据在分析时往往需要进行多表join,这样的分析效率很低,因此需要将dwd层的数据按照分析需求提前进行整合。4 ads层存放数据指标应用结果数据层,主要用于对接后端业务,进行数据可视化展示及数据查询服务

2022-12-08

已经到底了...

查看更多
在线咨询 免费试学 教程领取