全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  大数据学习笔记

大数据之什么是数仓

目前常用的策略是"7年13个月",即保存维度信息的拉链表不保存七年前的数据,保存流水信息的事实表不保存13个月前的数据。当然,上述保存策略也是根据情况决定,利用价值较低的原始数据可能只保存一个周期就被导出,高度聚合的数据可能保存更长的时间。

2022-12-08

手写算法-懒汉式单例

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-08

手写算法-四大排序

速度上:改良的归并排序算法是n-nlogn,快速排序的时间复杂度是nlogn-n^2.冒泡和选择都是n^2.稳定性:快速、选择都不稳定,冒泡和归并都稳定

2022-12-08

是一个宽表好还是多个维表好?

另外,数据仓库的设计,往往不能是以计算出几张表就结束了,我们更应该提供的是数据服务,让使用方都通过服务的方式来访问我们的数据,而不是简单地将表暴露出去。当我们以数据服务的方式提供数据的时候,不管是易用性还是安全性都更容易得到满足。

2022-12-08

数据库和数据仓库的区别是什么?

它一般存放的是行为类数据,比如你点击一次网页,这些都会被记录下来存放在数据仓库中,当然个人信息一般也会从业务数据库同步一份到数据仓库中。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

2022-12-08

“未知”的数据对数据分析和可视化有什么影响?好处和坏处是什么?

数据分析应该建立在数据的完整性、及时性与准确性上面,隐藏了未知数据或许可以给工作带来一些小方便,但是如果数据本身是残缺的,那么分析出来的结果也是值得怀疑的,毕竟缺少了数据的完整性就更别提数据的准确性了,而数据不准确的数据分析结果还可靠吗?

2022-12-08

手写算法-ip转int

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-07

生成所有的括号对

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-07

手写算法-求质数

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-07

无重复字符的最长子串

建立一个256位大小的整型数组 freg ,用来建立字符和其出现位置之间的映射。维护一个滑动窗口,窗口内的都是没有重复的字符,去尽可能的扩大窗口的大小,窗口不停的向右滑动。(1)如果当前遍历到的字符从未出现过,那么直接扩大右边界;

2022-12-07

大数据之蛇形矩阵

我们最终要输出的是以蛇形摆放之后的字符串再按行串联在一起之后的结果,也就是说每一个字母摆放的列并不重要,重要的是摆放的行号。我们可以很容易想到通过数组维护每一行当中摆放的字母,最后将每一行的结果串联即可。所以问题就只剩下了,我们如何知道每一个字母应该摆放在哪一行?

2022-12-07

大数据之两数相加

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-07

设计一个实时的流式计算Wordcount

使用Kafka对接SparkStreaming计算,那么要保证数据不丢失,和不重复的话,要使用直连方式,并且保证一次性语义,手动管理Offset即可,那么在实现过程中,Offset一定不能丢,所以要手动管理,然后把它保存到其他存储位置即可,每次能拿到保存好的Offset就...

2022-12-07

大数据之最长回文串

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-07

两两交换链表中的节点

大数据通常包含的数据集的大小超出了常用软件工具在可容忍的经过时间内捕获、整理、管理和处理数据的能力。大数据哲学包含非结构化,半结构化和结构化数据,但是主要关注于非结构化数据。

2022-12-07

大数据之三数之和

给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。

2022-12-07

大数据之回文数

判断一个整数是否是回文数。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。最好理解的一种解法就是先将 整数转为字符串 ,然后将字符串分割为数组,只需要循环数组的一半长度进行判断对应元素是否相等即可。

2022-12-07

常用的存储格式

列式存储,是spark的默认存储格式,压缩和查询性能比ORC稍差,但是支持的编码更多,而且对嵌套式结构支持的更好(json)。因此对结构化数仓来说ORC file格式更好,对灵活的spark作业来说Parquet格式更好。

2022-12-07

寻找两个正序数组的中位数

给定两个大小为 m 和 n 的正序(从小到大)数组 nums1 和 nums2. 请你找出这两个正序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。 你可以假设 nums1 和 nums2 不会同时为空。

2022-12-07

合并两个有序链表

(1)对空链表存在的情况进行处理,假如 pHead1 为空则返回 pHead2 ,pHead2 为空则返回 pHead1.(两个都为空此情况在pHead1为空已经被拦截) (2)在两个链表无空链表的情况下确定第一个结点,比较链表1和链表2的第一个结点的值,将值小的结点保存下来为合并后的第一个结点。

2022-12-07

合并K个排序链表

这里需要将这 k 个排序链表整合成一个排序链表,也就是说有多个输入,一个输出,类似于漏斗一样的概念。因此,可以利用最小堆的概念。如果你对堆的概念不熟悉,可以戳这先了解一下~

2022-12-07

已经到底了...

查看更多
在线咨询 免费试学 教程领取