“未知”的数据对数据分析和可视化有什么影响？好处和坏处是什么？

来源:千锋教育

发布人:qyf

2022-12-08

推荐

在线提问>>

　　补充：为什么会出现未知的数据?

　　首先是先弄清楚为什么会产生未知的数据?弄清楚原因之后才能更好地对症下药。未知数据产生的原因是多种多样的，其中可能是：

　　1、数据的采集问题：

　　数据在采集到的时候就是未知的，如性别保密、生日保密等;

　　数据在采集的时候缺少了采集的字段;

　　2、数据的加工问题：

　　在数据中间层进行加工的时候，由于考虑不周全或者特殊场景要求，在对数据进行清洗的过程中出现了数据同类合并、信息丢失的现象，如广州、深圳、四川、上海四个地区的用户中，可能会将广州、深圳合为广东，将四川、上海都并入其他;

　　也有可能将四川并入其他(广州、深圳、上海都是城市)，这是数据在清洗的过程中出现的信息损耗，这种情况也很容易出现未知数据(因为不知道这个”其他“究竟是指哪些地区);

　　3、数据的可视化问题：

　　当数据在进行可视化操作的时候，可能会为了突出某一个字段而将其他字段都并入了其他。

　　其次是“未知”数据对数据分析和数据可视化会有什么样的影响?任何事物的存在都有其利与弊，所以对于这个问题我也是从辩证的角度来对它进行一个整理与总结：

　　好处：

　　1、保障了数据的完整性。

　　数据分析应该建立在数据的完整性、及时性与准确性上面，隐藏了未知数据或许可以给工作带来一些小方便，但是如果数据本身是残缺的，那么分析出来的结果也是值得怀疑的，毕竟缺少了数据的完整性就更别提数据的准确性了，而数据不准确的数据分析结果还可靠吗?

　　2、使数据分析结果更具有说服力。

　　其实也是完整性的一个拓展，在数据分析的过程中如果出现了问题，至少可以知道应该从哪一方面去入手解决这个问题，进而可以增加数据分析的维度，使分析报告的展示更加地饱满。

　　3、在数据的可视化展示中，可以减少一些维度，突出重点。

　　“未知”数据有时候是其他数据的合并，在数据进行可视化的时候，为了突出某一方面的重要性或者占比，我们可能会将其他数据都合并为“其他”，这是造成未知数据的一个原因之一，而这也是“未知”数据在数据可视化方面所体现出来的优点。

　　坏处：

　　1、增加了数据分析的难度。

　　未知数据如果只是一小部分的话就还好，但是如果未知数据达到了一个量级且无法对其进行解释，那么在进行数据分析的时候就很难进行下去了。

　　未知数据太多了，数据就会失去参考价值，进而容易加大数据分析的难度;

　　2、数据的可读性下降。

　　如果无法解决未知数据所包含的信息有哪些这个问题，就很容易导致数据的可读性下降。

　　比如说，用户的性别中男性、女性跟未知的占比，如果未知的占比过大，我们很难在结果中说明用户主要是男性居多还是女性居多。

　　这种情况下，由于未知数据隐藏了较多的信息，会直接导致数据的可读性严重下降。

上一篇手写算法-ip转int

下一篇数据库和数据仓库的区别是什么？

大数据之什么是数仓

2022-12-08

手写算法-懒汉式单例

2022-12-08

手写算法-四大排序

2022-12-08

是一个宽表好还是多个维表好？