1、数据主要有哪三大来源
(1)大量人群产生的海量数据
(2)企业应用产生的数据
(3)巨量机器产生的数据。
2、数据采集的方法有哪些
(1)系统日志采集
(2)互联网数据采集
(3)APP移动端数据采集
(4)与数据服务机构进行合作
3、数据采集流程是怎样的
数据采集在明确数据来源之后,可以根据特定行业与应用定位,确定采集的数据范围与数量, 并通过核实的数据采集方法,开展后续的数据采集工作。
4、如何看待基于Flume的数据采集
Flume是Cloudera提供的分布式的海量日志采集,聚合和传输的系统,在日志收集简单处理方面有着重要应用。
Flume收集来自各个服务器的外部数据,并以封装后event(单元)流动,其间经过channel(缓冲区),最终到达sink(目的地)。
5、针对不同的业务需求,数据清洗的方法有哪些
(1)处理缺失值
①忽略元组
②数据补齐(人工填写,特殊值填充,平均值填充,使用最有可能值填充)
③不处理(贝叶斯网络,人工神经网络)
(2)噪声数据
①回归
②分箱
③孤立点分析
(3)重复数据
①合并
②消除
6、如何看待基于MapReduce的数据清洗
在数据清洗过程主要是编写MapReduce程序,可以通过Map(映射)和Reduce(化简)的过程给予实现去重的操作。