1、数据主要有哪三大来源

1)大量人群产生的海量数据

2)企业应用产生的数据

3)巨量机器产生的数据。

2、数据采集的方法有哪些

1)系统日志采集

2)互联网数据采集

3)APP移动端数据采集

4)与数据服务机构进行合作

3、数据采集流程是怎样的

数据采集在明确数据来源之后,可以根据特定行业与应用定位,确定采集的数据范围与数量, 并通过核实的数据采集方法,开展后续的数据采集工作。

4、如何看待基于Flume的数据采集

Flume是Cloudera提供的分布式的海量日志采集,聚合和传输的系统,在日志收集简单处理方面有着重要应用。

Flume收集来自各个服务器的外部数据,并以封装后event(单元)流动,其间经过channel(缓冲区),最终到达sink(目的地)。

5、针对不同的业务需求,数据清洗的方法有哪些

1)处理缺失值

①忽略元组

②数据补齐(人工填写,特殊值填充,平均值填充,使用最有可能值填充)

③不处理(贝叶斯网络,人工神经网络)

2)噪声数据

①回归

②分箱

③孤立点分析

3)重复数据

①合并

②消除

6、如何看待基于MapReduce的数据清洗

在数据清洗过程主要是编写MapReduce程序,可以通过Map(映射)和Reduce(化简)的过程给予实现去重的操作。

 


点赞(217) 打赏

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部