基于Spark Streaming的实时数据采集分析系统设计
- 作者机构:
- 中国科学院大学; 中国科学院声学研究所国家网络新媒体工程技术研究中心;
- 关键词:
- 基数计算; HyperLogLog++; 实时数据分析; Spark流式处理; 不重复计数;
- 期刊名称:
- 网络新媒体技术
- 基金项目:
- i s s n:
- 2095-347X
- 年卷期:
- 2017 年 05 期
- 页 码:
- 48-53
- 摘 要:
- 大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。
相关作者
相关机构
