您的位置: 首页 > 中文期刊论文 > 详情页

基于Spark Streaming的实时数据采集分析系统设计

作   者:
党寿江刘学王星凯刘春梅
作者机构:
中国科学院大学中国科学院声学研究所国家网络新媒体工程技术研究中心
关键词:
基数计算HyperLogLog++实时数据分析Spark流式处理不重复计数
期刊名称:
网络新媒体技术
基金项目:
i s s n:
2095-347X
年卷期:
2017 年 05 期
页   码:
48-53
摘   要:
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充