您的位置: 首页 > 中文期刊论文 > 详情页

新闻类短文本聚类新方法的研究

作   者:
傅承涛谢佳璇牛永洁
作者机构:
延安大学继续教育学院
关键词:
数据压缩S_Dbw聚类Doc2vec密度
期刊名称:
延安大学学报(自然科学版)
i s s n:
1004-602X
年卷期:
2020 年 39 卷 004 期
页   码:
67-71,76
摘   要:
针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法.该方法主要包含三个步骤:一对文本使用Doc2vec方法进行矢量化;二使用基于密度的聚类算法CFDP对矢量化后的文本数据进行聚类;三采用t-分布领域嵌入算法(t-SNE)将数据压缩到二维空间并进行可视化.并对聚类算法中关键参数进行了交叉测试,采用S_Dbw评价聚类的效果,得到CFDP算法最优的参数组合,最后对聚类效果进行了可视化,聚类结果与文本原始类别进行比较,F值达到89.24,聚类效果良好.
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充