新闻类短文本聚类新方法的研究
- 作者机构:
- 延安大学继续教育学院;
- 关键词:
- 数据压缩; S_Dbw; 聚类; Doc2vec; 密度;
- 期刊名称:
- 延安大学学报(自然科学版)
- i s s n:
- 1004-602X
- 年卷期:
- 2020 年 39 卷 004 期
- 页 码:
- 67-71,76
- 摘 要:
- 针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法.该方法主要包含三个步骤:一对文本使用Doc2vec方法进行矢量化;二使用基于密度的聚类算法CFDP对矢量化后的文本数据进行聚类;三采用t-分布领域嵌入算法(t-SNE)将数据压缩到二维空间并进行可视化.并对聚类算法中关键参数进行了交叉测试,采用S_Dbw评价聚类的效果,得到CFDP算法最优的参数组合,最后对聚类效果进行了可视化,聚类结果与文本原始类别进行比较,F值达到89.24,聚类效果良好.
相关作者
相关机构
