基于网络拓扑的主题信息采集方法
- 专利权人:
- 北京交通大学
- 发明人:
- 刘云,熊菲,李勇,沈波,张振江,贾凡,程辉,张立,张彦超,司夏萌
- 申请号:
- CN200810227582.1
- 公开号:
- CN101441662B
- 申请日:
- 2008.11.28
- 申请国别(地区):
- 中国
- 年份:
- 2010
- 代理人:
- 王德桢
- 摘要:
- 本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。
- 来源网站:
- 中国工程科技知识中心