基于中文短语串的细粒度主题信息抽取方法
- 专利权人:
- 华南理工大学
- 发明人:
- 黄翰,丁东辉,林伟佳,郝志峰,杨晓伟
- 申请号:
- CN201610207374.X
- 公开号:
- CN105975475A
- 申请日:
- 2016.03.31
- 申请国别(地区):
- 中国
- 年份:
- 2016
- 代理人:
- 何淑珍
- 摘要:
- 本发明提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。预处理阶段完成后,得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。
- 来源网站:
- 中国工程科技知识中心