您的位置: 首页 > 农业专利 > 详情页

基于中文短语串的细粒度主题信息抽取方法
专利权人:
华南理工大学
发明人:
黄翰,丁东辉,林伟佳,郝志峰,杨晓伟
申请号:
CN201610207374.X
公开号:
CN105975475A
申请日:
2016.03.31
申请国别(地区):
中国
年份:
2016
代理人:
何淑珍
摘要:
本发明提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。预处理阶段完成后,得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。
来源网站:
中国工程科技知识中心
来源网址:
http://www.ckcest.cn/home/

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充