您的位置:
首页
>
中文期刊论文
>
详情页
一种基于页面赋权的网页内容提取方法
- 作 者:
-
余杨奎;
王旅;
李婉茹;
程振林;
刘洁;
- 作者机构:
-
长春中医药大学医药信息学院;
广东开放大学湛江分校;
- 关键词:
-
模板技术;
页面赋权;
正则表达式;
WEB页面;
- 期刊名称:
- 通化师范学院学报
- i s s n:
- 年卷期:
-
2021 年
010 期
- 页 码:
- 20-28
- 摘 要:
-
提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...