您的位置: 首页 > 中文期刊论文 > 详情页

一种基于页面赋权的网页内容提取方法

作   者:
余杨奎王旅李婉茹程振林刘洁
作者机构:
长春中医药大学医药信息学院广东开放大学湛江分校
关键词:
模板技术页面赋权正则表达式WEB页面
期刊名称:
通化师范学院学报
i s s n:
年卷期:
2021 年 010 期
页   码:
20-28
摘   要:
提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充