您的位置: 首页 > 国内项目 > 详情页

Deep Web数据集成查询结果抽取与整合关键技术研究
基金项目类型:
国家自然科学基金
基金项目编号:
61100167
来源网站:
国家自然科学基金委员会
来源网址:
http://www.nsfc.gov.cn/
负责人:
董永权
完成单位:
江苏师范大学
中文关键词:
Deep Web数据集成; Web数据抽取; Web数据语义标注; 重复记录检测; Deep Web爬取;
其他语种关键词:
Deep Web Data Integration; Web Data Extraction; Web Data Semantic Annotation; Duplicate Record Detection; Deep Web Crawling
项目类型:
青年科学基金项目
语种:
中文
开始日期:
2012-01-01
结束日期:
2014-12-31
中文摘要:
Web可分为Surface Web和Deep Web。Deep Web数据量大、主题专一、数据质量高,其价值远远超过了Surface Web,然而传统的搜索引擎搜索不出这部分数据。为了方便用户高效使用Deep Web数据,大规模Deep Web数据集成的研究已成为一个非常迫切的问题。查询结果的抽取与整合是Deep Web数据集成中的重要环节,存在着许多困难和挑战。本项目拟探讨其中最为核心的三个关键技术:研究查询结果页面抽取技术,充分利用页面的结构特征和内容特征,实现结构化数据的自动抽取;研究查询结果数据语义标注技术,充分利用Web数据元素之间的逻辑约束关系,提高语义标注的准确性,并实现多数据源数据模式的一致性;研究大规模重复记录检测技术,构建领域层次的重复记录检测模型,实现同一领域大规模Web数据库之间自动的重复记录检测。项目成果预期将在商业智能、企业搜索、情报分析等系统中。
相关组织者
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充