您的位置:
首页
>
国内项目
>
详情页
Deep Web数据集成查询结果抽取与整合关键技术研究
- 基金项目类型:
- 国家自然科学基金
- 基金项目编号:
- 61100167
- 来源网站:
- 国家自然科学基金委员会
- 来源网址:
- http://www.nsfc.gov.cn/
- 负责人:
- 董永权
- 完成单位:
- 江苏师范大学
- 中文关键词:
-
Deep Web数据集成;
Web数据抽取;
Web数据语义标注;
重复记录检测;
Deep Web爬取;
- 其他语种关键词:
- Deep Web Data Integration; Web Data Extraction; Web Data Semantic Annotation; Duplicate Record Detection; Deep Web Crawling
- 项目类型:
- 青年科学基金项目
- 语种:
- 中文
- 开始日期:
- 2012-01-01
- 结束日期:
- 2014-12-31
- 中文摘要:
- Web可分为Surface Web和Deep Web。Deep Web数据量大、主题专一、数据质量高,其价值远远超过了Surface Web,然而传统的搜索引擎搜索不出这部分数据。为了方便用户高效使用Deep Web数据,大规模Deep Web数据集成的研究已成为一个非常迫切的问题。查询结果的抽取与整合是Deep Web数据集成中的重要环节,存在着许多困难和挑战。本项目拟探讨其中最为核心的三个关键技术:研究查询结果页面抽取技术,充分利用页面的结构特征和内容特征,实现结构化数据的自动抽取;研究查询结果数据语义标注技术,充分利用Web数据元素之间的逻辑约束关系,提高语义标注的准确性,并实现多数据源数据模式的一致性;研究大规模重复记录检测技术,构建领域层次的重复记录检测模型,实现同一领域大规模Web数据库之间自动的重复记录检测。项目成果预期将在商业智能、企业搜索、情报分析等系统中。