基于加权关联模式挖掘与规则后件扩展的跨语言信息检索

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:liliqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】针对自然语言处理中查询主题漂移和词不匹配问题,提出一种基于加权关联模式挖掘和规则后件扩展的跨语言信息检索模型及其算法。【方法】该模型采用新的加权关联模式支持度和基于最大项目权值的项集剪枝策略挖掘频繁项集,利用置信度和相关度评价加权关联规则,根据扩展模型从规则中提取优质扩展词实现规则后件扩展,扩展词与原查询词项组合为新查询再次检索文档得到最终检索结果。【结果】实验结果表明,与单语言检索基准比较,本文检索模型的R-prec和P@10平均增幅分别为42.49%和25.53%;与跨语言检索基准比较,其平均增幅分别为91.87%和64.61%;与现有基于加权关联规则挖掘的跨语言检索方法比较,R-prec和P@10最高平均增幅分别可达93.20%和34.60%。【局限】只进行实验性研究,需要探讨在实际跨语言搜索引擎中的具体应用。【结论】本文检索模型能有效地减少查询主题漂移和词不匹配问题,改善和提高检索性能。
其他文献
本文通过对上海大众汽车有限公司宁波分公司CP6工程项目总装车间工程,对屋盖钢网架整体吊装施工实例做简要介绍,具体描述该工程网架整体吊装的主要施工过程、程序和方法,及其
马克思主义混合所有制思想包括马克思主义经典作家混合所有制思想和中国化马克思主义混合所有制思想。马克思主义混合所有制思想深刻揭示了混合所有制存在的前提、本质及未来
20世纪80年代以来,顾客价值理论成为理论界和实务界关注的焦点。从国外和国内对顾客价值理论系统的总结和研究中,不难发现目前研究主要集中在概念界定、性质说明和驱动因素探
期刊
就高职院校“后期实训模式”中出现的一些新问题,提出了基于职业体验中心平台的实践教学模式,并对该模式的创建、教学体系、管理方法进行了梳理。通过实证研究分析了职业“体
2003年全国出版图书、期刊、报纸总印张为1806.93亿印张,折合用纸量418.59万吨,与上年相比用纸量增长10.75%。其中:书籍用纸占总量14.11%,课本用纸占总量11.77%,图片用纸占总
流动人口在中国的社会中是一个巨大而且急速增长的群体。虽然有很多关于中国城市和农村室内空气污染的调查研究,但是,对这些生活环境和城市、农村都不一样的流动人口,关于他们的
随着国内电商业务的不断发展,使得国内物流行业如雨后春笋般发展。国内物流行业的不断发展,造成行业内部的竞争在不断加剧。烟草物流公司作为烟草企业的一个重要分支,对于烟
<正>金融机构在提供新的产品和服务时应该更多考虑弱势群体的特点,在重视弱势群体的金融可获得性的同时保障其基本权益。在宣传中,也要以金融服务中的弱势群体为重点,充分发
<正>第一,现在的中国建筑企业集团比任何时候都需要加强全球化的进程。中建现在已经发展成为世界上最大的建筑企业集团。中建在世界五百强企业的排名持续上升,最新的排名是37