信息自适应过滤的效用指标优化方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:nurgul2120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TREC(Text Retrieval Conference)是信息检索领域中最重要的国际会议,文本过滤是TREC的重要任务之一,自适应过滤是过滤任务的最重要的子任务。对TREC指标函数的优化是一个包括优化时机、优化策略、优化幅度等因素的复杂的过程,是自适应过滤中非常重要的研究方向。利用极大似然估计法(记为ML)对评测指标进行优化在TREC9中取得了第一名的成绩。ML是一种全局优化的方法,它对文档得分(相似度)分布参数估计偏差最小,能够较精确的反映语料集的整体特征。但是ML是一种全局性的方法,它对语料库的局部(每一反馈区间)特征反应“不敏感”,尤其是到了过滤中后期由于过滤的累积效应,ML对阈值的调整有滞后作用,这样就降低了过滤系统的性能。 本文主要解决的是ML方法对语料库局部反应“不敏感”的问题,在ML方法的基础上对TREC效用指标函数再进行局部优化,本文把这种方法叫做基于极大似然估计法的局部优化方法(记为MMLOR)。MMLOR不是对ML方法和局部优化方法简单的相加,它是一个复杂的逐步迭代的过程。MMLOR方法以ML方法为主线,又根据每一反馈区间对TREC效用指标函数的增益情况对阈值进行局部优化,从而增加过滤系统对局部的敏感度。因此,MMLOR方法不仅可以反应语料库的整体分布特征,还可以反应出语料库的局部特征,对效用指标函数起到全面优化的作用。 本文在相同的过滤环境下对MMOLOR.、ML、局部优化的方法的进行了比较,实验结果表明采用MMLOR方法对TREC效用指标函数进行优化的效果最好,从而证明了MMLOR优化方法比ML和局部优化方法更合理、更有效。
其他文献
目的探讨慢性乙型肝炎(chronic hepatitis B,CHB)合并非酒精性脂肪肝(nonalcoholic fatty liver disease,NAFLD)患者中肝脂肪变性与乙肝病毒复制状态之间的关系及对肝纤维化的影响。方法选取福建省立医院2016年12月至2019年2月期间就诊的CHB患者126例,其中59例合并NAFLD。分析单纯CHB组和伴脂肪变性CHB组之间的乙肝病毒复制状况,
物联网产业的发展方兴未艾,作为其核心技术之一的无线传感器网络在诸多领域内都具备广阔的应用前景。在其相关的应用场景中,无线传感器网络严重受到能源及其自身软硬件资源的限
目的了解北京大兴国际机场建筑工地流动人口艾滋病知识知晓情况,为调整艾滋病防制措施提供科学依据。方法选取承建北京大兴国际机场的6家建筑公司,开展现场问卷调查,采用描述流行病学方法分析结果。结果共收回有效问卷1 089份(96.3%,1 089/1 131),艾滋病知识知晓率为46.56%,仅有31.77%的人知晓"蚊虫叮咬不会传播艾滋病"。11.46%的男性调查对象最近一年有过商业性行为,其中坚持使
山东省建材信息网是一个基于Internet的分布式信息管理系统,主要任务是通过Internet在全省各地完成建筑材料价格的采集和统一发布。 本文针对该系统的特点,重点研究与探讨了
数据网网管系统因其能有效提高IP网络管理效率而被广泛采用,但仍尚未实现其随时随地接入与访问。通过分析数据网网管系统的架构和对其进行移动性扩展的影响因素,提出了一种利用
当今微处理器性能的提高已经不再依赖频率的提升,而是依靠处理器核数的增加来提高处理器的计算能力。例如,Intel公司的至强系列微处理器。但是,通过比较处理器核数和内存容量
本文对电信服务和电信服务质量的相关概念的内涵进行了讨论和定义;然后从经营分析系统的角度出发,对BSS/OSS中关于服务质量的相关支撑系统进行了调研分析(主要包括客服系统和SL
随着电信网与计算机网的逐步融合,市场竞争从以往的资源竞争转向服务的竞争,运营支撑系统也从面向网络和业务的管理转向了面向服务的管理。目前许多与运营支撑系统相关的组织非
纹饰作为外化于青铜礼器、乐器的文化表征,伴随青铜器产生、发展的全过程,并融汇、承载了青铜器物之文化属性与时代属性.不过,有学者认为音乐考古学研究中无须研究纹饰.纹饰