大规模信息过滤技术研究及其在Web问答系统中的应用

被引量 : 22次 | 上传用户:chenliu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文讨论了知识挖掘中的大规模信息过滤技术及其在Web问答系统中的应用,对信息过滤特别是自适应过滤的若干关键问题进行了深入细致的研究,提出了一体化的高性能信息过滤方法,取得了比目前的信息过滤系统更好的结果。用户需求和用户兴趣是信息过滤的依据和基础,本文介绍了传统的用户需求扩展和用户兴趣构造技术,提出了一种基于二重伪相关文档选择技术的初始用户兴趣构造方法。针对小样本主题(用户需求)难以过滤的问题,本文提出了小样本主题自动判定和优化加强的方法,有效改善了小样本主题的过滤性能。在总结分析了传统的特征选择方法的基础上,本文提出了用户需求粒度驱动的柔性化特征选择方法,将原始用户需求自动划分为粗粒度主题和细粒度主题,根据用户需求的不同粒度自主选择相应的最适合的特征选择方法。本文还对特征权重的平滑计算方法进行了研究。本文分析了自适应信息过滤中较为典型的不确定信息的学习问题,提出了不充分反馈条件下的自适应学习方法,深入分析和比较了用户兴趣更新中不同的未判定信息处理策略对于过滤性能的影响,找到了一种基于不确定信息的最有效的用户兴趣更新方法。检出阈值的优化调整是自适应信息过滤的重点和难点之一。本文对现有的阈值调整方法进行了总结,分析了当前方法中普遍存在的问题,在此基础上,提出了目标函数优化制导的阈值调整方法,把评测过滤系统性能的指标直接作为阈值调整时优化的目标函数;同时对全局和局部目标函数的优化策略进行了深入分析,总结了两种方法的优缺点;从多个角度比较了全局和局部目标函数优化制导的阈值调整方法对于过滤系统最终性能的影响,探讨了两种方法出现较大差距的原因,得出了局部目标函数优化的阈值调整方法更适于自适应信息过滤的重要结论。本文提出了反向的信息过滤方法,介绍了反向用户兴趣构造和反向过滤的算法。本文把反向过滤的思想引入到通常的正向过滤中来,提出了正向和反向过滤相结合的双向过滤方法,使得正向过滤和反向过滤互为补充、互相改进,从而解决了单一过滤系统难以保持准确率和召回率平衡的传统难题,使两项性能指标都能达到较高的水平。本文最后介绍了面向Web海量信息的问答系统,总结了Web问答系统存在的两大问题:相关文档获取和自适应学习。为了充分利用信息过滤灵活、动态、实时的特点,本文提出了基于信息过滤技术的相关文档获取方法,满足了Web问答系统的时效性要求;提出了自适应的答案信息过滤技术和基于协同过滤思想的自适应答案调整方法,使问答系统的整体性能得到提高。本文的研究成果无论对于一般的信息过滤还是自适应过滤都具有重要的启发意义和实用价值,为大规模高性能信息过滤系统的实现奠定了坚实的基础,提供了可靠保证。
其他文献
物理科学作为一种完备的知识体系,是科学探究活动的结果。科学探究在本质上是科学家用来解决自然问题的一种思维方式。为了使学生更好地掌握科学知识,领悟科学的本质,发展科
随着我国汽车工业的发展,汽车在人们的日常生活中逐渐普及。在汽车带给人们便捷的同时,也带来了空气和噪音污染,交通拥挤和频繁的交通事故。疲劳驾驶是导致交通事故的主要原因之
传统的断脐方法是新生儿娩出后,用2%的碘酊消毒脐带断面,待脐带断面干后,用无菌纱布包扎脐带残端,绷带固定。但包扎的纱布及绷带易被尿液浸湿污染,给护理新生儿脐部带来不便,还容易
由于传统的血氧饱和度检测系统已无法适应当今医疗行业多元化、信息化和个性化的监护需求,设计了一种基于ZigBee的血氧饱和度检测系统。该系统采用MSP430和CC2530芯片,能够同时
长三角地区是我国经济发展较快的地区,聚集了较多的高科技人才。随着知识经济的到来,与之相应的人才结构也预示着高科技人才流动的必要性。人才流动现状出现了复杂和多层面的
<正>贯彻落实《国务院关于进一步做好为农民工服务工作的意见》和吉林省人力资源和社会保障厅《关于开展农民工工资支付情况专项检查的通知》,按照《白山市人民政府办公室关
本文设计了一种基于双重系统和飞轮模型的人才激励计划,旨在构建一种新的行为框架,通过示范作用将其有益影响逐步扩散到整个组织中去,最终打造训练有素的企业文化。
本文根据南水北调济平干渠的工程实例,通过国外考察、国内调研,在认真总结国内外先进经验的基础上,紧密结合工程实际情况,经大量研究、分析,提出的具备四防(防渗、防扬压、防冻胀
颌面部撞击伤多发、危害性大、并发症多,面神经挫伤进而面瘫是其中之一。由于创伤性面瘫常难以自行恢复,因此成为临床救治的难点之一,深入探讨创伤性面瘫恢复的细胞学基础与分子