论文部分内容阅读
本文讨论了知识挖掘中的大规模信息过滤技术及其在Web问答系统中的应用,对信息过滤特别是自适应过滤的若干关键问题进行了深入细致的研究,提出了一体化的高性能信息过滤方法,取得了比目前的信息过滤系统更好的结果。用户需求和用户兴趣是信息过滤的依据和基础,本文介绍了传统的用户需求扩展和用户兴趣构造技术,提出了一种基于二重伪相关文档选择技术的初始用户兴趣构造方法。针对小样本主题(用户需求)难以过滤的问题,本文提出了小样本主题自动判定和优化加强的方法,有效改善了小样本主题的过滤性能。在总结分析了传统的特征选择方法的基础上,本文提出了用户需求粒度驱动的柔性化特征选择方法,将原始用户需求自动划分为粗粒度主题和细粒度主题,根据用户需求的不同粒度自主选择相应的最适合的特征选择方法。本文还对特征权重的平滑计算方法进行了研究。本文分析了自适应信息过滤中较为典型的不确定信息的学习问题,提出了不充分反馈条件下的自适应学习方法,深入分析和比较了用户兴趣更新中不同的未判定信息处理策略对于过滤性能的影响,找到了一种基于不确定信息的最有效的用户兴趣更新方法。检出阈值的优化调整是自适应信息过滤的重点和难点之一。本文对现有的阈值调整方法进行了总结,分析了当前方法中普遍存在的问题,在此基础上,提出了目标函数优化制导的阈值调整方法,把评测过滤系统性能的指标直接作为阈值调整时优化的目标函数;同时对全局和局部目标函数的优化策略进行了深入分析,总结了两种方法的优缺点;从多个角度比较了全局和局部目标函数优化制导的阈值调整方法对于过滤系统最终性能的影响,探讨了两种方法出现较大差距的原因,得出了局部目标函数优化的阈值调整方法更适于自适应信息过滤的重要结论。本文提出了反向的信息过滤方法,介绍了反向用户兴趣构造和反向过滤的算法。本文把反向过滤的思想引入到通常的正向过滤中来,提出了正向和反向过滤相结合的双向过滤方法,使得正向过滤和反向过滤互为补充、互相改进,从而解决了单一过滤系统难以保持准确率和召回率平衡的传统难题,使两项性能指标都能达到较高的水平。本文最后介绍了面向Web海量信息的问答系统,总结了Web问答系统存在的两大问题:相关文档获取和自适应学习。为了充分利用信息过滤灵活、动态、实时的特点,本文提出了基于信息过滤技术的相关文档获取方法,满足了Web问答系统的时效性要求;提出了自适应的答案信息过滤技术和基于协同过滤思想的自适应答案调整方法,使问答系统的整体性能得到提高。本文的研究成果无论对于一般的信息过滤还是自适应过滤都具有重要的启发意义和实用价值,为大规模高性能信息过滤系统的实现奠定了坚实的基础,提供了可靠保证。