论文部分内容阅读
“从定性到定量的综合集成法”是我国科学家提出的用于解决开放的复杂巨系统及其相关问题的方法论。综合集成研讨厅作为这一方法论的发展,将专家的智慧、计算机的高性能及已有的知识体系融为一个整体,通过专家间的在线研讨与论证,结合前人总结的领域知识及计算机在逻辑运算方面的辅助,激发专家的创造性思维,深化专家知识,并形成最终的解决方案。在研讨过程中,Internet中的丰富资源对启发、激活专家群体的思维具有重大帮助。有效的将这些资源引入综合集成研讨厅体系,对解决重大决策问题有着重要的意义。
现存的面向综合集成研讨环境的主动信息获取系统主要存在的问题是:向专家推荐的网页中存在无用信息,推荐过程没有考虑专家的兴趣及领域偏好。针对上述两个问题,本文开展了结合网页分类的网页正文抽取算法研究、面向综合集成研讨环境的专家兴趣建模方法研究等工作。具体包括以下三部分内容:
1.提出主题网页正文抽取算法。Internet的网页中,不同类型网页的表现形式不同,其中携带的信息量也不相同。通常主题类网页通过大段文字描述了相关主题,其文本内容对专家具有较大的帮助作用。直接向专家推荐主题类网页的正文文本,能够减轻专家的阅读负担。本文提出的主题网页正文抽取算法,基于HTML网页的特点,通过分析网页中锚文本文字和所有文字之间的字数比例关系及锚文本项数,实现对网页类型的判断;采用基于字数统计及标签判别的方法,对判定为“有用的”(主题类)网页的正文部分内容进行提取。实验结果表明,本文提出的网页类别判定方法优于简单的阈值判别法;网页正文抽取方法具有较高的成功率,并且在锚文本判别和抽取方面效果更佳。
2.提出面向综合集成研讨环境的专家兴趣模型构建方法。已有的面向综合集成研讨环境的主动信息获取系统中,对于引入研讨环境的待推荐网页,通过专家之间的协同过滤,实现重要信息的筛选。该方法在一定程度上减轻了专家人工进行信息检索的负担,但忽略了专家的领域背景及兴趣偏好,不能针对专家个体提供个性化的信息。根据研讨流程特点及专家发言的特殊性,本文提出了一种基于专家历史发言记录分析的兴趣建模方法。该方法采用非负矩阵分解技术,自动生成兴趣话题,通过分析专家发言特征词与兴趣话题的关系逐步生成专家兴趣信息,最终整合专家兴趣信息得到层次化组织的专家兴趣模型。实验结果表明:利用该模型能够很好的实现研讨领域预测,能够用来作为信息筛选的依据,为专家提供兴趣相关的、个性化的信息。
3.提出面向综合集成研讨环境的主动信息获取雏形系统的重设计方案并实现。针对原雏形系统在信息推荐过程中出现的不足,本文重新设计了面向综合集成研讨环境的主动信息获取系统,通过向系统架构中添加利用专家兴趣模型进行信息筛选的个性化信息过滤模块,实现研讨支持信息的个性化推荐。实验结果表明,该系统能够良好的运行,能够向具体专家推荐更有质量的信息,大大减轻了专家的工作压力。