论文部分内容阅读
随着WWW技术的发展和普及,人们不再仅仅满足于被动地从网络中获取信息,更多的用户开始将自己的文章放到网络上与其他用户交流。在这一过程中,Web论坛作为用户发表文章的场所,也迅速地发展起来。随着时间的推移,论坛站点中积累了丰富的文档资料,其中不仅有各种各样的技术资料和新闻资讯,还包括众多用户的观点和评论。然而,面对大规模的论坛文档库,至今仍然缺乏有效的智能处理方法来分析整理其中包含的信息,帮助用户快速地定位需要了解的内容。
本文在详细分析Web论坛语义结构的基础上,提出了一套完整的针对Web论坛的主题分析框架,并就其中涉及的关键技术,如消息序列语义漂移分析、论坛主题提取和多消息自动摘要等,进行了深入地研究。本文的工作对Web论坛中信息资源和知识的挖掘与整理进行了有益的尝试。
本文的工作和所获得的研究成果主要包括以下几个方面:
1)论坛消息多维描述建立
消息是论坛中传递信息的基本单位,每个消息除了内容之外,还具有作者、时间、标题和所属话题线索等特征。本文引入“多维文档立方体”模型来描述论坛消息和消息的这些特征,给出了多维文档立方体的定义和建立方法,并解释了如何从立方体中导出多维消息视图。为了在系统中实现该模型,本文设计了基于四个维度的集成索引,包括话题线索索引、作者索引、日期索引和关键词索引,其中关键词索引可以看作是消息内容的索引。本工作为下面几个部分的分析处理奠定了基础。
2)消息序列语义漂移分析
论坛中消息语义的正确解析依赖于消息的上下文,在一个消息序列中,随着消息数量的增加,所讨论的主题也会逐渐发生改变,本文称这种情况为语义漂移。语义漂移是论坛中普遍存在的现象,为了找出消息序列中不同讨论主题的切分点,本文设计了加窗分析算法,通过分析相邻窗体之间的相似程度来寻找一个消息序列中不同主题的分割方法。语义漂移分析应用到不同的消息序列上具有不同的意义,本文设计了三个维度上的语义漂移分析,包括话题线索分析、指定作者所有消息的分析和基于关键词的消息语义分析。
3)论坛主题提取
本文通过挖掘消息关键词之间的同现关系来寻找论坛中的主题信息。将消息中的词条对应于数据库中的项,本文使用关联规则挖掘的方法分析关键词的同现。在传统Apriori算法的基础上,综合考虑算法的效果和复杂度,本文通过引入词条的词频信息将挖掘过程分为频繁2-项集生成和其他频繁k-项集生成两个部分,并设计了针对词条频繁项集的聚类算法得到论坛中的主题列表。用描述主题的词条集合作为查询与消息匹配可以确定消息所属的主题,最后根据不同主题间的信息重复程度对主题列表进行调整,得到主题提取的最终结果和与每个主题对应的消息列表。
4)多消息自动摘要
为了帮助用户快速了解主题的内容,本文根据主题中所有消息的内容生成了摘要。为了准确全面地反映整个主题的内容,本文通过聚类方法生成论坛主题的层次结构,并根据该结构将摘要大小划分到各个子主题中去,从每个子主题中抽取出一定数量的句子组成摘要。在子主题内部,由于从不同消息中抽取出的句子不可避免地包含冗余信息,本文设计了关键句聚类的方法将句子分为多个簇,从不同的簇中选取句子作为子主题的关键句。
最后,将选出的所有关键句按照启发式规则排序即可得到摘要结果。基于上述工作,本文为论坛主题分析制定了通用的处理流程与框架结构,尝试实现了一个论坛主题分析系统。该系统在论坛语义信息的自动整理与分析方面做出了有益的尝试,处理结果可以帮助用户更快地获得所需的资料,为进一步面向论坛的信息检索和知识发现提供了技术支持。