Web论坛主题分析技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:li13688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW技术的发展和普及,人们不再仅仅满足于被动地从网络中获取信息,更多的用户开始将自己的文章放到网络上与其他用户交流。在这一过程中,Web论坛作为用户发表文章的场所,也迅速地发展起来。随着时间的推移,论坛站点中积累了丰富的文档资料,其中不仅有各种各样的技术资料和新闻资讯,还包括众多用户的观点和评论。然而,面对大规模的论坛文档库,至今仍然缺乏有效的智能处理方法来分析整理其中包含的信息,帮助用户快速地定位需要了解的内容。 本文在详细分析Web论坛语义结构的基础上,提出了一套完整的针对Web论坛的主题分析框架,并就其中涉及的关键技术,如消息序列语义漂移分析、论坛主题提取和多消息自动摘要等,进行了深入地研究。本文的工作对Web论坛中信息资源和知识的挖掘与整理进行了有益的尝试。 本文的工作和所获得的研究成果主要包括以下几个方面: 1)论坛消息多维描述建立 消息是论坛中传递信息的基本单位,每个消息除了内容之外,还具有作者、时间、标题和所属话题线索等特征。本文引入“多维文档立方体”模型来描述论坛消息和消息的这些特征,给出了多维文档立方体的定义和建立方法,并解释了如何从立方体中导出多维消息视图。为了在系统中实现该模型,本文设计了基于四个维度的集成索引,包括话题线索索引、作者索引、日期索引和关键词索引,其中关键词索引可以看作是消息内容的索引。本工作为下面几个部分的分析处理奠定了基础。 2)消息序列语义漂移分析 论坛中消息语义的正确解析依赖于消息的上下文,在一个消息序列中,随着消息数量的增加,所讨论的主题也会逐渐发生改变,本文称这种情况为语义漂移。语义漂移是论坛中普遍存在的现象,为了找出消息序列中不同讨论主题的切分点,本文设计了加窗分析算法,通过分析相邻窗体之间的相似程度来寻找一个消息序列中不同主题的分割方法。语义漂移分析应用到不同的消息序列上具有不同的意义,本文设计了三个维度上的语义漂移分析,包括话题线索分析、指定作者所有消息的分析和基于关键词的消息语义分析。 3)论坛主题提取 本文通过挖掘消息关键词之间的同现关系来寻找论坛中的主题信息。将消息中的词条对应于数据库中的项,本文使用关联规则挖掘的方法分析关键词的同现。在传统Apriori算法的基础上,综合考虑算法的效果和复杂度,本文通过引入词条的词频信息将挖掘过程分为频繁2-项集生成和其他频繁k-项集生成两个部分,并设计了针对词条频繁项集的聚类算法得到论坛中的主题列表。用描述主题的词条集合作为查询与消息匹配可以确定消息所属的主题,最后根据不同主题间的信息重复程度对主题列表进行调整,得到主题提取的最终结果和与每个主题对应的消息列表。 4)多消息自动摘要 为了帮助用户快速了解主题的内容,本文根据主题中所有消息的内容生成了摘要。为了准确全面地反映整个主题的内容,本文通过聚类方法生成论坛主题的层次结构,并根据该结构将摘要大小划分到各个子主题中去,从每个子主题中抽取出一定数量的句子组成摘要。在子主题内部,由于从不同消息中抽取出的句子不可避免地包含冗余信息,本文设计了关键句聚类的方法将句子分为多个簇,从不同的簇中选取句子作为子主题的关键句。 最后,将选出的所有关键句按照启发式规则排序即可得到摘要结果。基于上述工作,本文为论坛主题分析制定了通用的处理流程与框架结构,尝试实现了一个论坛主题分析系统。该系统在论坛语义信息的自动整理与分析方面做出了有益的尝试,处理结果可以帮助用户更快地获得所需的资料,为进一步面向论坛的信息检索和知识发现提供了技术支持。
其他文献
Workflow is a fast evolving technology which is being exploited by businesses and a variety of industries.Workflow modeling and verification(control-flow verifi
全球定位系统(GPS)是一个以卫星通信为基础的新技术,它具有全天候、全方位统一坐标定位;任意地点、任何时间内的精确定位;快速移动物体瞬时定位等特点。由于早期GPS系统造价昂贵,其
车牌识别技术涉及数字图像处理,计算机视觉,模式识别,人工智能等多个领域,其关键技术包括车牌定位、字符分割和字符识别等,本文致力于车牌识别中若干关键技术的研究.本文基于
随着硬件和软件系统的规模和功能的迅速的增长,设计的复杂性和设计中所包含微小错误的可能性也随之增长,这就给软件和硬件产品的可靠性带来了重大的挑战。计算机辅助验证的目标
随着计算机和计算机网络的飞速发展,信息系统安全成为当前研究的热点课题。构建一个安全的计算机信息系统的根本是拥有具有自主知识产权的、安全的硬件、系统软件和应用。数据
近年来,随着笔记本电脑、PDA以及手机等移动设备功能的增强以及应用的普及,移动计算得到了广泛的应用,互联网设备的移动支持也变得日益重要。蜂窝通信网络将成为未来Internet的
本文使用的是基于在线辨识技术的反馈控制技术,可以适应次路径中的变化.在与反馈控制的对比实验中,将管道端口堵上之后分别使用反馈控制技术和基于次路径在线辨识的反馈控制
近年来,随着射频识别(RFID)技术的快速发展与广泛应用,RFID系统中的数据安全等问题也日益凸显出来,引起了人们极大的关注与争论,使得RFID技术进一步的推广受到严重的阻碍。目
文本分类(Text Categorization)是自动将一组文本分类到预先定义的类别中的任务。自动文本分类可以帮助人们从繁重的大量文本手工组织中解放出来,而且结合了信息检索与机器学习
Web应用程序以其操作简单、方便全世界信息交流等特点,已成为当前网络应用的主要形式,因此快速开发Web程序具有较大的经济意义。但是Web应用程序开发存在较多复杂因素,第一:如何