论文部分内容阅读
随着网络技术的应用和普及,越来越多的信息充斥在网络之上。如何在众多的资源中找到适合自己需求的信息,成为众多学者、专家和网络用户关心的核心问题之一。如何帮助信息相关主体及时了解、追踪自身或行业相关信息及社会评价对其宣传、决策、发展及危机管理至关重要。定向性信息分析是解决这一问题的有效方案,定向性信息分析指在挖掘个人用户或单位用户长期关注的领域信息或主题信息,针对个人或机构用户长期关注的兴趣点,对互联网信息进行分析和追踪,从中筛选出一个与用户兴趣相关的信息子集。本文针对定向性信息分析中的信息选择、主题分类、文本聚类等问题展开深入研究,提出能够有效解决这些问题的相应方法和模型,为推动定向性信息分析更好的发展发挥积极的作用。本文通过搜索引擎关键字检索获取的文档来源信息,据此利用爬虫技术得到分析的文档,根据定向性信息分析任务的特点,对定向性信息分析过程每个阶段的技术和相关算法进行了深入研究和探讨,并提出一系列有效、适用的模型或算法,最终构建了一个高效、实用的定向性信息分析任务框架。本文重点研究了以下问题:1、基于搜索引擎返回文本的启发式信息抽取模型检索返同的结果包含了标题,内容摘要等信息,仅以返回结果为分析对象是远远不够的。为了得到全面的文档分析要素,本文构建了包含文档正文、点击量、发布时间、引用次数等文档的XML结构,对如何获取每个文档XML结构中的元素给出了具体方法,重点研究了文档止文的抽取,基于DOM树结构,在调查统计在基础上,根据标点符号和链接在止文分析中的提示作用,提出布局标签权重的计算办法,利用搜索引擎返回摘要确定止文的中心标签,描述了中心标签及其权重的聚合过程,将权重最大的标签作为正文抽取标签。2、用户参与的主题聚类与分类框架描述了主题分类的困难,针对定向性信息挖掘任务的特点,分析用户参与主题分类的必要性和可能性,引入文本分类的监督特征,提出定向性信息挖掘任务的完整主题聚类、分类框架。3、基于不确定概率逻辑的文本分类模型在对文本分类技术进行了较全面的研究基础上,详细分析了文本分类的特征,深入讨论造成分类器偏差的原闪,引入基于不确定概率逻辑的主观逻辑理论及模型,特征对类别的信任关系作为文本分类的证据,提出基于不确定概率逻辑的文本分类模型。通过观念空间计算特征的分布权值,并将分布权值作为参数调节基础权重得到特征权重,利用特征权重实现简单的线性分类器。通过在通用分类评测语料集上比较实验显示,本文模型相对NB、KNN、 LLSF、NNet比照算法性能(分类准确率)有显著提高,相对SVM,性能相当,但分类速度有明显提升。模型对不同语料集有较强的适应性,分类器在没有特征选择的情况下,仍保持较高的性能。4、基于文本分类和用户参与的K-Means聚类模型没有任何一种聚类聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,不同的应用可利用的信息来源不尽相同,对聚类质量、效率等方面往往都有特定的要求,因此要根据应用场合,充分利用相关信息,选择合适的聚类算法。本文详细描述和比较了划分式聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法等聚类方法,K-Means聚类模型无论从算法的简洁性还是效率均显示较强的生命力,深入讨论了K-Means聚类模型的优缺点以及改进方法,本文引入文本分类和用户参与监督信息,整合系统自动监督与人工监督两方面优势,建立基于文本分类和用户参与的K-Means聚类模型,有效克服了K-Means聚类初始K值难以确定,易陷入局部最优等问题,通过用户监督确认下几轮迭代,产生了较理想的、人为可控的主题分类结果。为能使用户快速了解文档的主题内容和热度,本文将文本分类标签问题为父标签,并且TFIDF值作为子标签选取依据,将TFIDF值大的词语作为备选标签,引入HowNet词典网络,取得概念、范围较为宽泛的子标签。借鉴网站传播影响强度模型,定义本文文档热度计算方法。本文对定向性信息分析任务进行了初步探究,紧密结合相关任务的特点,研究更为有效、适用的模型和算法,为今后深入研究奠定基础。