基于文本挖掘的定向性信息分析研究

被引量 : 1次 | 上传用户:siaonn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的应用和普及,越来越多的信息充斥在网络之上。如何在众多的资源中找到适合自己需求的信息,成为众多学者、专家和网络用户关心的核心问题之一。如何帮助信息相关主体及时了解、追踪自身或行业相关信息及社会评价对其宣传、决策、发展及危机管理至关重要。定向性信息分析是解决这一问题的有效方案,定向性信息分析指在挖掘个人用户或单位用户长期关注的领域信息或主题信息,针对个人或机构用户长期关注的兴趣点,对互联网信息进行分析和追踪,从中筛选出一个与用户兴趣相关的信息子集。本文针对定向性信息分析中的信息选择、主题分类、文本聚类等问题展开深入研究,提出能够有效解决这些问题的相应方法和模型,为推动定向性信息分析更好的发展发挥积极的作用。本文通过搜索引擎关键字检索获取的文档来源信息,据此利用爬虫技术得到分析的文档,根据定向性信息分析任务的特点,对定向性信息分析过程每个阶段的技术和相关算法进行了深入研究和探讨,并提出一系列有效、适用的模型或算法,最终构建了一个高效、实用的定向性信息分析任务框架。本文重点研究了以下问题:1、基于搜索引擎返回文本的启发式信息抽取模型检索返同的结果包含了标题,内容摘要等信息,仅以返回结果为分析对象是远远不够的。为了得到全面的文档分析要素,本文构建了包含文档正文、点击量、发布时间、引用次数等文档的XML结构,对如何获取每个文档XML结构中的元素给出了具体方法,重点研究了文档止文的抽取,基于DOM树结构,在调查统计在基础上,根据标点符号和链接在止文分析中的提示作用,提出布局标签权重的计算办法,利用搜索引擎返回摘要确定止文的中心标签,描述了中心标签及其权重的聚合过程,将权重最大的标签作为正文抽取标签。2、用户参与的主题聚类与分类框架描述了主题分类的困难,针对定向性信息挖掘任务的特点,分析用户参与主题分类的必要性和可能性,引入文本分类的监督特征,提出定向性信息挖掘任务的完整主题聚类、分类框架。3、基于不确定概率逻辑的文本分类模型在对文本分类技术进行了较全面的研究基础上,详细分析了文本分类的特征,深入讨论造成分类器偏差的原闪,引入基于不确定概率逻辑的主观逻辑理论及模型,特征对类别的信任关系作为文本分类的证据,提出基于不确定概率逻辑的文本分类模型。通过观念空间计算特征的分布权值,并将分布权值作为参数调节基础权重得到特征权重,利用特征权重实现简单的线性分类器。通过在通用分类评测语料集上比较实验显示,本文模型相对NB、KNN、 LLSF、NNet比照算法性能(分类准确率)有显著提高,相对SVM,性能相当,但分类速度有明显提升。模型对不同语料集有较强的适应性,分类器在没有特征选择的情况下,仍保持较高的性能。4、基于文本分类和用户参与的K-Means聚类模型没有任何一种聚类聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,不同的应用可利用的信息来源不尽相同,对聚类质量、效率等方面往往都有特定的要求,因此要根据应用场合,充分利用相关信息,选择合适的聚类算法。本文详细描述和比较了划分式聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法等聚类方法,K-Means聚类模型无论从算法的简洁性还是效率均显示较强的生命力,深入讨论了K-Means聚类模型的优缺点以及改进方法,本文引入文本分类和用户参与监督信息,整合系统自动监督与人工监督两方面优势,建立基于文本分类和用户参与的K-Means聚类模型,有效克服了K-Means聚类初始K值难以确定,易陷入局部最优等问题,通过用户监督确认下几轮迭代,产生了较理想的、人为可控的主题分类结果。为能使用户快速了解文档的主题内容和热度,本文将文本分类标签问题为父标签,并且TFIDF值作为子标签选取依据,将TFIDF值大的词语作为备选标签,引入HowNet词典网络,取得概念、范围较为宽泛的子标签。借鉴网站传播影响强度模型,定义本文文档热度计算方法。本文对定向性信息分析任务进行了初步探究,紧密结合相关任务的特点,研究更为有效、适用的模型和算法,为今后深入研究奠定基础。
其他文献
<正>我对学生预习《装在套子里的人》一文中的疑难问题加以梳理,在教学时,有针对性地抓住四个关键之点"四性",使教学任务顺利达成。
通识教育与专业教育是高等教育的两个重要组成部分,对于我国高校而言,两者的融合有其必要性,主要表现在:两者的融合是人全面发展和现代社会发展的需要;是专业教育发展的需要,专
在旅游业全球化背景中,国际市场对酒店人才提出了新的要求。这对于我国高职教育而言,既是机遇也是挑战。高职作为培养高技能人才的前沿阵地,应该义不容辞地承担起这一使命。
<正>微信"摇一摇"从最初摇到陌生朋友再到听歌识曲,如今又拓展了"摇电视"的功能。"摇电视",又称摇TV,是微信于2015年春节后推出的网友与电视互动功能,用户打开微信"摇电视"在
中国共产党的群众工作是党的建设的重要内容,它不仅是无产阶级政党本质和宗旨的体现,而且是新媒体背景下,巩固党的执政地位、完成党的历史使命的要求。中国共产党成立九十年多年
马克思、恩格斯的人口流动理论,在生产力与生产关系矛盾统一体也就是生产方式的基础上追根问底而展开。马克思、恩格斯关人口流动的思想都是散见于其所创立的多种著作中。马
达芙妮·杜穆里埃(1907—1989)是英国20世纪英国著名的剧作家和小说家。她的创作生涯长达半个世纪,创作领域广泛,涵盖长篇、短片小说,剧本和传记等。因其作品充满了神秘、浪
体育旅游业是近年来我国旅游市场逐渐展露头角的一个新兴领域,也是我国体育产业发展的一个重要组成部分,是具有体育与旅游双重属性的交叉复合型行业。由于所涉及门类众多,因此体
创意产业在经济发展和创造社会价值方面起着越来越重要的作用。本文采用主成分分析法与SPSS12.0软件相结合,分别从基础竞争力、行业竞争力、政府创新能力以及创意环境4个方面