基于概念图挖掘的中文文本倾向性研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:myweiyong168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术的广泛应用,为人们网上信息交流提供了友好的技术平台。网络社区如人人网,Facebook, LinkIn, Twitter,以及博客、微博等多种信息交流形式,使得网上信息传播的途径增多,传播速度迅捷。为了有效监管和控制网上各种倾向性信息(包括低级、黄色、暴力、邪教、反社会等)并及时掌握社会焦点信息的传播,对于网页文本信息的倾向性分析成为研究的热点问题。对于文本的倾向性分析属于文本挖掘的研究领域,所用到的基本方法涵盖了自然语言的理解和处理、统计分析、数据挖掘、知识管理等方法。传统的基于规则的文本挖掘方法规则的建立是瓶颈问题,由于规则的僵化和滞后使得文本分析的效果不够好;基于统计的文本挖掘方法通过词语提取和简单统计计算文本的整体倾向度,结果偏重于经验,文本分类的效果不够细致;基于机器学习的文本倾向性分类方法需要大量的样本对分类器进行训练,在文本分类初期,特别是对于特定领域文本的分类初期,由于样本数据的缺乏必然导致分类效果不够理想,这也将使语料库的样本不够精确,间接导致后期的文本分类准确度较低;支持向量机的方法可以较好的解决小样本学习的问题,但算法比较复杂:而基于相关性的分析方法提供了一种更细粒度的文本倾向性分类方法,考虑情感词、词组以及特征词的依存关系,分类效果比较前面几种方法更好,但对自然语言的处理技术提出了更高的要求;基于语义学的文本倾向性分析方去以情感词汇和词语的倾向性为主要特征,通过过滤模板或者相关性计算分析文本的倾向性,准确率可以达到80%,但模板的设计生成以及相似性计算阈值的设定成为关键的问题。上述文本倾向性分析的结果都是给出文本的倾向性分类结果,对于这种结果的划分取决于阈值的设定,而阈值的设定很大程度上是主观的。另一方面,文本倾向性的分类结果不能够直观地描述出文章作者要表达的主题内容,特别是对于那些在设定阈值附近的文档可能存在误判的情况。针对前面描述的已有文本倾向性分析方法存在的问题,本文提出采用概念图挖掘的方法来进行文本的倾向性分析,提高中文文本挖掘的可视化程度,目的在于提高中文文本倾向性分析的准确度。无论文章的内容是什么,都可以图形化地提取文档的主题内容,避免因为阈值设定的误差而导致文本倾向性分类的错误。论文的研究工作主要体现在以下几个方面:(1)提出基于中文自动构词算法的SVM文本倾向性分类方法词库在文本分类研究中起着至关重要的作用。通用的文本倾向性分析方法对于文本的分类都是基于统一大词表,一般包含几十万甚至于上千万的词汇量,而对于文本倾向性分析而言,最常用的只是一些领域内的词语,统一大词表的搜索方式必然会消耗很多的搜索时间,导致搜索速度降低。本文提出的中文自动构词算法可以自动化地动态构建专用词库,不仅解决了统一大词表搜索时间过长的问题,同时也避免了人工构造专用词库词汇不足和添加词语之后的问题。(2)提出基于二元隐Markov模型和条件随机域模型的文档句法分析方法中文文本词汇量大,词的组合随机性强,表达的语义丰富多彩,基于随机理论的句法分析方法可以较好的符合中文的语言表达特点。因而本文采用二元隐Markov模型进行词汇标注,采用二阶条件随机域模型进行组块分析,结合对文档的主体结构分析可以较好的生成用于概念图挖掘的结构化的语法树。(3)提出由中文文本语法树自动生成初始概念图的方法将描述一篇文档的结构化的语法分析树映射为概念图是概念图挖掘的关键步骤。本文在前面句法及语义分析的基础之上,借助传统的统计分析方法提取文档语法树中的概念和概念之间的关系,并生成初始概念图,所提出的方法简单易行,分析速度快。(4)提出基于权重的剪枝算法解决初始概念图的化简问题,提取文档主题内容最初提取的概念图是比较庞大的,必须通过化简才能提取文章的主题内容。本文在考虑概念本身的重要性基础之上,通过概念图中概念之间联系的“度”来计算概念的权重,每一轮迭代将权重较低的概念节点删除,并将该节点的权重合并到邻接节点,经过多次迭代实现对初始概念图的化简,最后生成可以表达文档主题内容的简化概念图。为了证明本文所提出方法的科学性和有效性,文中对于所提出的策略、方法进行了详细的理论推导,给出具体的算法,并对每一部分内容设计了实验验证环节。实验表明,我们所提出的对于中文文档的概念图生成及化简方法对于概念提取的正确率达到50%以上,基本上与文献报道的英文文档的概念图提取的水平相当,而由于中文文本语言理解本身的困难,概念提取正确率达到50%这一指标是比较好的,说明本文提出方法有效。本文研究成果对于中文文本挖掘的可视化研究具有重要的理论意义,丰富和发展了中文文本倾向性分析理论,同时对于网上海量文本信息倾向性的快速分析具有重要的现实意义,可以用于公安系统及行业主管部门对于网络舆情信息的监管,也可以广泛应用于电子商务商家对于客户的个性化偏好的分析。
其他文献
何谓耐心?有人办事粗糙,听话听一半就不耐烦了,却可以坐下来几个小时地摆弄一只小闹钟.何谓耐心?耐心是一种精神,一种性格,同时也是可以培养的.事无大小之分,有的值得我们耐
期刊
日前,记者从连云港港口集团生产例会上获悉,2018年1月份,全港上下齐心协力,克服严寒、雾、雪等恶劣天气及场地紧张等困难,完成货物吞吐量1968.02万吨,同比增长3.3%,其中集装
南极冰--调节全球气候的空调机有人形象地把南极冰比作调节全球气候的"空调机",意思是说南极这个冰雪世界,它的大陆冰盖和南大洋的海冰,不仅决定着南极地区的气候,而且调节和
期刊
有人说过:"一切事物都是用铅笔起稿的,无论是服装设计师的女装图样、一艘军舰、一只棒球手套,或是一项核子理论."的确,普通而平凡的铅笔可能是人类历史上最为人类所看轻所忽
期刊
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
《中国广播电视学刊》2004年第3期发表了孙建三先生的《在中国Television为什么叫’电视’》一文(以下简称孙文),作者通过对我国早期电影教育先行者、摄影家孙明经先生(1911-
为使河网中河段的直接定位和拓扑关系更加直观,提出直接对矢量河网进行继承式编码的思想,首先通过基于节点大小平衡二叉树的最小代价路径搜索算法完成对DEM数据的填洼处理,并
美国斯坦福大学曾做过这样一项试验,让一志愿者晚上只睡4小时,然后请他根据前方灯光闪亮的次数按动电钮.最初几分钟里,灯光每6秒钟闪一下,他也随之按一下,当一束强光突然连续
期刊
第一部分UGT1A1基因多态性与广西来宾地区壮汉民族新生儿高胆红素血症关系的研究目的:对广西来宾地区部分壮族、汉族以及壮汉混合民族新生儿进行尿苷二磷酸葡萄糖醛酸转移酶1A
创新是我国政治、经济、文化发展背景下的一大主题。京剧艺术的创新是文化创新中一个十分重要的课题,将为京剧艺术带来第二次生命。对京剧艺术进行创新是一项全方位、系统化