关于词频倒排文档频公式的修正

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:goodcat13579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
向量空间模型(VSM)是文本信息处理的经典模型,它把文本用向量表示,以特征项的权值作为分量,这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式是标准化的词频倒排文档频(TFIDF)公式。 研究发现,向量空间模型并不是一个完善的模型,其最大的缺陷是假设特征项之间是相互独立的。这使得用向量空间模型表示文本集时,很可能造成信息遗漏或冗余。此外TFIDF公式同样不够准确,它简单地认为特征项权值与包含该特征项的文档数成反比,而没有考虑特征项分布的比例情况。 本文使用中文信息处理工具从中文文本集中抽取词条,并通过知网系统把词条空间映射到概念空间。用概念代替词条作为特征项的方法间接达到了降维目的,并在很大程度上消除了向量空间模型特征项之间的相关性。 文本的一个主要研究内容是对TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
其他文献
国土资发〔2010〕122号中央有关部门,有关中央企业,各省、自治区、直辖市国土资源厅(国土环境资源厅、国土资源局、国土资源和房屋管理局、规划和国土资源管理局),部机关有关
统计学中的一个重要问题就是概率密度估计,不管是在理论研究方面还是实际应用方面,概率密度估计对于解决统计学中的大部分问题都有非常重要的帮助。过去用于密度估计的方法主要
梁妍慧在《半月谈》第10期上撰文指出,最近,党中央颁布了干部人事制度改革的五个法规性文件, 落实它应在三个方面有所突破:思想观念突破:由“伯乐选马”转向“赛场选马”深化干
图中的最大团问题与最大独立集问题均属于图论中经典的NP-完全问题,该类问题所具有的固有困难,已使其普遍有效算法的寻求变得希望渺茫。但由于该类问题深刻而广泛的理论及应用
自适应网格方法是一种用来解决微分方程近似解的重要计算方法,把他应用在边界层和内层问题的近似解上是非常有效的,这里我们研究的是自适应重分布网格方法即移动网格法。 本
2008年11月21日到24日,由广东省人民政府主办,广东省农业厅、佛山市人民政府承办的第二届广东现代农业博览会暨名优新农产品展销会在佛山市陈村花卉世界隆重召开。本届农博会
体育教学是提升学生身体素养,帮助学生建立终身锻炼意识的基础学科.在素质教育的大力推广之下,作为新时代的体育教学人员,需要注重自身素质的提升与教学方法的改进,为培养适
本课题研究来源于国家自然科学基金项目(70471045):一类上层供应商主导的两层供应链协调问题的研究。 供应链管理的重要内容之一是协调供应链中的各个组成部分,因为供应链是
“空间观念”是数学学习的核心概念之一。《标准(2011版)》从四个方面对空间观念进行描述:空间观念指根据物体特征抽象出几何图形,根据几何图形想象出所描述的实际物体;想象
语文教师要想讲授一堂好课,一定要能够提出真的问题、运用真的教学模式、使用真的教学语言,所讲内容要深浅适度,这要教学效果才会理想,学生才会学有所获.