向量空间模型中 TFIDF 权值公式的修正

来源 :地球 | 被引量 : 0次 | 上传用户:pk8984812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TFIDF 公式是向量空间模型中应用比较成功的计算特征项权值的方法。研究发现,该公式忽略了特征项在文本集的分布比例和离散程度这两个影响特征项对文本表示贡献度的重要因素。为此,本文构造了一个平衡因子BF,并将其加权到 TFIDF 公式中,得到了修正后的公式 M-TFIDF。简单数值例子和中文文本聚类实验都表明, M-TFIDF 公式保留了 TFIDF 公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
其他文献
近年来天津市大力推进高标准基本农田建设,取得了成效的同时也存在着诸多问题。本文首先介绍了天津市高标准基本农田建设工作概况,在总结高标准基本农田建设主要做法的基础上,分
燃油管道式烘丝机(HXD)是卷烟厂制丝生产线中的叶丝膨胀设备,该设备利用气流干燥原理加工叶丝,实现叶丝的在线膨胀,满足卷烟工艺要求。本文主要探讨燃油管道式烘丝机的工作原理,
新教材数学教学大纲规定的数学教学目的是使学生掌握数学基础知识与基本技能,形成数学能力,发展个性品质和形成科学发展。
随着多媒体教室在大学的设立,一些农科院校开展了专门用途英语教学的课程,提出了大学英语教学改革的方向是从传统的围绕四六级教学逐步将重心偏向于专门用途英语教学。本文作
在几种常规急倾斜薄矿体的采矿法前提下,针对高海拔地区急倾斜薄矿体开采技术而言,需要对采矿方法优选因素指标进行综合考虑。采矿方法的权重矩阵可运用模糊数学层次反选的方法
新疆萨瓦亚尔顿金矿床是我国南天山西段大型的金矿,萨瓦亚尔顿金矿与穆龙套金矿床(乌兹别克斯坦)在地质背景和特征方面具有类似的特点,因此属于穆龙套型金矿床。通过对该矿床的
地面三维激光扫描仪是近些年发展速度较快的一种测量仪器,具有诸多的优点,在数据监测方法有着较大的优势。本文结合笔者工作经验,通过介绍地面三维激光扫描仪的数据获取方法,重点
朱拉扎嘎金矿体主要赋存于阿古鲁沟组1段,火山岩为围岩或矿体的组成部分。矿体基本顺层产出,受层间破碎带控制。阿古鲁沟组的火山活动使成矿物质预富集在地层中,为后期岩浆热液
本文以在某煤矿开展瞬变电磁法勘探为例,对利用物探的方法对煤矿水害的预测进行探讨。
在教学中,教师多强调拉曼光谱的定性分析,忽视其定量分析。为加深学生对拉曼光谱的认识,使其对拉曼光谱的定量分析功能有进一步的了解,在实验教学中增设了拉曼光谱的定量分析