基于信息增益的文本特征权重改进算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:liangzi_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异对特征权重计算结果的影响,降低文本表示的准确性。针对以上问题,提出一种改进的特征权重计算方法tf.igt.igC。该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足。实验结果表明,与tf.idf.ig和tf.idf.igc 2种特征权重计算方法相比,tf.igt.igC在计算特征权重时更加有效。
其他文献
数学教学不仅是以"传授数学知识"为目的,而且要更加关注在数学教学过程中让学生经历知识的形成过程和思维方式的多样化。
【目的】为了更准确计算特征权重,以提高文本相似度计算的准确性。【方法】考虑特征项间的语义关联构造文本复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提
在对国内一些学者使用的我国资本存量估算方法进行比较分析的基础上,本文给出了一种新的估算方法,并运用此方法对1952—2001年的我国资本存量和固定资本存量进行了估算。
城乡产业分工与协调发展是社会生产力发展到一定阶段的必然趋势,也是消除城乡差别、实现城乡一体化发展的有效途径。在我国进入"工业反哺农业、城市支持农村"的发展新阶段后,
经济全球化的深入,以大数据、云计算为代表的信息技术蓬勃发展导致了市场竞争加剧和商业模式的创新。在这样的背景下,为了适应复杂的外部环境增强竞争力,以企业集团、战略联
<正> 今年3月,苏共中央举行了戈尔巴乔夫上台以来的首次农业全会,确定了以根本改变农业经济关系为主的新农业政策。本文拟对苏联新农业政策出台的背景、具体内容和特点以及它
<正> 牙病是最常见的疾病之一,特别是老人,牙病随着年龄的增大和牙周组织萎缩程度的加重而增多。在我认识的老人当中,普遍缺牙,保留下来的部分牙齿,也是牙病频发,倾斜松动。
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征
中日甲午战争是日本蓄谋已久并精心策划的一场有重大战略预谋的侵略战争。战后日本强迫清政府完全按其意图所签署的《中日马关条约》,是其发动甲午战争的动机与目的的真实表
<正> 为了有效提倡和促进全国婴儿都得到母乳喂哺,建议下列8条措施: ①延长产假至6个月;②乳母进食适当营养(见表);③减轻乳母的工作强度;④在工作单位办好婴儿寄托室,安排乳