面向文本分类的特征词选取方法研究与改进

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:geqatm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。
其他文献
该文提出基于高斯加权距离以及聚类重构机制的K-NN文本聚类算法。文章提出K-NN近邻域的概念,通过高斯加权的近邻域算法实施K-NN聚类。利用高斯函数根据样本与聚类中心的距离
日本有家航空杂志记者采访我,要我回忆幼时“妈妈做的菜”。这令我有点伤感。妈妈离开我已经三年了。一千个日日夜夜,老人家的音容笑貌无时无刻不在眼前浮现。特别一日三餐,吃到
说到咖喱美食,或许还有不少人停留在妈妈做的咖喱鸡块的阶段,金津必能帮你补上这重要的一课。金津的咖喱原汁都采用上乘香料及咖喱粉烹N5d',时以上而成,再加上红、黄、绿、黑、白
“上海蟹艳”秉承两百余年的江南餐饮文化精髓,坚持走健康、时尚饮食路线,值此金秋,推出独创的蟹宴文化。门口以老姜组建的山峦,垂钓的老者,山顶的茅草屋以及小凉亭,妙趣横生。再与
上海为了“节省天光”,将所有的时钟都拨快了一小时。
在近来出现的面向实体的搜索服务中,准确地预测实体间的相关程度是至关重要的。该文提出了一种基于实体的事实知识,即利用"实体—属性—属性值"(SPO)记录进行实体相关度计算的方
如今,弄堂口隐约传来的叫卖声,早已经隐在了青苔遍布的石砖上,偶尔才能吃到的光明冰砖早已经隐在了知了喳喳的喧嚣里,冰冰凉凉的味道早已经隐在了柏油马路粘粘的沥青里,而那些孩子
一家已有7年多历史的老牌日本料理店,纯正地道的风昧以及实惠的价格,无疑是她一直门庭若市的原因。环境典雅,临窗是一排翠绿的竹,将炎炎烈19阻隔,隐约带来清新自然的竹林风。餐厅
《全球华语大词典》是《全球华语词典》的升级版,是一部反映世界主要华语区当代华语词汇面貌的大型语文辞书。主要收录全球华人使用的华语词语,包括中国大陆(内地)、
目前,生物医学文献的数量正在呈指数的方式快速增长,这些文献中隐含着大量有用的信息,挖掘这些文献可以形成医学假设。但传统的基于简单共现的方法会产生大量的目标词,导致很