【摘 要】
:
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性
【机 构】
:
中国石油大学(北京)地球物理与信息工程学院,中国石油大学(北京)油气数据挖掘北京市重点实验室,石大兆信数字身份管理与物联网技术研究院
【基金项目】
:
国家高新技术研究发展计划(2009AA062802), 国家自然科学基金(60473125), 中国石油(CNPC)石油科技中青年创新基金(05E7013), 国家重大专项子课题(G5800-08-ZS-WX)
论文部分内容阅读
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。
其他文献
该文提出基于高斯加权距离以及聚类重构机制的K-NN文本聚类算法。文章提出K-NN近邻域的概念,通过高斯加权的近邻域算法实施K-NN聚类。利用高斯函数根据样本与聚类中心的距离
日本有家航空杂志记者采访我,要我回忆幼时“妈妈做的菜”。这令我有点伤感。妈妈离开我已经三年了。一千个日日夜夜,老人家的音容笑貌无时无刻不在眼前浮现。特别一日三餐,吃到
说到咖喱美食,或许还有不少人停留在妈妈做的咖喱鸡块的阶段,金津必能帮你补上这重要的一课。金津的咖喱原汁都采用上乘香料及咖喱粉烹N5d',时以上而成,再加上红、黄、绿、黑、白
“上海蟹艳”秉承两百余年的江南餐饮文化精髓,坚持走健康、时尚饮食路线,值此金秋,推出独创的蟹宴文化。门口以老姜组建的山峦,垂钓的老者,山顶的茅草屋以及小凉亭,妙趣横生。再与
上海为了“节省天光”,将所有的时钟都拨快了一小时。
在近来出现的面向实体的搜索服务中,准确地预测实体间的相关程度是至关重要的。该文提出了一种基于实体的事实知识,即利用"实体—属性—属性值"(SPO)记录进行实体相关度计算的方
如今,弄堂口隐约传来的叫卖声,早已经隐在了青苔遍布的石砖上,偶尔才能吃到的光明冰砖早已经隐在了知了喳喳的喧嚣里,冰冰凉凉的味道早已经隐在了柏油马路粘粘的沥青里,而那些孩子
一家已有7年多历史的老牌日本料理店,纯正地道的风昧以及实惠的价格,无疑是她一直门庭若市的原因。环境典雅,临窗是一排翠绿的竹,将炎炎烈19阻隔,隐约带来清新自然的竹林风。餐厅
《全球华语大词典》是《全球华语词典》的升级版,是一部反映世界主要华语区当代华语词汇面貌的大型语文辞书。主要收录全球华人使用的华语词语,包括中国大陆(内地)、
目前,生物医学文献的数量正在呈指数的方式快速增长,这些文献中隐含着大量有用的信息,挖掘这些文献可以形成医学假设。但传统的基于简单共现的方法会产生大量的目标词,导致很