【摘 要】
:
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法.在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关鍵词提取算法.利用中文短语分词技术,识别文本中的长词
【机 构】
:
辽宁石油化工大学计算机与通信工程学院,辽宁省抚顺市望花区教师进修学校
【基金项目】
:
辽宁省教育科学'十三五'规划课题资助项目,辽宁石油化工大学教育教学改革研究项目
论文部分内容阅读
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法.在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关鍵词提取算法.利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关鍵词.实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升.
其他文献
在对宁夏平罗县发展生态农业的优势条件及限制因素分析的基础上,提出了该县生态农业的发展战略,并重点论述了发展生态农业的具体实施方略:进行生态农业基础工程建设,因地制宜
<正>膝骨性关节炎(osteoarthritis of the knee,KOA),作为临床常见的慢性关节病之一,严重影响了中老年患者的日常生活活动能力,给社会医疗和经济带来沉重负担。有资料显示,与
将模糊软集和双枝模糊集理论相结合,给出了双枝模糊软集定义,进一步给出了双枝模糊软子集,双枝模糊软集相等的定义,规定了双枝模糊软集的交集、并集与补集的运算方法,研究了
目的:依据第二次全国残疾人抽样调查的广东省调查数据,分析广东省成人智力残疾患者的主要致残原因,有针对性地提出预防和治疗建议。方法:在2006年随第二次全国残疾人抽样调查工作
优化了自动组卷的约束条件,并针对知识点的考核层次问题进行了算法改进。在初始化种群时使用知识点权重分级表,按知识点权重顺序来选取试题生成初始种群中的染色体,使种群从
借助于格的原子与分子的性质,研究了一些低阶格蕴涵代数的构造问题.证明了在同构的意义下,4阶格蕴涵代数和6阶格蕴涵代数分别只有2个.这些结果将有助于对相应的逻辑系统与模
简述了超声波测试岩体松动圈的方法,通过超声波反射率理论分析了探头耦合的作用机理,讨论了水耦合探头遇到仰孔、吸水膨胀孔、水渗漏严重孔等时存在的问题;对封口注水耦合法