【摘 要】
:
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因
【机 构】
:
中国农业科学院农业信息研究所/农业农村部农业大数据重点实验室
【基金项目】
:
国家社会科学基金项目“科技论文全景式摘要知识图谱构建与应用研究”(编号:19BTQ61),中国农业科学院科技创新工程项目(编号:CAAS-ASTIP-2016-AII),中国工程科技知识中心建设项目(编号:CKCEST-2018-1-15)资助
论文部分内容阅读
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类
其他文献
近年来,由于受人类活动的影响,地表与地下产水的下垫面条件发生了变化,造成水资源量、可利用量等水资源情势发生了变化,为此采用统计分析方法对宁夏各水资源分区1956--2000年径流
目的:观察莫皮罗星软膏在烧伤急性感染小创面中的疗效。方法:回顾性分析2015年6月至2018年5月于我院治疗的23例足部烧伤小创面急性感染病例的临床资料,观察莫皮罗星软膏的治
我们2001年1月~2011年1月采用紫杉醇(泰素)联合顺铂、白细胞介素-2经静脉和腹腔双途径治疗58例晚期卵巢癌,临床疗效满意,现总结报告如下。
目的:探讨分析建设病友团队对改善乳腺癌患者生活质量的效果。方法 :对2014年8月—2015年2月间我院收治的50例乳腺癌患者的临床资料进行回顾性分析。按照随机数字表法将其分