论文部分内容阅读
在“十二五”期间,农业信息化已经明确成为我国社会发展和国民经济前进的重要任务。目前,信息技术在现代农业发展过程中的运用已经成为一种必然趋势,信息化服务成为许多发达国家农业科技推广与服务的主要方式之一。对于农业科技服务的主体—农民,如何在海量的信息中提取有价值或者农民感兴趣的信息成为农业信息化服务过程中文本信息研究处理的热点之一。湖南省农村信息综合服务平台引入信息推送技术,建立农业信息推送模块,该模块采用基于内容的推荐技术,通过建立农民兴趣模型和文档特征模型,对农民进行个性化的农业信息推送服务。在传统的推荐模块基础上,本平台考虑了用户不同的兴趣需求,以及整个模块的自适应修正问题,使本平台的推荐模块更满足农民的使用需要。同时,分析了传统的特征提取方法的不足,考虑特征项在不同表空间的分布情况以及HTML文档结构对计算特征项权重影响,并对传统算法进行了改进,并使用支撑词语义均衡化来减小方言对于特征词权重引起的偏斜问题。本文主要工作如下:(1)分析现有推荐技术的研究进展和各自的优缺点(2)提出湖南省农村信息服务平台下农业信息推送整体架构(3)在用户兴趣模型和文档特征模型中,分析现有特征提取方法TF-IDF和TF-IDF-IG,并得出其各自的不足。第一,TF-IDF算法只从特征项在文档和文档集合中的出现频率出发,没有考虑特征项在文档中的分布情况。另外,针对知识库中的文档数可能出现的在各产业类别中数据量极其不平衡问题,因此在进行特征项权重计算时应该设法消除这种数量级的差异。第二,TF-IDF-IG在一定程度上对TF-IDF的做了改进,但并不彻底,TF-IDF-IG只考虑了词语在整个文档集合中的分布情况,而没有考虑特征项在不同产业表空间的分布情况以及HTML文档结构对计算特征项权重影响。第三,由于本项目是基于农业数据的,农业数据与其他行业的数据相比,其有很强的地域性,因此还需要考虑方言对于特征项权重的影响,本文提出支撑词语义均衡化来解决这一问题。(4)从不同产业表空间的分布情况、HTML文档结构方面改进传统特征提取算法,并且通过分类器将用户兴趣进行分类,从而降低了用户兴趣模型与文档特征模型进行相似度计算时的计算量。(5)将改进的算法与TF-IDF、TF-IDF-IG算法在分类器上进行实验对比其Precision、Recall、F1值。首先,通过本项目组自主开发的农业spider程序在internet上爬取海量的农业信息作为测试数据。然后,随机选取用户数目N=25、50、100、200的4组用户作为模拟用户进行实验,并得出推送模型的Precision、Recall、F1值。实验说明改进算法是可行有效的,当用户呈倍数增长时,推送模型的Precision、Recall、F1值也在增长,说明本模型随着其计算量的增大,其精确度收敛,具有很好的扩展性。