【摘 要】
:
网络中文信息数量庞大,来源丰富,而且会不断的动态翻新,这使得人们很难及时从海量的网络信息中找到自己感兴趣的信息。本文将改进后的TF-IDF函数用于关键词提取,并对网络新闻
论文部分内容阅读
网络中文信息数量庞大,来源丰富,而且会不断的动态翻新,这使得人们很难及时从海量的网络信息中找到自己感兴趣的信息。本文将改进后的TF-IDF函数用于关键词提取,并对网络新闻进行聚类,使用户能够快速发现海量电子文本中的热点信息。本文通过综合考虑文档类别因子、位置权重因子、命名实体权重因子,对传统TF-IDF函数进行了改进,并设计了将改进后TF-IDF函数用于文本关键词提取的实现流程。相关的实验评估表明,引入类别、位置权重和命名实体后的TF-IDF函数与传统TF-IDF函数相比,关键词提取的准确率提高了约13.3%,召回率提高了约13.1%。利用上述改进对背景语料进行关键词提取,然后通过文本聚类技术实测了测试语料的热点话题发现,结果表明常规TF-IDF和改进TF-IDF函数进行话题发现的效果差异显著。实验结果表明,使用改进后TF-IDF函数进行特征提取时,话题发现的平均准确率及平均召回率均比使用单纯TF-IDF函数时提高了约10%左右,可读性大大提高。论文工作在热点话题追踪方面将会有广泛的应用。
其他文献
移民是当前社会文化研究的重要课题之一。全球化背景下的移民得益于经济的发展和科学的进步,并影响到社会、政治、文化等方方面面。本文以分析新移民作家严歌苓的海外小说作
<正>甲状腺功能减退症是由各种原因导致的低甲状腺激素血症或者甲状腺激素抵抗而引起的全身性低代谢综合征[1]。临床上常表现为多器官功能不全,其中甲状腺功能减退症导致的严
每个公司都需要资金,对于土地购置以及开发动辄就需要千万上亿资金的资本密集型的产业----房地产行业来说,融资问题更是首要问题。2007年美国次贷危机爆发后,银行对与房地产
在家庭关系中,婆媳关系一直是一个永久的话题。封建社会里,社会主流价值文化强有力地保障了婆婆的权益,造就了现实中婆婆的强势与媳妇的弱势。伴随着社会变迁,女性地位不断提
4-脯氨酸羟化酶(Prolyl 4-hydroxylases,P4Hs)是一类重要的依赖于亚铁离子和2-酮戊二酸的氧化酶(Ferrous iron and 2-oxoglutarate-dependent oxygenases),广泛存在于真核生物及
杜甫诗歌在唐诗中占有非常重要的地位。不仅具有极高的艺术成就,而且在内容上还保留了很多唐代社会文化的第一手资料,其中有大量的有关中医药文化的描述。本文以杜甫涉医涉药
基于振动分析的故障诊断方法是转子故障诊断中最常用且行之有效的方法。在由转子及转子支承部件组成的转子系统的故障诊断过程中,常常直接以转子本身为监测对象,传感器一般安
当代行政决策过程涉及多元利益权衡,影响到公众利益甚至公共利益,本质上是一种政治过程。传统行政法分析框架对行政决策行为合法性的分析技术,主要限于形式合法性分析,这已远
数据挖掘及服务的发展,以云计算为基础的数据挖掘结构在网络中是不必可少的,此框架能够有效解决互联网中数据挖掘遇到的全部问题,提高数据挖掘性能及效率。对云计算和挖掘服
超高层建筑设计的诞生和发展反映了现代建筑设计的水平和审美趋势,是现代科学和艺术完美融合的体现。但超高层建筑设计对环境、交通以及资源等方面带来的负面影响也是人们一