【摘 要】
:
术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤.本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集
【机 构】
:
北京信息科技大学 中文信息处理研究中心, 北京 100101
论文部分内容阅读
术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤.本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性.整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算得到候选领域术语的权重.实验结果表明,该方法不仅简化了术语权重计算的实施步骤,同时在算法执行效率上也得到了提高.
其他文献
通过NS-2(SCTP)仿真实验及结果分析发现,IETF 在RFC4960 中所推荐的下一代互联网流控制传输传输协议SCTP 中同时多路传输机制CMT(在任何情况下均使用全部路径同时传输数据)存
草坪建好后,要根据草坪植物的生长习性,立地环境,生长状况及草坪的用途等进行科学的养护管理。使草坪正常生长,平整如茵,青翠茂盛、持久不衰,达到预期的绿化效果。如果放松了这项工
随着现代电网规模的不断扩大,现有的电力系统网络越来越无法满足现代化建设发展的需求,具备自愈、互动、兼容等优点的智能电网成为未来电网的发展趋势.同时,智能电网概念的提
论坛中“意见领袖”的自动发现对于我们掌握舆情,及时引导舆论有重要作用.为此本文设计了一个从论坛中自动发现意见领袖的算法.本文根据构成意见领袖的基本属性,设计了基于贝
为了实现移动云服务中云端能够为移动终端提供更好的服务,本文结合上下文感知计算,利用移动终端具有大量上下文的优势,将所有移动终端的上下文综合形成一种上下文综合态势,并
2020年9月,汽车市场进入传统旺季,产销双双超过250万辆,环比和同比均呈较快增长.前三个季度,汽车产销完成1695.7万辆和1711.6万辆,同比下降6.7%和6.9%,降幅与1-8月相比,分别收
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数
为解决目前缺乏厂站端智能电网计算机辅助管理服务系统平台问题,构建信息关联规约简单完整、利用率高以及体系结构集成统一的系统环境.提出了基于物联网服务系统的智能电网管
虚拟机管理器可以让多个虚拟机运行在同一台物理节点上,但是不能公平的为虚拟机分配网络I/O带宽资源.在基于虚拟化技术的HPC Cloud系统中,高性能计算应用运行在虚拟机之中.若
新冠疫情冲击全球汽车产业,不止于汽车产销量下降,在疫情下,整个汽车产业链被迫做出战略收缩调整,另一方面,疫情对于汽车消费升级、产业整合升级产生的推动效应亦不可忽视,行