一种领域合成词的抽取方法

来源 :太赫兹科学与电子信息学报 | 被引量 : 0次 | 上传用户:biiq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
构建领域本体的首要任务是获取领域相关的概念,这些概念很多是由常用词典库中没有收录的领域合成词组成,因此抽取领域合成词对于领域本体的构建至关重要.本文基于语言规则和统计技术,提出一种结合改进互信息和语言模板的领域合成词抽取方法.首先利用改进的互信息算法抽取由多字词单位构成的高频次候选领域合成词,在此基础上,利用语言模板匹配抽取低频次候选领域合成词,最后由专家进行检验,得到领域合成词集.实验结果表明,该算法的领域合成词提取准确率达到88.22%,适用于从大规模网页文本中自动高效地抽取领域合成词.
其他文献
目的了解辽阳市学生饮用桶装纯净水的卫生状况,为提出监管措施提供依据。方法依据相关检测和评价的国家标准,该市白塔区疾病预防控制中心于2006年,对学校桶装饮用水卫生指标进行
射频识别(RFID)系统通信环境由简单近距离的室内通信向复杂远距离的都市通信发展,在读写器和电子标签之间出现了由多径效应引起的带多普勒频移的瑞利衰落。针对B类标签信号在多径瑞利衰落信道中的传输进行系统建模与分析,并将正交频分复用(OFDM)系统引入以提高RFID信号对信噪比的敏感度。仿真结果表明,标签信号在多径瑞利衰落信道中对信噪比变化不敏感,引入OFDM后信号对信噪比的敏感度明显提高,RFID系
目的探讨孕产妇产后出血的发病情况,寻找有效的抢救及护理措施。方法对180例产后出血的病人进行回顾性分析,比较产后出血与分娩方式、胎次的关系,作好产前预防和产后护理工作。