基于Hadoop的领域术语抽取研究

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:fjtv55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈.对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该算法首先利用PMI(Point-wise Mutual Information)的改进方法确定2元待扩展种子,其次采用左右扩展的方式逐字地把2元待扩展种子扩展至2-n元候选术语(n表示抽取术语的最大长度,可根据需要指定),最后利用两个基本规则过滤候选术语集合.实验结果表明当PMI改进方法的参数取值大于等于3时可解决PMI方法的缺点、基于大规模语料库进行专业术语抽取的必要性和基于并行算法的高效性.
其他文献
现在上网的人多了,“猫”的牌子也多了。什么白猫、黑猫、外国猫,中国猫什么样的都有。不过,只要能抓到老鼠就是好猫。说到哪里去了,我们要的是上网用的“猫”,即Modem。只
多数肾小球肾炎是免疫介导性炎症疾病.一般认为,免疫机制是肾小球病的始发机制,在此基础上炎症介质(如补体、白细胞介素、活性氧等)参与下,最终导致肾小球损伤和产生临床症状
会议
肾藏精是中医藏象理论的重要组成部分,长期有效指导着临床应用.本文从免疫功能、神经内分泌、干细胞等现代医学生物知识诠释了肾藏精的科学内涵.“肾主骨、生髓”,先天之精与
会议
结合多年工作的实践经验,对目前冷再生沥青路面结构设计的若干问题进行了分析,并提出了一些见解,谨供大家作参考之用。 Combining the practical experience of many years
为了在进行数据质量控制时,考虑数据的具体特征以提高数据质量,分析了当前基于贝叶斯网络进行数据质量控制的模型、改进模型及其效果.针对字段之间存在"隐马尔可夫"关系的数
会议
慢性肾脏病(CKD)是一种进展性疾病,最终可能发展为尿毒症,需要依靠透析或肾移植等替代治疗方式维持生命,给社会和家庭造成巨大负担.尿毒症前期是CKD防治的一个关键阶段,是延
会议
当前英语在全球的普及率以及应用率使得青少年必须重视英语的学习,尤其是小学阶段是学习语言的重要阶段,学生对于英语的兴趣很大一部分是在此阶段激发的,因此作为小学英语教
2012年KDIGO发布的"肾小球肾炎临床实践指南"中将激素抵抗型肾病综合征(SRNS)定义为:儿童经单纯激素[2mg/(kg·d)]治疗8周、成人经单纯激素治疗[1mg/(kg·d)]16周后仍不能缓
会议
随着当前社会"亚健康"人群的增加,症状自查服务显得愈发重要.各地基于居民健康档案的区域卫生信息平台的建立,为症状自查服务实现提供了数据基础,但是我们仍面临着海量电子病
会议
社会网络中影响力传播的有效抑制是社会网络影响力传播机制研究所关注的问题之一.针对未知影响传播源,或传播源信息具有不确定性的情况,提出面向不确定性影响源的影响力传播
会议