维吾尔语多词领域术语的自动抽取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zouxudong163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题,结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段:①语料预处理,包括停用词过滤和词性标注;②对字串取N元子串,利用改进的互信息算法和对数似然比率计算子串内部的联合强度,结合词性构成规则,构建候选维吾尔语多词领域术语集;③利用相对词频差值,得到尽可能多的维吾尔语多词领域术语;④结合C—value值获取最终领域术语并作后处理。实验结果准确率为85.08%,召回率为73.19%,验证了该文提
其他文献
采用RT-PCR方法自猪繁殖与呼吸综合征病毒基因组分离出核衣壳蛋白基因(orf 7),克隆到pMD18-T载体构建成重组质粒pMD18N并进行测序比较,结果表明,所克隆的核衣壳蛋白基因序列
丁型肝炎病毒(Hepatitis D virus,HDV)是一种缺陷负链RNA病毒,其表面被乙肝病毒抗原(HBsAg)所包裹,内为丁型肝炎抗原(HDAg)及其基因组RNA.HDV基因组中有多个开放读码框架(ORF
为研究汉滩病毒对肿瘤细胞的诱导凋亡作用,以一定量病毒悬液感染体外培养的SP2/0细胞,接种后定时间将细胞消化甩片行Gimsa染色观察凋亡细胞核的变化,制细胞悬液以流式细胞仪
信息化建设是高职院校发展的重要组成部分,为了解决高职院校信息系统购置成本较高、管理维护相对困难、资源共享性差和信息安全存在隐患等问题,提出了以云计算作为技术支撑的
随着夏天一天天的到来,芒果开始在我住的城市上市了。每当看到阳光下竹篮里等待贩卖的芒果,总会想起在菲律宾呆过的那些日子。怀念那里的热带风情,怀念那花花绿绿的铁皮公车,怀念
应用RT-PCR技术克隆了水稻瘤矮病毒(RGDV)中国广东信宜分离物(RGDV-C)的基因组S9片段,测定了全序列并进行了生物信息学分析.结果表明,RGDV-C S9片段全长共有1202bp(登录号AY5
肾综合征出血热 (Hemorrhagic Fever with Renal Syndrome,HFRS)是由布尼亚病毒科汉坦病毒属 (Hantavirus,HV)中的病毒引起的急性传染病,该病的病死率较高,早期诊断和治疗尤
本研究利用已知的颗粒体蛋白基因(granulin,gra)设计引物,通过PCR扩增得到ClanGV的gra基因.对PCR结果序列分析表明,ClanGV的gra基因开放阅读框(ORF)全长747bp,共编码248个aa,
我们很多人对于绍兴的印象,应该最早都来自于鲁迅、来自于孔已己、三味书屋,而对绍兴菜的最初印象,应该大多脱不了茴香豆和醇香的绍兴酒,而对其菜,似乎也是文化气息比味道更浓郁一
五角场筑有相交的四平路、邯郸路、淞沪路、翔殷路、黄兴路五条交通干道,故得名。改建后的五角场交通非常便利,中环线、轨道交通3号线、8号线、10号线(在建)以及数十条公交线路,可