中文财经文本中公司名简称的自动识别

来源 :四川大学学报:自然科学版 | 被引量 : 0次 | 上传用户:heqigao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是当前自然语言处理的热点问题之一,对信息检索、信息抽取等具有重要意义.然而,目前多数研究都集中在对命名实体全称的识别上.本文以财经为领域背景,对从文本中识别简称,并将其映射成全称问题进行了研究,提出了一个启发式算法用于解决该问题.所提出的算法首先提取文本中每个N元组(N-gram)作为候选的公司名简称,然后建立n元组与全称表中每个全称的最优对齐关系,最后对每对“N元组一全称”对齐关系进行评价和筛选,识别出文本中的简称及每个简称对应的全称.在随机获取的网页文本集上对所提出的算法进行了实验测试,算
其他文献
本文利用G’/G方法来求解长短波相互作用方程,得到了该方程的大量精确解、包括孤波解、三角函数周期解和有理解.这些解对于理解长短波相互作用方程的控制系数导致的混沌行为有重
幕墙清洁机器人的运动系统是制约其发展的瓶颈之一,本文提出一种新颖的基于“双线定位”机制的运动系统,对其力学结构的稳定性、悬挂绳拉力负载进行了分析,提出了两种跟踪清洁路
本文应用RT—PCR和RACE方法扩增出三角褐指藻二酰基甘油转移酶(Ptdgat)全长cDNA,其完整编码框(ORF)为1587bp,编码528个氨基酸.基于克隆所得Ptdgat的ORF构建了反向互补RNA干扰载体,并
根据已有的水稻基因组注释,对水稻中已知的437个pre—miRNAs的基因组背景加以分析,有98个(--22%)与蛋白编码基因相重叠,其中69个(~16%)位于蛋白编码基因的内含子区域,即intronicmicroRNA
本研究以长白猪为材料,克隆了STAT4和STAT6基因的cDNA全长,其中STAT4基因cDNA全长2269bp,编码748个氨基酸的前体蛋白,与人、牛、大鼠、小鼠等哺乳动物STAT4氨基酸序列一致性分别
隐蔽通信是继加密技术之后一门新兴的信息传输安全技术.随着互联网的飞速发展,基于网络协议和流媒体的隐蔽通信技术蓬勃发展.论文提出了一种采用HOOK技术、基于目前流行的互联
环簇和轨形在数学和物理中具有广泛的联系.单纯环簇实际上就是一类具有良好结构的轨形.作者通过推广扇集和环簇之间的对应,定义了加权扇集和加权环簇,并给出了它们之间的对应.然后
本文以长白猪(Landrace)大脑cDNA为模板,克隆得到长白猪细胞因子抑制因子SOCS-3基因,并首次克隆得到长白猪SOCS-1和SOCS-4基因.此外,还利用长白猪基因组DNA为模板克隆得到SOCS-3假
作者讨论了量化plausibility测度在默认推理逻辑系统(P系统)中的推理能力,给出了一般量化plausibility测度与possibility测度具有相同推理能力的条件.
作者引入并研究了一类新的完全广义随机集值非线性隐拟变分不等式问题,构造了一些逼近问题解的新的随机迭代算法.在一定条件下,作者证明了这类问题随机解的存在性以及由随机算法