基于条件随机域的中文长地名结构标注

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:ryu_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文长地名结构标注是将自然文本形式的长地名按语义不同分割成不同部分并添加标签。在信息检索、自动问答及信息抽取等领域有着重要的应用。中文地名存在格式和结构不规则的问题,在实际应用中,给数据存储的粒度以及查询的准确率带来严重影响。已有研究使用最小风险化的方法对地名进行标准化,由于主要面向英文地名缩写和误拼的问题,没有充分考虑中文地名的特点。本文以应急领域的长地名数据为研究对象,通过对长地名的结构进行标注进而规范其格式。在标注前首先采用启发式方法对长地名的分词结果进行改进,然后利用条件随机域模型对长地名的结构进行标注,从而给长地名的不同部分添加上表明各自语义的标签。实验表明,经过分词改进和基于条件随机域模型的长地名结构标注的性能有显著提高。
其他文献
财务管理是经济主体运行管理的核心,因为其掌握着企业的经济命脉.随着时代发展,财务管理也必须要随之改变,否则就会成为企业发展的制约.本论文讨论了大数据时代对电力企业财
随着供电企业的崛起,电力营销业绩也是逐日攀升,但附带产生的增值税问题也成为国内的焦点话题.就当前电力企业快速拓展的过程汇总,电力企业在国内有关税收规定的框架下,科学
Web 访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话中的主题(topic)是指会话中具有相同用户意图的部分。将session 进一步划分成能体现用户
会议
本文提出了一种基于文法的无监督方法,挖掘中文里的能愿词,这些能愿词可以成为识别人们意图和愿望的重要特征。例如“能够”,“必须”,“宁愿”等等。另外,本文还介绍了在大规模中
宏观少数城市房价上涨仍过快最近,建设部等十部委对11个省(区、市)落实房地产调控政策情况进行了检查。10月17日,国务院专门召开会议,听取房地产市场调控措施落实情况检查的
人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类
作为国家审计的基础,内部审计是审计监督体系中的重要组成部分.与民营企业、外资企业性质不同,国有企业归属于国家.在新时期国企改革大背景下,本文聚焦国有企业内部审计工作,
伴随社会不断发展,科学技术不断创新,数字化信息技术、网络信息技术以及计算机技术等在大数据时代下有着跨越式的进步,信息化数据被逐渐应用到各个领域,使工作效率得以有效提
一个好的搜索引擎返回的命中结果应该有一个好的排序。网页本身的重要性是搜索引擎结果排序的一个重要依据,PageRank算法是通过分析网页之间的链接结构来得到网页的重要性。然
自然语言有丰富的表达方式,语义蕴涵识别任务RTE(RecognizingTextualEntailment)判断两个文本片断T(Text)和H(Hypothesis)之间是否具有蕴涵关系。本文使用了基于词汇和句法关系的方
会议