论文部分内容阅读
随着BBS,聊天室,即时通讯软件,手机短信等这些短文本在Internet信息流中日益突出的地位,人们迫切需要一些自动化工具帮助进行短文本海量信息处理。短文本命名实体识别是短文本处理中必不可少的关键技术,具有重要的研究意义。迄今为止,据我们所知,尚无人进行该方面的研究,所以,它也是一项急需解决的紧迫任务。
短文本命名实体识别主要存在下述两个问题:
首先,现有的命名实体识别方法不适合短文本命名实体识别。如何依据已有的命名实体识别方法,结合短文本自身的特性,探寻出适用于短文本的命名实体识别方法成为急需解决的重要问题。
其次,短文本组织名的识别效率低下问题。如何提高短文本组织名识别成为短文本命名实体识别的一个重要问题。
针对第一个问题,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值,通过Viterbi算法进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。实验表明,该方法能较好的进行短文本命名实体识别。
针对第二个问题,提出了一种利用实体关系识别短文本组织名的方法。该方法主要分成三步:第一步,改进朴素贝叶斯分类器为关系分类器,对文本标注关系类别标签。第二步,标签不为0:根据实体关系类别和文本中存在的人名,地名情况,判定文本中是否存在组织名,若存在则根据组织名后缀特征库定位出。第三步,标签为0:提取0类文本中组织名待选词,放入百度重构语料,再次利用朴素贝叶斯关系分类器标注重构语料中实体关系,最后通过重构语料中组织名待选词被判定为组织名的概率判断当前待选词是否为组织名。经过实验表明,该方法能有效提高短文本组织名实体的识别。