论文部分内容阅读
随着通信网络的发展,手机短信、网络聊天以及新兴的信息形式微博等短文本发生了爆炸式的增长,使得它们在网络信息流中占有越来越重要的地位。为了应对如此海量的短文本信息处理任务,开发自动化的处理工具就显得尤为必要。而在短文本处理中,命名实体识别又是关键的一环,具有重要的研究意义。
组织名作为一种复杂的命名实体类型,它具有长度不稳定、结构无序的特点,还常常与人名地名出现组合嵌套的情况,所以它的识别效果很差。短文本作为一种长度短、包含信息量少的文本类型,其中的组织名常常简写略写,使得短文本中组织名的识别更加困难。为了解决这个问题,我们考虑加入额外信息来辅助组织名的识别,而文本中所包含的实体与实体之间的关系正是一种可以利用的资源。
在这个思路下,我们分两步来实现这种方法:第一步,在利用隐马尔科夫模型进行初步命名实体识别的同时,使用朴素贝叶斯分类器作为关系分类器对文本进行关系分类(定义三类关系:人名与组织名之间的雇佣关系、地名与组织名之间的所属关系和其他关系);第二步,再利用规则库找到候选的组织名,如果文本中属于前两种实体关系且文本中同时存在候选组织名和相应的其他命名实体,则判定该候选组织名为确定的组织名。对于被识别为其他关系且同时存在候选组织名的文本,我们将该候选组织名作为查询词放入搜索引擎构造新的人名或地名与组织名同时存在的文本集再使用以上的方法依据概率来确定候选组织名的类型。实验结果表明,这种方法能够有效的提升短文本中组织名的识别效果。
文本中所包含的实体关系种类多样,且表现形式不一,仅仅依据需求粗糙的定义往往会引入噪音,最终影响识别效果。为了避免粗糙定义关系类型,我们希望能够找到一种方法既能够避免具体定义关系,又能够利用关系类型来辅助组织名的识别的方法。文本中实体所处的上下文环境作为实体关系的载体可以很好的体现实体关系,而具有相同关系的实体对的上下文是相似的,这样我们就可以通过上下文相似度的比较来确定文本中的实体对是否属于同一类型。我们利用维基百科这样有序和开放的数据库构建确定的实体对库作为上下文相似度比较的对象,如果相似度大于一定阈值就可确定文本所包含的实体对的类型进而识别候选组织名。对于候选组织名独立存在的情况我们通过搜索引擎来构建新的存在候选实体对的文本集,再用上下文相似度比较的方法进行识别。最终实验结果表明这种方法与定义关系分类的方法基本持平,取得了较好的效果。