论文部分内容阅读
自web技术出现后不久,互联网就一直是我们活动的中心,从未失宠过。我们在web上以文字、图片、音频、视频等各种形式传递信息,积淀出数量无法想象的数据,其中又以文本数据占绝大多数。如此庞大的文本中隐藏着人物、机构等实体的海量信息,从这些文本中挖掘出有价值的情报是件不容易的事。其中遇到的一个严重问题便是实体歧义性问题,它一般由自然语言表达中的一词多义造成,指的是对于出现在诸多文本中的某个实体指称,如人名“赵薇”,计算机无法直接知道这个词指的哪个人物实体的现象。实体消歧正是为解决实体歧义问题而发展起来的技术。实体消歧技术可被应用于翻译系统、自动问答系统、阅读辅助系统、语义搜索系统、知识库构建过程等等,它在自然语言处理技术体系中扮演者相当重要的角色。实体消歧方法根据是否依赖于预定义的知识库大致分为两类。现有不少方法是基于预定义知识库的,但搜依赖的知识库并不是绝对完备的,有时我们需要在web文本中挖掘某个目标的信息,而这个目标不在预定义的知识库中时,依赖于预定义知识库的方法就显得有些乏力了。本文提出并实现了一种不依赖于预定义知识库的实体消歧方法,它根据实体基因的匹配度进行聚类消歧,主要应用在互联网文本中人物、机构两种类型实体的消歧上。实体基因是本文提出的表示实体信息的一种方式,由实体词基因和实体属性基因构成。实体词基因表征了与目标实体存在某种关联的实体及其关联程度(权重),实体属性即是目标的属性,诸如“生日”、“配偶”等。对于基因的匹配也分为实体词基因匹配和实体属性匹配,前者主要利用词相对于实体的TF-IDF来计算匹配度,后者通过相同属性的加权和得出匹配度。最后将两个匹配模型进行线性组合计算出最终匹配度,若该值达到一定阈值,则认为二者共指一个实体。这是一种无监督算法,在海量文档处理上有着良好的表现,因此适合用作在线实体聚类消歧算法。本文提出的方法能够应用于海量文本中的目标分析、知识库构建等方面。