互联网文本热点信息实体识别研究及应用

被引量 : 0次 | 上传用户:wj3852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(NE)任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在当今世界,随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息,于是信息抽取技术应运而生。而命名实体识别是信息抽取技术中的重要组成部分,同时它还能应用于自动问答、机器翻译以及信息检索等自然语言处理领域,有助于它们的性能的提高。但是,由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。本文针对中文名命名实体识别中的人名、地名、机构名以及电子产品类的产品命名实体识别进行了研究,通过实验进行了验证分析,并提出其相关的应用。具体来说,本文的研究内容主要有以下几个方面:(1)提出基于规则及概率统计的中文人名命名实体双层识别方法,该方法首先基于中文人名体系实体知识库、人名实体词法规则、人名实体前后向边界条件完成人名的初次识别,再结合人名实体前后向边界特征,使用人名可信度统计识别模型,完成人名实体的最终识别。(2)提出基于规则及web检索的地名、机构名实体识别方法,该方法首先基于地名实体知识库、机构名实体知识库以及地名实体词法规则、机构名实体词法规则发现地名、机构名实体的触发位置,再使用基于web检索的方法完成地名、机构名实体的识别,其中,使用基于百度百科检索的方法进行地名识别,使用基于百度链接的检索统计的方法进行机构名识别,并提出基于规则的机构名简称识别方法。(3)完成电子产品类命名实体识别:产品名称、产品属性、产品属性值、产品评论等实体的识别,对于产品名称提出基于领域种子词自学习的产品名称自动识别方法;对于产品属性提出基于关联概率统计的产品属性自动识别方法;对于产品属性参数提出基于产品属性与产品属性单位的关联规则的识别方法;对于产品评论提出基于产品种子属性的汉语语法模式匹配方法。
其他文献
小蜂螨是亚洲地区西方蜜蜂的主要寄生螨。人们采取的小蜂螨防治措施主要是使用化学药物或低效率的蜂群管理手段,目前尚没有一种安全、有效的方法。本文就近年来小蜂螨对蜂群
我国城市配电网主要由10kV和35kV配电线路组成,大多采用中性点非有效接地方式,也称为小电流接地系统。在整个城市配网系统故障中,单相接地故障发生率最高。配电线路分支较多,
随着我国高速公路的不断建设发展,车辆在高速公路上的行驶安全问题也逐渐受到重视,在弯道路段的行驶安全性更是被关注的重点。弯道路段因为线形复杂,车辆高速通过时容易出现
我已经90岁了,但“老骥伏枥,志在千里”,我要力争让我们的团队早日完成每公顷18吨的高产攻关,做好第三代杂交水稻技术的生产应用。我希望最终能实现“禾下乘凉”“覆盖全球”
布雷菲德菌素A是一种天然存在的大环内酯类抗生素,能有效抑制蛋白质由内质网向高尔基体的转运过程,是一种广泛应用于哺乳动物信号传导研究的分子工具;布雷菲德菌素A具有抗真
我国的基础教育改革一直在探索中不断前进,教育改革对教师的专业化发展提出的要求在不断丰富和完善。教师课程知识是进行教育研究的热点问题之一。教师的课程知识作为教师知识
中国国学中心工程位于北京市奥林匹克公园中心区,是国家级标志性大型公共文化设施,总建筑面积81362m~2,其造型新颖独特,曲面、弧线和异型结构较多。主楼全钢结构施工应用了多
ERP(企业资源计划)是企业加强信息化管理的较佳方案。从ERP的出现开始,不断发展了几十年,ERP能够合理的配置企业的资源,切实提高企业管理水平,能够为企业带来直接经济效益的
由于Q345R钢具有良好的机械加工和经济性能,在中低压力容器的制造中得到广泛使用。焊接是生产这类压力容器的主要工艺,并且焊接接头的质量对整个焊接工艺好坏的评定起着至关
医疗空间作为公共空间中极其重要的一个组成部分,它所担负的责任,既要满足病人在使用过程中生理上的舒适度,又要满足其心理上的特别需求,因此,在提升医疗环境和服务质量的同时,科技