基于信息提取技术对文本命名实体识别和主题提取的工程构建

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:pjkxqx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文根据目前新闻检索领域遇到的问题,针对性的提出解决方案。在新闻搜索和推荐过程中,作者发现,人们往往关注于新闻中出现的人物、新闻发生的地点、以及新闻中出现的组织。如果新闻系统获取到了新闻中的人物、地点和组织,那通过这样的方法就可以来向最近关注过本新闻中出现的人物、地点和组织的读者推荐当前新闻。在新闻搜索过程中,如果用户直接搜索新闻中出现的关键词,如人、地、组织等,系统就可以及时作出响应,降低了检索花费的时间。本文主要内容分为两个部分。第一部分作为新闻本文语料信息抽取的模型的研究,制定了新闻本文语料需要抽取的三个主要部分为新闻的实体、主题和摘要的方案。首先,本文分析了传统的命名实体识别模型存在的问题,提出了基于BI-LSTM和CRF组合的算法结构的解决方案,并对命名实体识别模型的个性化识别进行定制化的训练,经验证该方法可以有效的提取出个性化需要的实体。其次,本文分析了以LDA为例的主题抽取方法的原理以及存在的问题,提出了循环神经网络结构训练词向量的方法解决不同语境下词语存在相似含义的解决方案,并且根据解决方案进行了相关的实验验证。最后,本文提出了一种训练循环神经网络词向量和排序结合的方法,大大缩减了排序算法本身计算词之间相似度计算速度的解决方案,并且验证在损失很少的精度下,新闻摘要的抽取速度显著提升。第二部分作为新闻内容分析系统的设计与实现,本文完成了对系统的定义、总体设计、详细设计和测试验证,将新闻的实体、主题和摘要抽取的模型应用到了新闻内容分析业务的系统中。最后作者将提出的对新闻的实体、主题和摘要提取的新模型方案应用于智能聊天助手的新闻业务系统,该系统可以为大规模数据量的新闻业务提供快速且稳定的对外数据输出服务。
其他文献
供给侧结构性改革主要是新供给经济学为中国经济持续增长而开出的药方,用此药方诊治地方普通高校发展中结构性矛盾,就要清醒认知两者的关联与不同。结合地方本科高校及其他主
本文首先导出非线性回归模型中,当权函数具有较一般形式时异方差性检验的Score检验统计量,然后讨论了线性模型中自变量或因变量的扰动对Score检验统计量的影响,最后给出了两个应用实例。
近年来频发的热点舆情事件中,网络舆论的非理性倾向愈加突显。后真相的冲击使我国的网络传播环境更加复杂、无序,以情感为主导的传播特点使情绪影响甚至歪曲了事实,谣言、偏见屡见不鲜,强烈的情感倾向在网络传播过程中被不断放大,情绪化的公众容易走向偏激,甚至直接裹挟舆论引发负面思潮和社会焦虑乃至诉诸网络暴力,对社会公共秩序造成了直接的冲击。当前网络非理性舆论的强势与网络传播环境的变化密切相关,有必要将其放在后
微课程为在线学习和移动学习提供了一个完整的教学模式。通过对学习者特点和课程特点的分析,确定微课程的目标和内容,以主题为主线,以知识点为核心,从微教学活动设计(微教案设计、
随着我国建筑科学技术水平的不断提高,多高层建筑正日渐成为城市建设的主体,并且这些多高层建筑物多采用混凝土结构,这就使得混凝土建筑在现代工程施工中占有很重要的地位,因
近年来,日益增长的能源危机和环境问题,引起了人们对燃料电池等新型能源的转换和存储技术的广泛研究。三维多孔铂(Pt)基纳米材料由于其密度低,比表面积大,稳定性好以及电子传
肠炎沙门菌是重要的食源性人兽共患病原菌,该菌主要感染禽类,并通过污染的禽制品感染人类,引起人的胃肠炎。为开发用于养禽业防控该病的疫苗,以肠炎沙门菌感染鸡模型中体内表
随着互联网技术的飞速发展,人类社会已经进入到web2.0的网络时代。互联网用户一方面会在网上浏览内容,另一方面会在网上发表自己的观点,于是出现了更多的用户生成内容(User G
图的可视化是可视化技术的一个子领域,也是其中的热点研究方向。将实体关系转化为图后,再使用图的可视化技术进行表达,可以使人们更加深入地理解实体之间的联系。随着大数据
我国的城市扩张正处于快速发展阶段。在这一阶段,城市经济快速增长,城市用地不断向外扩张挤占佛教建筑用地的现象愈加突出,不仅如此,城市中的传统佛教建筑及其景观均遭受不同