【摘 要】
:
针对新闻内容复杂多样的特性和目前传统的新闻搜索对用户的需求结果不能完全把控的问题,本文的主要工作是研究常用的新闻文本挖掘算法和文本类搜索召回算法的效果和规律,通过分析用户在搜索行为中的搜索词语和新闻文本本身的特性,探索将用户的搜索词语和新闻的文本信息定义并且抽象化为特征的形式,将传统的新闻搜索转化为用户和新闻机器人的对话模式,为进一步提高对用户搜索结果的精准度和使用的满意度提供支撑。为了实现对话形
论文部分内容阅读
针对新闻内容复杂多样的特性和目前传统的新闻搜索对用户的需求结果不能完全把控的问题,本文的主要工作是研究常用的新闻文本挖掘算法和文本类搜索召回算法的效果和规律,通过分析用户在搜索行为中的搜索词语和新闻文本本身的特性,探索将用户的搜索词语和新闻的文本信息定义并且抽象化为特征的形式,将传统的新闻搜索转化为用户和新闻机器人的对话模式,为进一步提高对用户搜索结果的精准度和使用的满意度提供支撑。为了实现对话形式的智能新闻搜索,首先,选取合适的新闻数据源,编写网络爬虫爬取新闻,本文旨在为用户提供热点新闻,所以爬虫爬取的是网站每日热榜新闻。本文对比了四家主流新闻网站,最终选取新浪新闻网站为系统提供数据。然后,将谷歌提出的基于 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)与基于条件随机场和双向长短时记忆神经网络的命名实体识别方法结合作为命名实体识别模型的构建方法,并用BERT优化TextRank的特征抽取和向量化的过程,实现新闻主题和摘要的抽取。用户进行智能对话时,命名实体识别模型识别用户聊天内容,并返回识别出的实体所对应的新闻主题、摘要和原文链接信息,用户可以通过主题和摘要快速了解新闻内容,并且通过原文链接详细浏览新闻内容。本系统在模型训练的收敛性、准确率、召回率等方面均有明显的提升,尤其在捕捉句子中的重要信息上有较好的表现,智能新闻检索将用户的搜索词语特征与新闻的核心信息特征进行匹配,获取更能结合用户意向的更智能的新闻信息结果。为了实现一个完整的新闻平台系统,本文通过网页开发技术搭建了新闻系统和新闻管理系统,新闻系统实现了用户智能新闻聊天、浏览热点新闻、新闻搜索以及评论点赞等功能,新闻管理系统为管理员用户提供了用户管理、新闻管理、新闻审核、用户评论管理等功能。本文中的新闻平台系统实现了完整的新闻网站的运营和管理功能。
其他文献
用微米ZnO粉为原料,添加适量石墨助剂,采用高温热蒸发法合成ZnO纳米晶体材料,研究了不同温度对反应合成ZnO晶体形貌的影响,用XRD、SEM和EDS分析了产物的物相组成与显微形貌。
近些年,随着我国市场经济的蓬勃发展,市场经济进行了更加深入的改革,我国经济发展水平有了显著的提升。国民资金流动量大幅度增加,为民间借贷的兴盛提供了良好的大环境,但同
近年来,有机半导体材料因其可大面积打印制备有机柔性器件而受到人们的广泛关注。其中传输空穴的p型材料发展迅速,而传输电子的n型材料由于在空气中不稳定,合成相对困难,发展较为缓慢。萘酰亚胺因具有平面刚性结构,电子亲和能高和稳定性强等优点,而广泛应用于有机半导体材料中。其中,噻吩并萘酰亚胺是一类非常重要的n型半导体材料,噻吩的引入可以增加化合物的共振能,拓宽其吸收光谱;噻吩上的活性位点,可以进一步功能化
本文主要是在距离空间,Kaleva-Seikkala型模糊距离空间和类拟b-距离空间中研究几类关于Pata型和(?)iri(?)型不动点定理.具体完成以下四部分工作:1.在距离空间中建立了 (?)iri
网络管理做为网通畅起着重要的作用.本文通过针对众多通信子系统网管的现状而提出的综合网管的结构、功能的探讨,提出了综合网管的实现方式.
登闻鼓制度作为一项特殊的理冤制度在中国古代长期存在,该项制度的设立很大程度上体现了统治者体恤民情、注重民生的思想。早在《周礼》中就有关于“路鼓”的记载,可以说这是登闻鼓的起源,至西晋时期“路鼓”被改称为“登闻鼓”。登闻鼓制度形成的初期是兼具诉讼和言谏的双重功能的,之后随着言谏制度的发展完善,形成了独有的言谏渠道。因而,登闻鼓制度在言谏功能方面不断弱化,而诉讼功能不断加强,进而担起了“击鼓鸣冤”的诉
<正>2019年3月5日,十三届全国人大二次会议开幕,"支持中医药事业传承创新发展"被列入重点工作任务,这是连续第三年在政府工作报告中强调"支持"中医药事业。党的十八大以来,党
对18例癌性胸水患者的治疗,均选择中等量和大量胸水患者,先将胸水作胸腔闭式引流完全.在胸腔内注射白细胞介素Ⅱ120~200单位和爱迪注射液50~100ml,一般注射1~3次不等,结果18例患
透明导电氧化物(TCO)薄膜要求低电阻率和可见光区高透过率.目前最常用的是ITO薄膜存在着有毒、In成本高等难以克服的缺点.NTO薄膜是近年来新发现的一种具备广阔前景的TCO薄膜,
将二维编织结构简化为(0°/90°)s正交铺层结构。采用含损伤变量的剪滞分析理论,解得双向等轴拉伸载荷下,0°层和90°层开裂后各层的应力分布;基于随机基体裂