上市公司舆情自动摘要生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xltmzzd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
及时获取并重视舆情动态,是保障上市公司股价稳定、信誉良好的重要举措。随着网上用户人数的增长,越来越多的网民通过浏览新闻、发表评论或者转发评论等方式来表达个人观点,负面或虚假造谣的言论会对上市公司的形象和信誉造成严重危害。但是,由于网络舆情文本数量的爆发式增长,使用人工方式进行舆情监管面临着信息筛选难度大、提取不准确等问题。本文针对上市公司舆情监控面临的问题,提出了解决舆情文档过滤和舆情自动摘要生成的一套方法。具体研究工作包括:(1)为解决舆情文本过滤的问题,提出了多层级的过滤方法来降低上市公司搜索相关产品或事件所需的成本,提高获取信息的效率和质量。通过多级过滤,再结合上市公司语料库,逐步剔除无关文档,提高召回率,其中包括的文本挖掘技术,包括核心词过滤技术、基于最小编辑距离的文本相似度计算、候选子集剪枝技术、关键词过滤技术等。基于具体案例的实验证明了多层过滤算法的有效性和高效性。(2)为解决舆情自动摘要的问题,设计了基于新闻标题相似度从正文抽取参考摘要的贪心算法,提高了正文摘要数据集质量。提出了基于BERT的抽取式和生成式自动摘要模型,以Text Rank为基准,在两个中文数据集和两个特殊处理的数据集上进行对比实验。结果表明,本文构建的抽取式模型相比基准算法召回率提高了7.7%,生成式模型精度比基准算法提高了10.1%,F值比基准算法提高了5%.(3)对本文提出的舆情文档过滤方法和自动摘要生成方法进行实证分析。基于实际的上市公司案例,使用提出的舆情过滤方法得到舆情文档,分别使用Text Rank和训练的自动摘要模型得到每个案例的摘要。结果再一次证明了本文模型的有效性。基于得到的摘要,给出了计算情感极性概率的方法,最后为上市公司提供了舆情监管建议。
其他文献
开放式创新作为众包开发与群体智慧的有效实践,打破了传统企业内部封闭创新的桎梏,使企业创新周期与研发质量得到极大提升。同时,用户通过切实参与到企业生产过程中进而形成了情感纽带,并期望自身贡献得到其他用户的关注与认可。为数不多有关开放式创新平台中创意生成方面的研究多聚焦于创意结果导向的质量评估与采纳,但却缺乏以创意生成过程为导向、考察用户行为动机的研究。据此,本文重点关注创意吸引力这一新概念,并针对其
学位
上市公司的财务舞弊问题时常发生,财务舞弊的行为,严重损害了相关投资人的利益,干扰了市场的正常秩序。大多数投资人无法对上市公司的财务报表进行有效的甄别,监管部门的资源精力有限,无法对所有公司进行细致的检查。因此研究财务舞弊的特征、构建有效的财务舞弊识别模型具有重要意义。本文首先回顾了国内外的研究文献,明晰了财务舞弊的相关概念,为研究的进行提供了理论依据和方向。本文以2007-2019年的中国上市公司
学位
随着大数据时代的发展和5G时代的来临,互联网已经颠覆了人类传统的生活社交方式,成为人们日常生活的重要部分,并体现在社交、金融交易等主要方面。各种新型的互联网社交平台大量出现,为公众提供了更多表达意见的机会,使他们能够更加自由地表达自己的情感和态度。因此,网上热门事件此起彼伏,网络舆情也不断出现。与此同时,我国的互联网金融领域发展也非常迅速。互联网金融将传统金融机构与网络公司紧密结合,利用平台和技术
学位
随着时代不断发展,我国正处于经济转型期。在2018年召开的国务院关于中小企业发展的工作会议中明确指出,中小企业贡献了约50%的税收收入,提供了80%左右的就业岗位。在2020年的政府工作报告中,99%的企业均是中小企业,贡献了约65%的GDP,是中国特色社会主义市场经济的重要组成部分。然而,大部分中小企业都面临着融资难、资金少、负担重等难题,严重阻碍了中小企业的健康发展。综合来看,金融机构之所以拒
学位
国际新形势下大国竞争加剧,科技人才自主培养成为决胜之本,因此,科学教育服务强国建设势在必行。作为教育强国破局的关键,需对科学教育服务强国建设的为何、是何与何为进行系统性论述。本文从马克思主义政治哲学的三重逻辑出发阐释科学教育服务强国建设的必要性,强国建设中的科学教育是顺承科学教育时代主题的历史逻辑,是践行大国崛起科技与人才大势的政治逻辑,是夯实教育强国建设道路之基的现实逻辑。从教育强国本体汲取科学
期刊
社会信息化进程的加快凸显了数据价值的同时使数据所面临的安全隐患也随之增加。为了加强对数据安全的保护,对敏感属性进行识别进而对敏感属性脱敏处理是十分重要且必要的。海量数据的出现使得数据之间蕴含的联系更为复杂多变,如何实现高维数据的敏感属性的识别和分级,已经成为迫切需要解决的的问题之一。目前相关研究还存在很少针对高维数据对象、分级标准固定以及研究领域没有涉及医疗健康领域的问题。针对以上三个问题,研究提
学位
在线评论是消费者重要的信息来源,随着移动互联网的迅速发展,越来越多的消费者将在线评论作为决策依据。在线评论通常会受到诸多因素的影响,并最终体现在评论评分、评论文本之中。根据S-O-R理论,外界刺激会影响人的行为。新冠疫情的爆发无疑是对社会公众的强烈外部刺激,这或许会对用户的在线评论行为产生一定的影响。因此,本文将对新冠疫情是否会对酒店在线评论评分和情感表达产生影响展开探索。本研究结合情绪社会分享理
学位
随着移动互联网的快速发展,点评类网站积累了海量数据资产,成为消费者辅助购买决策的利器;同时点评信息过载与大众消费升级间的矛盾日益凸显,催生了各式互联网美食榜单。榜单作为流量入口给商家带来了较高关注度,也给餐厅经营带来了压力和挑战。由于目前对餐饮业榜单效应的评价和测量研究尚存在不足,入选互联网美食榜单对餐厅电子口碑究竟产生了什么样的影响,这种影响如果存在是否会因餐厅属性不同而产生异质效应,其作用机制
学位
城乡健康不平等是中国长期存在的问题,其中城乡医疗资源分布不平衡问题表现尤为突出。随着在线医疗社区逐渐发展起来,一方面改变了传统医疗服务方式,打破了传统医疗资源时间和空间的局限,实现了医疗资源的迅速传递,有利于促进了医疗资源配置;另一方面,由于城乡居民在教育、收入水平和信息技术使用能力等方面的差异,在线医疗社区可能会加剧城乡居民医疗资源获取的差距。因此本研究试图探讨医生使用在线医疗社区对城市和农村医
学位
随着计算机网络以及移动通信技术的发展,网络舆情通过社交网络等多种形式对社会舆情产生影响,网络舆情相关研究也日益受到政府以及学界的关注。我国作为新兴的数码产品制造业大国,近年来不断涌现出行业中新兴的佼佼者,但由于部分企业对于品控问题没有给予足够的重视,导致相关舆情事件频发。数码产品品控舆情事件广泛传播,容易在消费者群体中形成热点话题,影响产品的未来销量。数码产品品控舆情的网络文本数据可用于进行文本分
学位