基于主题推荐的辅助写作系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fever1879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际化程度的日益提高,英语学习变得越来越重要。在语言的学习过程中,写作常常扮演着重要的角色。写作者的写作水平可以凸显其掌握语言的熟练程度,要想写出高质量的文章,必须拥有大量的阅读经历及知识储备。然而,对大多数以非英语为母语的学生来说,由于英语阅读经历和知识储备的缺乏,写出高质量的英语文章绝非是一件容易的事。近年来采用各种不同技术的辅助写作系统层不出穷,为用户的写作提供了极大的帮助。然而,大多数系统都将重点放在词汇、短语、语句级别,对于内容级别的研究甚少,没有对写作的内容进行主题方面的提示和推荐,不能有效地解决用户缺乏写作素材或灵感的问题。本文通过分析现有辅助写作系统的优缺点,并结合对用户需求的调查,设计并实现了基于主题推荐的辅助写作系统。本文的研究内容主要有以下几个方面:第一,为了对文章的主题内容进行简单、直接、有效的分析,本文对文章主题词抽取进行了研究。首先,介绍了传统的主题词抽取方法,并且分析了它们的优缺点。其次,使用主题模型LDA结合现有方法,提出了基于LDA模型融合的主题词抽取方法。最后,通过实验进行对比,验证了主题模型LDA所挖掘出的词潜在主题信息可以在一定程度上改进主题词的抽取效果。使用上述方法抽取的主题词主要用于系统中相关文章的检索以及文章相关度的计算第二,为了计算句子之间的语义相似度,本文首先详细分析了多种句子相似度计算方法的优缺点。然后,通过借鉴词向量的表示方式来表示句子,研究并实现了基于词向量的句子相似度计算方法,实验结果表明词向量中蕴含了词的潜在主题、语法及语义等丰富的信息,从而使基于词向量的方法取得了较好的效果。在系统实现中,我们将上述关于句子相似度计算的研究应用于计算文章中句子与输入内容的相似度并对句子进行排序,从而为用户推荐相关内容。第三,本文实现了基于主题推荐的辅助写作系统,并对系统进行了性能评价和系统响应时间的测试。整个系统由词搭配模块、例句实时提示模块和相关内容推荐模块组成,可以在内容级别上为用户提供帮助,在一定程度上解决用户缺乏写作素材或灵感的难题。为了证明系统的实用性,以人工或者机器自动的方式分别对系统中各个模块的运行结果进行了评价。最后,对系统的响应时间进行了测试,测试结果表明系统满足实时性要求。
其他文献
自2008年底以来,国际金融危机的加剧,许多工程项目在资金链,客户流等多方面面临了各种各样的问题,夭折、中断、失败的项目越来越多。因此,对工程项目进行有效地管理与评价,已
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新的概念和方法。特别是近几年
信息技术的发展造成了大量数字信息资源的积累,OAI-PMH作为解决大量数字信息资源互操作和共享的一个简单、灵活的协议越来越受到了人们的关注。而目前大多已实现的服务提供者
信息技术的迅猛发展和Internet 技术的广泛应用,大量的分布、异构的信息源应运而生。这些信息源种类繁多、表示和存储形式各异,难以共享,给信息的消费带来很大的困难。为了有效
长流识别对流量工程、网络操作和网络管理都有着重要意义。大量的流测量的研究表明:在各种网络中,流的分布表现出明显的重尾特征,即大多数的流(短流)仅拥有少量的报文,而少数
现代网络的结构日趋复杂,规模快速增长,非法入侵也不断增多。传统的权限管理、防火墙等被动防御技术已力不从心。入侵检测系统作为一种主动的信息安全保障措施,有效地弥补了
随着移动数据业务的普及、手机性能的提高以及数字电视技术和网络的迅速发展, CMMB(China Mobile Multimedia Broadcasting,中国移动多媒体广播)手机电视日益受到人们的青睐
由于空间三角网划分技术的发展,加速了产品数字化的进程,它可以方便,准确,快速,高效的进行物体模型建模,所以广泛的应用于CAD, CAM,逆向工程,地球信息系统,3D动画,虚拟现实(R
生物序列比对是生物信息学的基础和核心,随着生命科学的迅猛发展,需要研究的蛋白质和核酸序列的信息显著增加。常见的双序列比对串行算法时间复杂度为O(N2),多序列比对时间复
随着信息技术的飞速发展,各种病毒、木马和黑客的攻击越来越频繁。文件系统作为存储系统的核心,其安全性至关重要。系统调用作为内核和用户间的功能接口,大部分对文件系统的