利用词的分布式表示改进作文跑题检测

来源 :中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标 | 被引量 : 0次 | 上传用户:lmjgood520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。本文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。本文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明本文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
其他文献
当今国际社会正处于高速发展时期,工业发展正式进入“4.0”时代。随着经济全球化和国际合作的日益加强,能源短缺和能源结构单一的问题日益突出。发展和利用可再生能源,可以有效的缓解石化能源枯竭和过度依赖石化能源的社会现状。在可再生能源中,生物质能源具有存储量大和来源广泛等特点。长链生物烷烃临氢异构脱蜡工艺提升的关键在于催化剂的设计与开发。MCM-41是孔径在1.5-10nm之间的M41S族典型代表,它具
  该文通过建立生物医学领域文献的语料库对其中所含模糊限制语的辖域标注规则进行了分析研究。模糊限制语辖域的不同主要是由于其词性的不同从而引起的句法成分的不同所导
  本文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进
会议
  社区划分一直是复杂网络研究中的一个热门话题,社区的快速准确划分为研究复杂网络的性质提供了良好的基础。传统的社区发现方法都是在全局复杂网络的基础上进行社区划分,随
会议
  汉英篇章平行语料库有助于基于篇章的双语研究,该文构建了汉英平行语料库,对语料中的汉语及其英语对译中的连接词分别进行了标注和关系分类.其中英文连接词比单语语料上的
背景:TRIM蛋白家族作为含RING结构域的E3泛素连接酶,含有典型的RBCC模序即一个RNG结构域,一个或两个B-box,和一个coiled-coil结构域。在人和鼠基因组中大概有70个基因。TRIM蛋白
2-甲基-3-呋喃硫醇在肉味香料中具有重要地位,目前发现的在肉香味中起关键作用的香味化合物仍是2-甲基-3-呋喃硫醇及其衍生物。本论文研究了具有2-甲基-3-呋喃巯基特征分子骨
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
目的:目前,糖尿病性肾病是导致终末期肾病的主要原因之一。在糖尿病性肾病发病早期,伴随肾小球高滤过率,早期超滤症状的出现将引发蛋白尿的增加,进而发展为临床上的肾病。而肾小球
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊