基于《现代汉语词典》语义空间的中文文本语义相似度研究

来源 :情报探索 | 被引量 : 0次 | 上传用户:fairytalezoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]针对现有基于向量空间模型(VSM)的中文文本语义相似度计算方法存在空间维度高、数据表示高稀疏性等问题,提出基于《现代汉语词典》汉语语义向量空间构建以及中文文本语义相似度计算方法。[方法/过程]利用分词系统ICTCLAS对《现代汉语词典》中词汇解释条目的文本进行分词、词性标注,依据基底词汇选取原则,经过过滤、解释、替换等操作后,选择出能解释所有中文词汇意义的基底词汇集合,并以此建立汉语语义空间。词汇间的相似度可通过计算词汇向量间的夹角余弦值来获得;中文文本的相似度则可以通过计算中文文本特征语义
其他文献
采用微卫星DNA技术对中国对虾人工选育快速生长基础群体和4个连续世代共计100个个体进行了遗传分析.对8个基因位点进行了扩增,共得到71个等位基因.每个位点的等位基因数从6到
毒性弥漫性甲状腺肿(Graves’disease,GD)是甲亢的常见类型之一,是甲状腺激素分泌增多导致的一种自身免疫性甲状腺病,发生在各个年龄段,主要表现为甲状腺功能亢进及眼病,具有发病缓
目的探讨血清miR.128和miR-720相对表达量对脑胶质瘤的诊断价值。方法采用TaqManMicroRNAAssaysReal-timePCR技术检测62名健康对照者、54例低级别脑胶质瘤患者和57例高级别脑
目的采用荟萃分析评价血浆(1,3)-β-D-葡聚糖检测对侵袭性真菌感染的诊断价值。方法采用STATA11软件分析纳入研究项目血浆(1,3)-β-D-葡聚糖浓度诊断侵袭性真菌感染总的灵敏度、特
中国对虾素是从中国对虾血细胞中克隆得到的一种抗菌肽.为了进一步研究中国对虾素(CHP)的功能并为制备特异性抗体作准备,采用大肠杆菌表达外源蛋白的方法,进行了对虾素原核表
采用营养限制胁迫处理的方法,研究龙须菜对NH4-N的超补偿吸收现象.龙须菜在低营养限制胁迫(饥饿)下培养10天后,恢复营养盐培养3天,测定其对NH4-N吸收速率.N吸收实验结果表明,
浙江省杭州市天长小学,创办于1927年,坐落于西子湖畔,如今,在著名语文特级教师楼朝辉、施民贵的引领下,蒋军品、庞科军、王林慧、史剑波等一大批省市教坛新秀、教改之星迅速成长起
可悲可叹可鄙可憎──评曹桂林所作所为董佐读了《北京人在纽约)的幕后悲剧》,感慨殊深,心情难以平静。那个面对资本主义繁华世界心向往之的曹桂林曾说过“30岁以前出不了国就自杀
要加强和改善新时期的高校德育工作,必须充实德育内容,探索新的德育方法,努力培养学生的创新精神和实践能力,强化全员德育意识,齐抓共管,集思广益,形成"育人"合力;只有这样,
采用ISSR标记对龙须菜一个野生型群体和选育品系两个不同年代的栽培群体,进行了亲缘关系分析,构建了龙须菜选育品系的指纹图谱.通过实验从22个ISSR引物中筛选出16条引物,可以