基于TF-IDF算法的唐代著名诗僧残缺诗句的填充方法研究

来源 :现代计算机 | 被引量 : 0次 | 上传用户:yuriany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于历史流传过程中一些不可抗因素,唐代著名诗僧部分诗句出现残缺。通过引入自然语言处理的相关技术进行填充。首先对唐代诗僧皎然、齐己、贯休的完整诗句采用中文分词系统进行分词,获得词典并利用TF-IDF方法构造特征向量;其次,采用KNN分类算法,利用向量空间模型的余弦相似度作为度量标准,选取词库中相似度最高的词语对部分残缺诗句进行填充。最后,为了验证该算法的可行性,分别进行两组对比实验。实验结果表明,所提出的方法对填充词语提供客观的衡量标准,具有较强的可行性,对文学研究具有一定的参考价值。
其他文献
十一届全国人大一次会议,是在全面贯彻党的十七大战略部署。继续推进中国特色社会主义事业进程的关键时刻召开的一次重要会议。会议认真总结了过去五年所取得的显著成绩和积累
采用生物化学方法和透射电镜技术研究人T感染白斑综合征病毒(WSSV)及注射免疫多糖对中华绒螯蟹(Eriocheir sinensis)肝胰腺超氧化物歧化酶(SOD)、过氧化物酶(POD)、酸性磷酸酶(ACP)、碱
期刊
1.文章署名中的“潜规则”。不知从何时起,有的同志写学术论文或著书往往喜欢署上领导的名字,尽管领导没有动一个字,没有出一个思想,都要给领导特别是对自己有用的领导挂上名;还有
有不少政工干部感叹,现在的思想政治工作难做,教育难搞。笔者在军医大学工作多年。对医生如何给病人看病、病看好,且让病人满意,有着较深的体会,感到把好脉、开好方、尝好药、查好
以模式植物拟南芥为研究材料,根据植物叶片中叶绿素a和b对可见光的吸收曲线,选取主波长为445nm和638nm单色红蓝LED光源为培养条件,观察了拟南芥在荧光灯或LED灯下的生长特性.结果显示:当光量子通量密度在64μmol·m-2·s-1附近时,荧光灯和LED灯下的叶绿素a+b平均含量分别为1.45mg·g-1和1.52mg·g-1,且叶绿素a、b的含量随红蓝光比例的升高有降低趋势;LED光照下的
“保增长、渡难关、上水平”活动开展以来,河北区人人常委会认真落实市委及区委的部署,充分发挥人大职能作用,深入基层和企业,了解、搜集企业发展中存在的困难和呼声,实施有针对性
金秋十月,秋风送爽。在这收获的季节,《天津人大》通讯员工作培训会在古城蓟县渔阳宾馆召开。
期刊
根据市委的统一部署安排.在市人大常委会党组的领导下,市人大常委会机关利用五个月时间,广泛深人地开展了“解放思想、干事创业、科学发展”大讨论活动。这次大讨论活动,以邓小平