基于短语的中文标签自动生成混合算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:zxqzxm88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对中文文档标签生成的算法进行了研究,提出了一种中文文档标签生成的混合算法(Hybrid Tags Generation Algorithm)。鉴于短语在表达文档主题方面的优势,先进行短语模式匹配,然后利用短语的统计特性,综合考虑TF-IDF、词跨度和位置3个特征进行权重计算,从而抽取出权重较高的词语或短语作为标签。通过对实验数据的分析表明,该算法在查准率方面表现较好。通过人工比对可知,标签表达文档内容主题的效果相当或优于测试集标准答案的比率超过六成,取得了比较好的结果。
其他文献
<正>为适应新形势下保密工作的需要,进一步加强国家秘密载体和企业商业秘密的保护,中船重工集团公司江津增压器厂于去年恢复成立了档案管理处。档案处成立以来,不断强化“服
计算机辅助设计(CAD)和计算机辅助工艺设计(CAPP)是信息技术在工业领域的两项重要应用,也是现代化工程的关键技术内容。随着CAD、CAPP技术的普及应用,在产品设计和工艺编制过程
  蜜场技术是一种主动防御技术,它可以适应大规模分布式网络环境中对安全事件的主动防御。通过将私有云的计算中心与蜜场的蜜场中心相结合的方式,构建了一个基于蜜场技术的广
可重构系统兼具了传统处理器的灵活性和接近于ASIC的计算速度,FPGA的动态部分重构能够实现计算和重构操作的同时进行,使系统能够动态地改变任务的运行。在动态部分可重构系统中
档案作为真实记录社会政治、经济、科技、文化等各项活动的第一手材料,是人类社会记录、传递、留存信息的重要工具,是一个国家或地区历史文化财富的重要载体.随着我国现代信
期刊
随着城市道路交通量的增长、路网密度的增大,相邻路口之间的相关性日益明显。一个路口交通信号的调整往往影响到相邻若干个路口交通流的运行状况,其拥堵可能会随着时间推移逐
提出了基于网络分簇和多路径的自组织网络匿名通信协议(CMAR),该协议中节点首先在不暴露身份信息的情况下,利用双线性配对技术生成和邻居节点共享的密钥,并以此为基础,秘密地建
为了实现人脸图像民族特征提取,提出了一种分块集成KPCA的特征提取方法。考虑到利用全局特征与局部特征的互补性能够更好地反映信息的本质,先以KPCA提取整体图像特征,然后使用KPCA对各个分块进行局部特征提取,再组合为民族特征,最后使用设计的Boosting-RBF分类器进行民族分类识别。实验以构建的少数民族人脸样本库为研究对象,对维吾尔族、柯尔克孜族、蒙古族、塔吉克族的人脸图像进行民族特征提取。实
高校兼职档案员负责学校各职能部门和二级学院档案材料的收集、归档、临时管理和提供利用,为学校档案馆提供最基本的归档材料,对保证整个学校档案材料的完整性、系统性具有决定
提出了一种新的自动初始化水平集的方法和基于MultiLayer水平集的活动轮廓模型。该模型同时进行偏移场去除和图像分割,因此可以有效地克服灰度不均匀性的影响。最后利用了大脑皮层的距离信息,在框架中增加了厚度约束项。实验结果显示,相比著名的LBF模型,该框架不但可以获得更高的分割精度,而且分割时间也大大减少。