基于词典和语料库的概念内聚度研究

来源 :第一届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:liongliong535
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对自然语言处理中利用概念空间进行自动文档处理,本文提出一种基于组合词典和语料统计来计算概念内聚度的方法;该方法融合知识库和统计处理在概念关系判断方面的各自优势,有效计算概念语义关联,提高自动文档分析的准确性.通过实验验证本方法的有效性.
其他文献
将高模量低收缩率的尺寸稳定型聚酯(DSP)帘线用于轿车子午线轮胎中,可简化轮胎的生产工艺,且轮胎的使用尺寸也能得到保证。DSP帘线的干热收缩率至关重要,要严格控制。
在文本分类系统中,传统的特征选择和特征加权方法充分利用了文档信息,而轻视或忽视了类信息.新的特征选择和加权方法以类信息作为调节因子,使均匀分布于单个类中的特征更具代表性,弥补了传统方法的不足.实验证明,基于新的特征选择和加权方法的四种常用分类器都表现出良好的性能.
网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?文章针对这些问题对实际网络日志进行了实证性的规模统计分析.研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系,并研究了用户访问Web的动机.得出了一些有用的结论.这些结论为网络日志挖掘提供了一定的研究根据和基础.
本文从文本分类与信息过滤角度研究垃圾邮件过滤问题,介绍Winnow算法在垃圾邮件过滤中的应用,在PU1邮件语料和Ling-Spam语料上实验Winnow算法的性能,得到了较好的效果.实验表明,这种错误驱动的在线学习方法在垃圾邮件过滤上有较大的实用意义.
文本特征提取是指从文本中提取有代表性的词作为特征,由于中文的特殊性,预先分词是中文文本的特征提取的关键步骤.本文在基于Apriori的中文特征提取算法上进行了改进,提出了一种以n-gram相邻字为分词线索的中文文本特征快速提取方法,使词典无关的中文分词和特征提取的速度大大提高.本文对新算法的正确性进行了证明,并通过试验验证了这种算法的性能和速度方面的优势.
本文通过对足球比赛视频中的场地信息和运动信息的分析,提出了一种有效分割场地和运动员的新算法,并对此算法性能进行了讨论.本算法主要利用Canny算子和数学形态学方法对足球比赛场地进行检测,并对除场地标志线,利用检测出的场地信息实现了场地内运动区域的检测和分割.实验表明该算法有较好的效果.场地和运动员区域的正确分割对比赛的分析和检索具有重要意义.
为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Component Analysis,PCA)、潜在语义索引(Latent Semantic Indexing,LSI)和投影寻踪(projection pursuit,PP)等维数约简方法
Wasserstein距离是定义在概率空间上的二阶矩.首先分析了Wasserstein距离的经典数学表达式,和用于实际工程计算的经验公式.然后举了一简单的例子,来说明Wasserstein距离的实际作用.通过实验和与Wasserstein距离相比较可以看出,完全可以把Wasserstein距离用在图像识别的问题中.
本文通过以主题的方式构建分布式信息检索的文档集合,将传统的按照出版时间、信息来源构造文档集合的方法作为不限,对比看出基于主题的方法在检索的效果上明显提高,原因是以主题的方式建立文档集合便查询的答案有效的凝聚在少数文档集合中,为文档集合的选择提供了有力的支持.通过和集中式信息检索的方法的比较,可以看出现在的分布式信息检索在检索的效果上和集中式信息检索有一定的差距,具有很大的提升空间.另外本文还对分布
本文提出了一种新的双语文档对齐算法,该算法用TEIDF方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice方法的改进算法计算双语文档的相似度.实验表明,该算法可以准确地发现一种语言书写的文档在另一种语言中的译稿,可应用于双语重稿检测、跨语言相似文本检索等领域.