【摘 要】
:
随着Web技术的发展,网上论坛在人们的生活中起到了越来越重要的作用,论坛中也逐渐积累内容丰富的文档资料.然而,论坛消息本身的特点使得传统的信息检索和文本分析技术无法收到良好的效果.本文在分析论坛站点内部信息组织模式和链接结构的基础上,采用信息抽取技术获得论坛中的消息,重建论坛语义结构.此外,本文引入多维索引来组织论坛消息的特征,并通过分析消息序列在多个维度上的语义漂移现象,挖掘其中的完整语义信息单
【机 构】
:
南京大学计算机科学与技术系(南京) 南京大学计算机软件新技术国家重点实验室(南京)
【出 处】
:
第一届全国信息检索与内容安全学术会议
论文部分内容阅读
随着Web技术的发展,网上论坛在人们的生活中起到了越来越重要的作用,论坛中也逐渐积累内容丰富的文档资料.然而,论坛消息本身的特点使得传统的信息检索和文本分析技术无法收到良好的效果.本文在分析论坛站点内部信息组织模式和链接结构的基础上,采用信息抽取技术获得论坛中的消息,重建论坛语义结构.此外,本文引入多维索引来组织论坛消息的特征,并通过分析消息序列在多个维度上的语义漂移现象,挖掘其中的完整语义信息单元以及语义单元之间语义变化的趋势.
其他文献
文本特征提取是指从文本中提取有代表性的词作为特征,由于中文的特殊性,预先分词是中文文本的特征提取的关键步骤.本文在基于Apriori的中文特征提取算法上进行了改进,提出了一种以n-gram相邻字为分词线索的中文文本特征快速提取方法,使词典无关的中文分词和特征提取的速度大大提高.本文对新算法的正确性进行了证明,并通过试验验证了这种算法的性能和速度方面的优势.
本文通过对足球比赛视频中的场地信息和运动信息的分析,提出了一种有效分割场地和运动员的新算法,并对此算法性能进行了讨论.本算法主要利用Canny算子和数学形态学方法对足球比赛场地进行检测,并对除场地标志线,利用检测出的场地信息实现了场地内运动区域的检测和分割.实验表明该算法有较好的效果.场地和运动员区域的正确分割对比赛的分析和检索具有重要意义.
为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Component Analysis,PCA)、潜在语义索引(Latent Semantic Indexing,LSI)和投影寻踪(projection pursuit,PP)等维数约简方法
Wasserstein距离是定义在概率空间上的二阶矩.首先分析了Wasserstein距离的经典数学表达式,和用于实际工程计算的经验公式.然后举了一简单的例子,来说明Wasserstein距离的实际作用.通过实验和与Wasserstein距离相比较可以看出,完全可以把Wasserstein距离用在图像识别的问题中.
本文通过以主题的方式构建分布式信息检索的文档集合,将传统的按照出版时间、信息来源构造文档集合的方法作为不限,对比看出基于主题的方法在检索的效果上明显提高,原因是以主题的方式建立文档集合便查询的答案有效的凝聚在少数文档集合中,为文档集合的选择提供了有力的支持.通过和集中式信息检索的方法的比较,可以看出现在的分布式信息检索在检索的效果上和集中式信息检索有一定的差距,具有很大的提升空间.另外本文还对分布
本文提出了一种新的双语文档对齐算法,该算法用TEIDF方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice方法的改进算法计算双语文档的相似度.实验表明,该算法可以准确地发现一种语言书写的文档在另一种语言中的译稿,可应用于双语重稿检测、跨语言相似文本检索等领域.
针对自然语言处理中利用概念空间进行自动文档处理,本文提出一种基于组合词典和语料统计来计算概念内聚度的方法;该方法融合知识库和统计处理在概念关系判断方面的各自优势,有效计算概念语义关联,提高自动文档分析的准确性.通过实验验证本方法的有效性.
本文对应用最大熵原理建立语言模型的特征选取方法提出了改进,即先利用特征模板从训练样本中获得候选特征集,再应用频次与平均互信息相结合的方法从候选特征集中选取特征.改进后的方法在选择特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入特征集,并且不是每选出一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算
本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型,称为"义项矩阵模型"SMM(Sense Matrix Model).利用词语和义项的关联提出了一种新的文档表示,即把文档表示成为一个term×sense矩阵,由此引进或建立起一步很有效用的数据分析技术,包括基于矩阵范数的文档相似度计算、文档向量和矩阵的离散余弦变换(DCT)、多维数据正交分解(MAD)等,并提出了一种新的、无需翻译或者
在信息检索的查询反馈处理中,可以利用聚类方法进行文档进而扩展查询条件[1].这时被选择进行聚类的文档集合一般是小规模的,并且由于信息检索有限的性能,文档之间可能出现非常接近、一定程度上相似、基本无关等多种情况.本文针对信息检索的查询反馈处理中文档集合的这些特性,分析了使用聚类算法处理小规模文档集合面临的特殊问题,提出了在文档归并和孤立点分离基础上进行聚类的策略,取得了较好的聚类结果.