基于N-grams短语的中文Web文本聚类及其预处理的研究

被引量 : 0次 | 上传用户:beichensi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展与应用,数字化的文本数量不断增长,互联网的发展更加剧了数字文本的膨胀。本文的目标就是在我国互联网资源急剧增长的背景下,为了有效地挖掘中文Web文本信息资源,针对传统文本表示模型应用于中文文本的不足和传统文本聚类方法处理高维文本对象时运行效率低的缺陷,以及中文文本需要进行分词等困难,根据网页文本对象的特殊性和中文语言自身特点,尝试从中文Web文本聚类过程的不同阶段入手,研究中文Web文本聚类分析技术。在预处理阶段,为了能够提供准确表达网页主题信息的去噪网页或文本,在分析现有不同网页主题信息提取或网页去噪方法的基础上,针对这些方法需要不同程度地依赖网页结构和视觉特征的缺陷,本文提出了一种新的提取方法,即基于正文特征的网页主题信息提取方法。实验结果表明,这种方法无论在主题信息提取的准确率,还是主题信息提取完整性,结果都比较好。根据中文语言自身特点,把中文信息处理的基础技术——中文自动分词纳入研究内容之一。词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,本文设计了一种最短路径的二元语法中文词语粗分模型。实验结果表明,此粗分模型无论在封闭测试和开放测试中,还是在不同粗分模型对比测试和不同领域的开放测试中,都有较好的句子召回率。在文本表示阶段,传统文本表示模型应用较为广泛的是基于词集的向量空间模型(Vector Space Model,VSM),在构建VSM中,仅仅考虑利用文档中单个词的信息,而忽略了对聚类来说更重要的词之间的关系和顺序信息。针对VSM表示文本的不足和文本信息自身特征,本文提出了一种新的文本表示模型,即短语相关文档模型(Phrase Related Documents Model,PRDM)。在模型中,PRDM使用具有上下文信息的N-grams短语来表达文档和文档关系,能够更准确地聚集相似文档。在文本聚类阶段,针对传统文本聚类方法处理高维文本对象时运行效率低和需要初始化参数的缺陷,本文提出了一种新的中文文本聚类方法,即基于N-grams短语的中文文本聚类方法。该方法在PRDM的基础上,构建文档相关文档模型(Document Related Documents Model,DRDM);然后在DRDM的基础上,计算文档相似度;最后聚集相关文档(相似文档),得到“物以类聚”的结果。通过实验对比,N-grams短语方法无论在查准率、查全率,还是F值、聚类用时,都比k-均值算法和AHC算法有更好的性能表现。
其他文献
近年来,随着城市化进程的加快以及农村产业结构的调整,城市蔬菜供销形势发生了巨大的转变,市场蔬菜供应安全问题日显重要。蔬菜作为菜篮子工程的重要基础性商品,与广大消费者
网络技术的快速发展,尤其是P2P应用的飞速发展,大大丰富了互联网的内容。但其服务大多采用端口跳变和协议加密等相关技术,使传统的基于端口和有效载荷的分类方法的效率大大降
期权是金融衍生品市场创新的典范。期权工具已经成为投资者进行防范风险的重要工具。Black-Scholes期权定价公式对期权定价和风险的管理进行了定量的分析,是期权工具迅速普及
WEB是一个非常巨大的信息来源地,不过提供这些信息的网站结构是否合理,唯一的评估者是访问浏览它的用户。每次用户的访问都会在WEB服务器上记录一条访问日志,根据这条日志可
随着全球经济一体化的形成,国际间的接触与交流变得越来越重要,越来越频繁。不同文化之间的交流时刻困扰着交流者。因此,跨文化交际学的诞生,为解决上述问题提供了很好的帮助
目前自动化设备的控制网络主要有DH+,RS-485,DeviceNet,CanOpen,ProfitBus等等,此类工业控制网络主要使用主从的通信方式,而且网络的通信速率较低,通信容量有限,当节点数量增
目的:研究生姜醇提取物(Zingiber officinale)对人肺腺癌细胞(A549)(Human Adenocarcinoma 549)增殖和凋亡变化的影响,并探讨生姜醇提取物抑制A549细胞增殖及诱导凋亡发生的
准循环低密度奇偶校验(quasi-cyclic low-density parity-check,QC-LDPC)码是一种应用广泛的编码技术,该技术主体包含校验部分和信息部分。现有的编码技术主要针对校验部分进
想让产品卖更高的价格,有更好的利润,这无可厚非,但真正把高端产品卖得非常好,而且能持续高增长的品牌却是少之又少。笔者在走访市场时了解到,有一家厨电品牌,产品的均价达万
三氯化铁蚀刻液由于其较低廉的价格被广泛应用于印制电路板的生产以及微电子封装中引线框架等的制作,这些企业在生产过程中会产生一种含有大量的铜镍锌等重金属的线路板蚀刻