文档频率相关论文
文本自动分类具有广泛的实际应用.引进一种新的基于类内文档频率特征提取方法,并与基于EP的分类方法相结合,提出一种基于EP的中文......
随着信息技术的不断发展,网页自动分类技术成为了Web领域的一个研究热点,它在信息检索、信息过滤等多个领域得到了广泛地应用。特......
为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取所需要的知识和信息,人们希望能够按照内容实现对网页的自动分类。W......
随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高......
本文分析了文本自动分类的关键理论及技术,给出一个基于向量空间模型的文本自动分类系统的框架模型,重点描述此系统的实现算法。......
针对目前少数民族语言方面热点关键词提取算法研究较少,而且精度和效率不高这一问题,提出一种哈萨克文网络热点关键词提取方法。将......
特征选取的好坏决定了文本分类的准确度。文本特征选取通常有文档频率、互信息、信息增益、卡方统计量等方法。文中讨论了文档频率......
在大数据时代,绝大多数数据并非来自表面Web,多数需求数据是通过超链接互连的Web引擎。相反,宝贵的数据库通常存在于深层网络中,即......
文本情感分析领域内的特征加权一般考虑两个影响因子:特征在文档中的重要性(ITD)和特征在表达情感上的重要性(ITS)。结合该领域内两种分......
如何选择最能够表达文本主题的特征词,从而减少特征空间维数,是文本分类的一个关键问题。针对此问题本文提出了一种基于向量空间模型......
针对目前少数民族语言方面热点关键词提取算法研究较少,而且精度和效率不高这一问题,提出一种哈萨克文网络热点关键词提取方法。将......
通过对商品评论的挖掘,商家可以更好地了解消费者的需求从而及时改善产品的设计。目前,针对商品评论的挖掘大多数采用的方法是提取......
在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信......
信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节.目前的......
分析了与类别信息有关的CHI统计特征选取方法和与类别无关的文档频率特征选取方法,在此基础上提出文档频率与CHI统计相结合的特征......
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表......
随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类......
为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。采用......
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特......
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对......
互联网内容提供商在实际运营过程中,所维护的各项业务随时可能会遇到各种各样的问题,将相应的大量错误日志经过聚类后及时反馈给相......
垃圾邮件识别是网络安全领域的一个重要研究课题。其中,特征选择和垃圾邮件在线识别是垃圾邮件识别过程中的关键技术,本文从这两个方......
随着信息技术的快速发展,文本数据量不断增长,如何高效、准确地定位有效信息成为当今时代下的迫切需求。文本分类作为信息处理的核......
在文本分类领域中,目前关于特征权重的研究存在两方面不足:一方面,对于基于文档频率的特征权重算法,其中的文档频率常常忽略特征的词频......
在云计算应用环境下,由于服务系统越来越复杂,网络安全漏洞和被攻击情况急剧增加,传统的恶意代码检测技术和防护模式已无法适应云存储......
特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是......