【摘 要】
:
为改善传统互信息方法在网页分类中的效果,对互信息方法在词频、类间分布以及低信息量特征方面进行改善,提出了一种基于互信息和关联规则的文本特征提取方法。改进了传统互信
【机 构】
:
西南科技大学计算机科学与技术学院,淮阴工学院计算机与软件工程学院
【基金项目】
:
江苏省“六大人才高峰”项目(2013DZXX-023);江苏省“333工程”(BRA2013208);江苏省重点研发计划(BE2015127);淮安市产学研协同创新项目(HAC201601)
论文部分内容阅读
为改善传统互信息方法在网页分类中的效果,对互信息方法在词频、类间分布以及低信息量特征方面进行改善,提出了一种基于互信息和关联规则的文本特征提取方法。改进了传统互信息方法,引进词频和类间平衡因子,从而避免互信息对低词频特征值放大;改进互信息特征提取后,计算低信息量特征与高信息量特征的关联规则,以置信度为概率将低信息特征替换为对应规则中的高信息量特征;将置换后的样本集再进行向量化。实验表明,该方法相比传统的互信息方法具有较好的分类性能,F1值平均提高了约6%。将该方法应用于网页分类中,结果显示改进后的互信息方法在网页分类中具有较好的性能。
其他文献
<正>例9(1988全国初中数学联赛第二试试题三)如图13,△PQR和△P′Q′R′是两个全等的等边三角形.六边形ABCDEF的边长分别记为:AB=a1,BC=b1;CD=a2,DE=b2;EF=a3,FA=b3.求证:a12+a
把含有小参数的二阶线性齐次方程转化为含有大参数的二阶线性齐次方程,然后求出含有大参数二阶线性齐次方程的渐近解,利用此渐近解即可求出楔形杆件结构的纵振自主频率及弹性失
目的探讨肠道病毒71型感染导致重症手足口病的危险因素。方法选取2015年5月至2017年10月间我院感染科收治的EV71型手足口病患儿140例为研究对象,依据临床分期标准分为普通病
深井下、深水管道等特殊作业环境常存在硫化氢、一氧化碳、挥发性有机物等有毒气体,如果职业防护不当,吸入浓度过高可致严重急性肺损伤,甚至发生“闪电型”死亡[1];若合并吸入
<正>经皮冠状动脉介入术(PCI)是目前治疗冠状动脉狭窄病变的最重要、最有效的手段之一,但术后3~6个月支架内再狭窄(ISR)发生率高达20%~30%〔1〕。他汀类药物具有多效性,主要包
探讨了工艺的布局、设计及管理对钢结构制造成本的影响,根据钢结构制造特点,从制造工艺的角度提出了降低钢结构制造成本的合理方法及措施,对企业的降本增效起到积极的推动作
<正>在直线形中正方形是一种性质极为丰富的图形,它是轴对称图形,又是中心对称图形.因此很多有趣的竞赛题都以正方形为载体.我们仅选析一些与三角形全等、勾股定理相关的题目
在小学科学“地球与宇宙”领域中,由于模拟实验内容的时空复杂性、抽象性,模拟实验教学存在忽略能力培养等问题。文章从问题出发,细化模拟实验的步骤,提出搭建思维“脚手架”、引
介绍了一种建造油罐的改进方法,使高空作业转化为地面作业,从而加快了建造进度,改善了劳动条件,提高了经济效益。通过具体的两种建造方法优缺点的比较,验证了倒装工法和程序的正确