【摘 要】
:
为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分
【机 构】
:
长春工业大学计算机科学与工程学院,长春工业大学软件职业技术学院
【基金项目】
:
吉林省科技厅自然科学基金资助项目(20130101060JC)
论文部分内容阅读
为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分类情况对目前常用的文本特征项加权方法 TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进,在此基础上结合网页的半结构化特征,综合考虑特征项的位置信息及其包含的信息量,提出了一种线性特征项加权计算方法。经实验验证,该方法可有效提高主题网页的召回率和准确率。
其他文献
地平式光电系统过顶跟踪时需要很大的方位角速度,在目标通过天顶瞬间方位角速度达到无穷大,导致地平式系统在天顶附近存在跟踪盲区。为此,对天顶跟踪盲区进行了分析,提出盲区
随着汉语的推广和普及,越来越多的西班牙语国家留学生开始了汉语学习,由于汉语和西班牙语分别属于不同语系,语言本身存在很多差异,因此汉语语音和西班牙语语音的差别很大。从
目的分析阿格列汀联合二甲双胍对2型糖尿病(T2DM)患者血糖控制及氧化应激指标的影响。方法选取2014年3月2016年4月收治的96例2型糖尿病患者,以随机数字表法分为观察组(n=48)和对
<正>近几年来,藏族歌手降央卓玛翻唱了70多首民歌,在历练中形成独特的的演唱风格,在华语歌坛上名声鹊起,受到无数歌迷的热捧追随,赢得"天下最美女中音"的美誉。中央电视台《
游戏规则对一款游戏能否成功至关重要。以反不正当竞争法保护游戏规则可能造成反不正当竞争法与著作权法的冲突。复杂、具体的游戏规则设计可能构成表达。游戏规则设计类似于
糖苷具有广泛的生理和药理活性,但在天然产物中含量低满足不了需求,主要通过愈伤组织悬浮培养法和化学合成法获得。由于愈伤组织培养法周期长,化学合成法经多步保护去保护的
对广岛大学樋口聡教授的学术研究轨迹进行的访谈,直观、具体呈示了日本体育学者的学术研究生态。自幼学业成绩与运动竞技成绩皆非常突出的樋口,为了不给自己的田径竞技生涯留
在高中英语学习的三年中,学生的学习力会产生分化,而且一旦形成分化,就难以逆转,究竟是什么原因造成这种分化?提高学生英语学习力究竟从什么地方入手?该文作者拟从个案和群案
急性胰腺炎(acute pancreatitis AP)是一个常见的外科急腹症,轻型易于治疗,重型病情凶险,病死率高,是目前外科急腹症中最棘手的疾病之一。主要病因是指胰腺消化酶被激活后对本器官
为解决船舶在航海中失事时能及时存储视频中的日期、时间和地点等问题,设计了一种基于双模导航定位模块的视频字符叠加系统。在阐述双模导航定位模块TD3020C和字符叠加芯片MA