中文微博用户性别分类方法研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:liongliong468
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。
其他文献
目的观察炔雌醇醋酸环丙孕酮联合二甲双胍治疗肥胖型多囊卵巢综合症(PCOS)的疗效。方法选择肥胖型PCOS患者92例,分别用炔雌醇醋酸环丙孕酮联合二甲双胍与单用炔雌醇酸环丙孕
鸦片战争过后,清政府国库亏耗殆尽,统治者将黄金亏空转嫁到劳动人民身上.繁重的捐税和地租压榨,以及外国资本主义势力的侵入,加速了农村经济的破产.在农村破了产的农民纷纷背
本文通过数值模拟方法对楼宇分布式能源楼顶各类冷却塔组、烟囱、通风孔等散热设备及整个楼顶空间的流场与温度场进行了分析,探讨了这些散热设备处于运行状态时的相互作用与
恒源石化在0.3 Mt/a的TMP催化裂化装置采用钠镁法湿式烟气脱硫技术,新建1套烟气脱硫除尘装置。工业运行结果表明,钠镁法烟气脱硫除尘装置具有良好的操作弹性,运行经济可靠。
对电厂循环水系统优化运行涉及到的几个关键问题进行探讨。首先对循环水流量的确定的仪器测量法、特性曲线交点法及运行数据计算法进行分析,指出了各种方法的特点。然后计算
为了开发利用资源丰富的青稞麸皮,分析了青稞麸皮油的脂肪酸组成并研究了其对高血脂症大鼠的降血脂作用。通过GC-MS分析,从青稞麸皮油中检测到了10种脂肪酸,并发现其亚油酸含
为了了解"80后"公务员的群体特征和工作现状,特以湖南省长沙市市直机关公务员为调查对象而进行了问卷调查。调查发现,"80后"公务员群体体现出"年龄越小、学历越高,学科背景多
在中国影坛,张艺谋在电影创作的各个领域,包括摄影、导演和表演等方面都取得了不凡的成绩,尤其是在导演方面,几乎每一部作品的面世都会引起中国观众甚至是世界的关注。本文试
发展煤焦油加氢制取燃料油技术对于扩展其在能源领域的应用,解决我国的能源短缺问题有着十分重要的意义,催化剂是加氢脱硫反应的核心部分,催化剂的硫中毒是该技术工业应用的
<正> 四,关于过渡音和高音问题前面我们谈了歌唱发声的三个基本原则。这三个原则对歌唱发声具有普遍的指导作用。我们在淡高音和过渡音时也离不开这三个基本原则,但是过渡音