论文部分内容阅读
目的:本研究主要从健康信息是否能够被公众所理解的角度出发,探讨影响网络健康信息可理解性的文本因素,构建网络健康信息可理解性指标测量模型,为健康信息传播者的文本信息编辑提供建议,从而更大范围,更好方式,更快速度地对网络健康信息进行传播。方法:采用科学知识图谱法总结了健康信息可理解性研究的历程和热点;通过NLPIR汉语分词系统对关注度、粉丝量、微博量均较大的前20个健康类机构认证微博的60篇健康文本信息进行自适应分词;根据汉语水平词汇与汉字等级大纲、医学主题词表、情感词表建立标准词库,利用Microsoft SQL Server 2008 R2数据库管理系统统计健康信息的甲级词汇、乙级词汇、丙级词汇、丁级词汇、医学主题词、情感词的词数和比例;使用CRITIC法对各指标进行权重赋值,计算出各健康类机构认证微博健康信息的文本可理解性综合得分。结果:影响微博健康文本的可理解性指标主要包括8种,按其权重从高到低依次排列为丙级词比例(0.1755)、平均句长(0.1535)、平均每百字句数(0.1328)、丁级词比例(0.1219)、情感词极性值(0.1156)、甲乙级词汇比例(0.1145)、医学主题词比例(0.0942)、总字数(0.0920)。20个健康类机构认证微博的可理解性综合评分结果为A1(118.15)、A2(84.55)、A3(23.33)、A4(79.43)、A5(71.83)、A6(25.70)、A7(42.39)、A8(131.56)、A9(117.54)、A10(107.34)、A11(18.58)、A12(18.00)、A13(24.11)、A14(17.93)、A15(120.23)、A16(89.25)、A17(19.30)、A18(165.93)、A19(153.82)、A20(105.32)结论:根据各指标的权重值,得到健康信息可理解性综合得分的预测模型:Y=0.1755*X10+0.1535*X3+0.1328*X4+0.1219*X12+0.1156*X16+0.1145*X68+0.0942*X14+0.0920*X1。微博健康文本的可理解性水平明显高于一般汉语文本,其可理解性综合评分差距较大,果壳健康朝九晚五(A18)的综合评分最高,为118.15,说明其最难理解;39健康网(A14)的综合评分最低,为17.93,说明其最容易理解。综合评分结果被分为三个等级:高级难度A,综合评分数0-60;高级难度B,综合评分数60-120;高级难度C综合评分数大于120。建议微博编辑者撰写健康信息文本时遵从可理解性预测模型,适当增加丙级词汇和甲乙级词汇比例,减少丁级词汇比例。缩短句子长度,增加句子数量,减少总字数。增强文本情感值。减少医学主题词比例,从而提高健康信息文本的可理解性水平。