首页
杂志网
当前位置:首页>>计算机应用>论坛中社会民生问题的提取与分析>正文

论坛中社会民生问题的提取与分析

来源:杂志发表网时间:2015-12-20 所属栏目:计算机应用

  

  1、引言

  论坛是Internet上的一种电子信息服务系统.

  论坛上聚集了许多愿意分享经验、信息和思想的用户,这些用户通过注册的唯一ID来浏览他人发布的信息并发布自己的消息而形成一个线程.

  论坛交流已经成为当今社会交流思想和信息传播的一个重要途径.

  论坛上的话题主要分为两类:(1)突发事件相关话题,特点是持续时间短,讨论激烈;(2)民生话题,特点是持续时间较长,一般为贴近生活的话题.已有的研究主要集中于前者,如论坛热点话题的发现及预测研究、突发事件后不实消息传播的研究、基于舆情的敏感新信息搜索方法等.后者的研究相对较少,同时由于民生话题是舆情分析的难点,其相关研究具有实际意义.

  因此,本文算法主要目的是提取时间轴上的民生话题.

  识别民生话题算法结合时间维度,应用LDA话题模 型和短文本相似度评估模型进行提取.民生话题的提取首先要保证聚类结果话题相关,算法采用LDA生成话题模型,短文本相似度模型筛选并聚集相关帖子;另一方面本文采用相邻时间片话题交叉匹配的方法保证话题在时间轴上的持续性.

  在得到了民生话题对应的帖子、参与者及其回复关系后,就可以应用社会网络分析进一步得到如关键人物分析、社区划分、话题演化等方面的研究.

  2、相似度评估模型Quan

  提出了基于话题模型的短文本相似度计算方法,该方法是利用话题模型来修正短文本的特征向量,最终仍然通过计算向量之间的夹角余弦来表示文本之间的语义相关性.本文算法参考其向量化模型,采用最小值阈值的方法,本文方法在不降低结果准确性的同时,能够相对减少计算开销.

  相似度评估模型主要针对相邻两个时间段的话题进行分析,假设前一期的话题Tformer={t1,…ti,…tn},对应的话题向 量 为ti={(ti1,pi1),…(tij,pij),…(tiN,piN)};后一期的话题Tlater={t1,…tk,…tm},对应的话题向量为tk={(tk1,pk1),…(tkl,pkl),…(tkM,pkM)}.

  要找到相邻时间片上相似度高的话题,需要进行n×m次相似度计算,即两个时间段的每一个话题都需要和另一个时间段的所有话题进行相似度评估.ri,d=∑word∈ti∩dminp(word)si,k=∑word∈ti∩tkmin(p(word)) (1)式中,ri,d表示标题向量d与话题ti的相关度,如果相关度大于阈值σ2,即认为该帖子是与话题相关.si,k表示话题向量ti与tk的相关度,它等于两个话题中同时出现的某个词汇的概率较小值的总和.

  当si,k大于设定阈值σ1时,算法认为这两个话题是相似的.当同一话题持续超过若干期,可以认定为民生话题.同时,在一个时间段内也需要应用相似度来衡量一个话题ti的规模,这时只需要应用ti的关键词与向量化的帖子标题d进行匹配,所有匹配成功的概率总和即为相关度.

  3、论坛民生话题识别方法

  由于网络数据的时间特色,把用户交互的数据按相等的时间T来划分,并假设这些时间段是独立的或者小部分重合的,在本文实验中,假设数据是按半个月(15天)进行划分的.

  对于每一个时间段的数据进行话题建模,并通过相邻时间段话题相似度比较使得跨越多个区域的民生话题浮现出来.

  得到民生话题算法的主要思想如图1所示..

  首先,用 户交互数 据按时间区间进行划分,并使用LDA得到时间段内的话题模型.然后,相邻时间段的话题数据进行相似度计算,把跨越多个时间段的相关度高的话题定义为民生话题[10].

 

  算法的具体步骤如下所示.

  Step 1.应用LDA话题模型分时间段进行话题识别,并统计话题相关的帖子数、参与用户数、回复率、热度等;对于时间段t,得到N= TOPICi(t)个经过属性过滤的话题,每个话题包含关键词列表及对应概率.

  其中属性过滤满足以下条件之一的话题被保留:(1)标题向量与该话题向量相似度大于阈值σ2的帖子总数大于等于10;(2)参与该话题的总用户数大于等于该期活跃用户的10%;(3)热度(点击数除以该期活跃用户数)大于等于10%;(4)回复率(总参与人数除以总点击数)大于等于30%;其中,阈值σ2在实验中取值为0.05,即如果一个帖子标题向量含有某话题的一个主关键词,则可以确定这个帖子是该话题的相关帖子.

  Step 2.识别民生话题.通过计算相邻时间段话题的相似度来得到延续数期的民生话题.

  在本文实验中,话题相关度阈值σ1=0.09.对于这样的话题,TOPICi,如果它在j,j+1,…,j+s这几个时间段有定义,则这个话题的帖子数POSTi和用户数USERi分别为POSTi=∑j+st=jPOSTi(t)USERi=∪j+st=jUSERi(t) (2)突发事件的帖子时间跨度小,网络演化结构相对简单,不属于本文关注的民生话题.

  突发事件一般在时间轴上持续时间不足3期,因为有些突发事件可能正好发生在两个时间段交汇处,因此,定义民生话题最好持续treq(s>treq),实验中treq=3.

  4、实验

  4.1数据集

  本文数据来源于中国知名论坛天涯论坛,获取数据为天涯杂谈自2011年1月至2013年10月的数据,包含325 288个 用户、102 756个 主帖 和4 524 756条回复.

  提取民生话题的实验在以上数据集合的一个子集(2012年10月到2013年10月)上进行.

  在这些注册用户中,有12 701人在2011年到2013年时间段内至少发表了一个帖子,3 724人发表至少2个帖子,并有573人发表多于5个帖子.

  单贴平均回复数(只考虑至少有5个回复的帖子)是62.91.2011年用户共发表帖子10 324个和评论400 571个 (38.8评论/帖子 ),2012年发表帖子31 146个和评论1 326 819个(42.6评论/帖子),2013年发表帖子61 286个和评 论2 797 366个(45.6评论/帖子).

  4.2话题的识别

  对给定的数据以发帖时间预处理,应用LDA话题模型进行话题识别,其中超参数α和β分别设为50/Z和0.01,话题数Z设为50,Gibbs抽样迭代次数设为1 000.

  每个时间片所得到的50个话题显然有一部分不是本文关注的民生问题,因此通过属性过滤进行分析处理,将得到每个月数目不同的话题数如表1所示.

 

  得到的总话题数为536个,平均每期22个,其中第9期最少仅有10个,第21期最多为37个.

  首先分析每个话题的相对大小,图2中给出了话题相关帖子数量的统计信息.

  为了提取民生话题之前不流失更多的有效数据,这里相似度参数取值σ2取0.05,即一个帖子标题如果含有某话题的一个主关键词即被保留.

  可见88%的话题的规模都集中具有61到150个相关帖子.

  4.3民生话题的识别

  接下来的分析主要是识别民生话题,这些话题需要持续存在超过一个给定的期数限制.民生话题的数量受相似度取值的影响比较大,图3中给出了两者的关系.一般情况下,话题的主关键词一般频率比重为0.05左右,所以当相似度确定在0.1时就意味着有两个主关键词一致,这时基本可以肯定两个话题是讨论的一个问题.

  实验也证明,图中是一个重要的拐点发生在σ1=0.09时,对应得到了16个民生话题,经手工验证和排查发现准确性较高,其话题质量高.

  

  得到的16个民生话题及其相关的帖子4 216个.这大大缩小了进一步对民生问题进行分析的数据规模.平均每个民生话题有相关帖子263个,按最短持续3期进行计算,平均每87个,低于一般保留话题的规模,这也体现了民生话题并不具有突发性话题的高发帖率、高点击率和高回复率,其突出特点是持续周期长.

  4.4话题持续时间分析

  图4中给出了民生话题持续的时间分布,其中12个(75%)民生话题持续3期(3个月),这是也是本实验认定持续话题期数下限.同时4个话题持续超过4期.

  民生话 题的分布 是比较均匀的,只有2013年5月(13期)有4个民生话题同时存在.分析数据发现,在这个时间段为毕业季和高考的时间,同时与青春类电影如《致青春》的上映时间重合,使得此类话题持续高温并不断演化,但是话题的演化问题超出了本文研究范围.

  同时《中国最强音》(X Fac-tor)和《中国梦之声》(Chinese Idol)等全民歌唱进取真人秀节目的热播也是这是时间段民生话题的贡献者.

 

  同时所得到的民生话题是具有较高的相异性的,因为相同时间段内重叠的话题不多,而时间上相隔较远的话题虽然有可能相似,但显然是两个不同的事件.如每年毕业、高考、就业这个民生话题都会重复上演但有每年不同,这类话题的演化分析不在本文研究范围之内.

  所以本算法那所提取的持续话题是具有很好的多样性的.

  5、结束语

  本文根据论坛数据的特点[11],设计并实现了民生话题的提取算法.为了区别民生话题和热点话题,本文按时间片对数据进行了划分,并通过话题模型LDA对各个时间片分别进行话题提取并属性过滤,进一步应用相似度模型对相邻时间片的话题进行交叉匹配,得到持续火热的民生话题.

  实验结果揭示了大多数的民生话题都持续3期左右,在数量上远远小于突发性话题,且时间分布上较均匀.通过手工验证得到的民生的话题一般为社会大众话题,进一步分析这些话题的参与者的社区组成、核心人物及思想派别,将对社会舆情分析很有益处.

点此咨询学术顾问 快人一步得到答案

SCI期刊问答

回到顶部