互聯(lián)網(wǎng)+時代的來臨,移動互聯(lián)網(wǎng)技術的快速發(fā)展,并且在各個領域中應用,為其他行業(yè)的發(fā)展提供了技術支持。隨時隨地發(fā)布新聞、了解咨詢、關注國計民生以及發(fā)表個人觀點和看法成為新常態(tài)。 輿情的發(fā)生、發(fā)展、演化及傳播等特點發(fā)生著翻天覆地的變化,與之相應的輿情監(jiān)測、分析和決策方法日益成為公司部門關注的焦點。利用信息技術、輿情監(jiān)測等方面理念、理論及方法對網(wǎng)絡輿情的演化發(fā)展進行了大量研究,提出面向大數(shù)據(jù)的網(wǎng)絡輿情監(jiān)測:發(fā)現(xiàn)輿情主題,分析情感傾向,設計主題,傳播趨勢;采用數(shù)據(jù)挖掘技術在事前、事中和事后分三個階段對輿情進行分析,對其風險進行評價,預測其發(fā)展趨勢,及時提出預警。 由此可見,時代在進步,技術在發(fā)展, 工作模式、工作方法的革新勢在必行。過去在網(wǎng)絡輿情處置中采用過“遮、掩、封、堵、刪”等極端手段,隨著“大數(shù)據(jù)+移動互聯(lián)網(wǎng)”的蓬勃發(fā)展,這些方法和手段往往會使問題復雜化,增加問題的神秘感,激發(fā)民眾的好奇心,給敵對勢力以大肆渲染和炒作的借口。不如敞開胸懷,正視問題,走入民眾,主動發(fā)聲,參與互動, 利用大數(shù)據(jù),依靠新技術,“治理+智理”,在解決問題過程中不斷提升解決問題的能力。 提出面向大數(shù)據(jù)的輿情監(jiān)測、分析和決策新理念,新方法。按照圖1的邏輯流圖展開,面向大數(shù)據(jù),分數(shù)據(jù)流和控制流兩方面。以數(shù)據(jù)流將輿情的處理分為三個部分,輿情監(jiān)測,輿情分析和輿情決策。 網(wǎng)絡輿情監(jiān)測的數(shù)據(jù)是決策者進行數(shù)據(jù)分析和決策處置的基礎。依靠新興信息技術多角度廣泛采集輿情數(shù)據(jù),建立和完善輿情數(shù)據(jù)庫、知識庫和案例庫。 輿情監(jiān)測的總體思路由事件驅動向數(shù)據(jù)驅動轉變。 有輿情事件發(fā)生,針對事件監(jiān)測輿情的演化,從中發(fā)現(xiàn)潛在的輿情風險和工作中的不足。按照圖2所示流程展開監(jiān)測。 涉警輿情數(shù)據(jù)主要來自三個方面: (1)內部輿情集散地:官方微博、微信公眾號、門戶網(wǎng)站及政務網(wǎng)等。 (2)外部輿情集散地:微信、微博、論壇、 貼吧以及新聞媒體等網(wǎng)站。 (3)自媒體發(fā)言人:頭條號、百家號、微信公眾號等自媒體號。 輿情監(jiān)測分兩個方法: 被動輿情監(jiān)測:事件已發(fā)生,根據(jù)輿情動態(tài),監(jiān)測詞,通過輿情監(jiān)測系統(tǒng)對輿情集散地,發(fā)現(xiàn)熱點,提取主題,分析情感傾向。 主動輿情監(jiān)測:事件未發(fā)生,設計并拋出輿情主題,引發(fā)討論,將被動化為主動。 網(wǎng)絡輿情數(shù)據(jù)多為非結構性的多元異構數(shù)據(jù)。輿情監(jiān)測的步驟為數(shù)據(jù)采集→數(shù)據(jù)預處理→數(shù)據(jù)存儲。信息檢索和分析要求建立關鍵詞倒排索引;文本處理需要進行切分詞處理,建立詞庫;語義分析要求建立語義語料庫,詞性標注庫;情感傾向性分析需要建立情感詞庫等。而案例數(shù)據(jù)庫是進行輿情分析和決策的基礎; 通過知識挖掘建立的知識庫,輿情分析方法庫和輿情決策方法庫是輿情智能決策的基礎。 將抓來的網(wǎng)頁進行粗略處理或者不處理直接保存在本地,用非關系型數(shù)據(jù)庫進行管理,如NoSQL數(shù)據(jù)庫 HBbase,采用的文件系統(tǒng)隨之需改為分布式文件系統(tǒng), 如HDFS。數(shù)據(jù)存儲模式的改變,導致數(shù)據(jù)處理手段和方法隨之改變,大數(shù)據(jù)對數(shù)據(jù)處理分析的擴展性、可靠性及時性要求不斷提高,需采用各種先進的大數(shù)據(jù)處理技 術。考慮到采集平臺的存儲計算能力、可擴展性以及后期維護的方便性,可采用當前流行的開源分布式采集、 存儲、計算和處理框架,如建設基于Hadoop的分布式計算平臺,可管理不同類型的數(shù)據(jù),包括分布式文件系 統(tǒng)HDFS、并行編程框架MapReduce、內存流式計算引擎 Spark、大數(shù)據(jù)引擎Pig等。 針對事前、事中及事后的網(wǎng)絡輿情大數(shù)據(jù),其分析流程為:統(tǒng)計、計數(shù)→聚類、分類→學習、識別→回歸、預測。輿情大數(shù)據(jù)分析需結合統(tǒng)計方法、機器學習方法以及人工智能算法進行數(shù)據(jù)挖掘和知識發(fā)現(xiàn),給出各個階段的輿情風險評價,提供互動查詢、圖表可視化和分析報表服務,為決策提供參考,具體流程可參考圖3。 (一)中文分詞和詞頻統(tǒng)計 輿情分析的核心是自然語言處理,主體是文本數(shù)據(jù)挖掘,中文分詞統(tǒng)計是網(wǎng)絡輿情大數(shù)據(jù)分析的基礎,是熱點發(fā)現(xiàn),建立倒排索引的關鍵技術,比如可以對同一時段輿情主題進行分詞統(tǒng)計,當前熱點便一目了然。對同一主題一個時段內的關注量進行統(tǒng)計可以發(fā)現(xiàn)本主題的熱度變化。以“雅思”為關鍵詞進行搜索,2019年1 月22日—2月14日為監(jiān)測時段,時段內出現(xiàn)了一個大的熱度波動。繼續(xù)統(tǒng)計與之相關度高的搜索詞頻如圖。 進一步了解熱詞相關度,反映了雅思及其相關關鍵詞之間的緊密程度,關鍵詞“報名”“雅思報名官網(wǎng)”“官網(wǎng)”反映出網(wǎng)民時段內對學習雅思、報名等參與較多。 除了數(shù)字顯示外還可以將詞頻以詞云的形式更為直觀地顯示,根據(jù)1data監(jiān)測系統(tǒng),利用pagerank改編的算法,繪制的有關“雅思”的詞云。 詞云以不同大小和形狀非常直觀地顯示關鍵詞的詞頻,給人以強烈的視覺沖擊。 (二)情感傾向性分析 首先對抓取的輿情數(shù)據(jù)進行分詞處理,然后結合情感語料數(shù)據(jù)庫和情感分析算法對切分后的語料進行情感計算、分析,并進行情感標注。通過聚類和分類得出個體情感傾向和群體情感傾向,以便進一步發(fā)現(xiàn)個體情感異常和群體情感異動,以便及時采取措施,疏導負面輿情。根據(jù)1data監(jiān)測系統(tǒng),利用情感深度學習模式,繪制的有關“雅思”的情感分布圖如下 (三)輿情風險評價 對網(wǎng)絡信息發(fā)布者進行用戶畫像,包括年齡、性別、地域、使用終端等信息,用戶畫像便于對高輿情風險人群進行動態(tài)跟蹤監(jiān)視;建立風險評價指標體系、風險評價模型,根據(jù)動態(tài)輿情數(shù)據(jù),對事前輿情隱患風險、事中輿情惡化風險以及事后輿情衍生風險進行評價,并適時給出輿情風險預警。 (四)趨勢分析預測 通過對采集到的時序網(wǎng)絡輿情數(shù)據(jù)運用線性回歸分析、決策樹回歸分析、隱馬爾可夫預測、深度學習等方法進行回歸預測分析,可給出網(wǎng)絡輿情的演變趨勢,為風險預警和處置決策提供參考。 (五)大數(shù)據(jù)分析工具 EXCEL內置的財務統(tǒng)計函數(shù)可以做一些統(tǒng)計分析, 如計數(shù)、相關性分析、線性回歸等,如果能靈活應用 VBA可以大大擴充Excel的統(tǒng)計分析功能;SPSS、SAS是專業(yè)的統(tǒng)計分析、數(shù)據(jù)挖掘工具,功能強大,接口豐富, 編程簡單,但成本高昂,不便集成到網(wǎng)絡輿情系統(tǒng)中; Matlab是通用的數(shù)學數(shù)值計算、模擬仿真軟件,其統(tǒng)計 分析、機器學習及人工智能方面有很豐富的函數(shù)支持, 而且可視化效果也很好,是算法研究的有力工具;R語言是專業(yè)的開源大數(shù)據(jù)統(tǒng)計分析工具,有非常豐富的數(shù)據(jù)挖掘包,而且方便與第三方函數(shù)庫和算法庫集成,可視化也是其一大優(yōu)勢,是網(wǎng)絡輿情大數(shù)據(jù)分析的首選工具;Python作為一門膠水式的開源編程語言,近年來以其編程簡單、功能強大受到各行業(yè)青睞,其有很強大的數(shù)據(jù)挖掘、機器學習和人工智能工具包,而且升級速度很快,是網(wǎng)絡輿情大數(shù)據(jù)分析的理想選擇。 (一)輿情專家決策 一是充分利用大數(shù)據(jù)技術和人工智能技術,做好對重點網(wǎng)站、重點人群的輿情監(jiān)測,及時發(fā)現(xiàn)問題,評價風險,提出預警。同時,積極參與到各焦點話題的討論中,發(fā)帖子、發(fā)微博、發(fā)微信、寫文章、寫段子,引導輿論導向,為網(wǎng)絡注入正能量;二是充分利用移動互聯(lián)網(wǎng)平臺,進行網(wǎng)絡民意調研,改變過去走街串巷式的、專門問卷式的調研,學會從網(wǎng)民對各類事件、各種話題所發(fā)表的圖、文、聲、像等多媒體意見的分析中挖掘提煉對觀點、情感和態(tài)度。 (二)輿情智能決策 海量異構輿情數(shù)據(jù)為輿情智能決策的知識挖掘提供了豐富的資源,以機器學習技術為核心的輿情智能決策是未來工作的重要發(fā)展趨勢。網(wǎng)絡輿情智能決策的邏輯框圖如下,是決策支持系統(tǒng)和專家系統(tǒng)的合體,建設各種各樣的知識庫是智能決策的基礎,各類機器學習方法是智能決策的主要手段。 網(wǎng)絡輿情智能決策支持系統(tǒng)結構框圖 建立知識庫,采用搜索引擎技術建立理論、政策及相關法律智能咨詢系統(tǒng),提供便民服務。按照預設,到指定輿情集散地、重點人物微博、微信采集多媒體數(shù)據(jù),識別輿情主題,分析情感傾向,建立主題識別知識庫、情感識別知識庫、決策模型庫,決策知識庫,最終實現(xiàn)政策解讀專家系統(tǒng),機器人聊天交流系統(tǒng),決策建議推送系統(tǒng)。其中決策建議推送可以結合微信公眾號、以及電子郵件等多種方式展開。一、大數(shù)據(jù)輿情背景
二、面向大數(shù)據(jù)的輿情監(jiān)測
三、面向大數(shù)據(jù)的輿情分析
四、面向大數(shù)據(jù)的輿情決策