余智華:大數據時代的以人為本

文章來源:東南輿情 發布時間:2017-04-14

余智華 : 來自于中科院計算所網絡數據科學與技術重點實驗室。余智華 : 來自于中科院計算所網絡數據科學與技術重點實驗室。

今天主要結合這么多年來在配合國家相關主管部門對互聯網治理和輿情等方面的應用以及我們技術的新的進展給大家做一個分享和交流。

首先我們說在互聯網治理要適應時代的發展和變化。隨著我們信息技術的發展,現在已經進入到了大數據的時代。我們互聯網治理只要適應大數據時代的特點。網絡大數據不僅僅說數據本身,數據量大,現在大家常說大數據的特點就是4個V、5個V,數據呈現多模態,高噪音、復雜關聯、動態涌現等特點,同時對互聯網的治理和輿情監管技術和模式也提出了重大的挑戰。

我今天要說的從我們輿情的管理和互聯網治理來講,從傳統的就事論事的方式轉變到以人為本的模式上。為什么說我們傳統的輿情發展是就事論事,我們以前隨著網絡的發展大量的輿情信息在網上進行擴散和傳播,網絡應該說是目前輿論輿情的一個焦點。我們傳統主要在做怎么樣及時發現敏感和有害的信息,對它進行監管和及時響應和處理,這是我們說的實際上針對事件,針對內容進行管理,這應該是前十幾年我們在互聯網管理主要的一個目標和應用。我們要做得事情主要針對重要的輿情事件進行分析和調控,尤其是對一些熱點的事件,對于產生重大影響的事件。

隨著技術的發展和我們應用場景不斷地延伸,我們對互聯網的管理也提出了越來越高的要求。從最初的熱點的事件逐漸對突發事件做到快速處理。一旦突發事件產生之后,由于現在輿論場擴散非常快速,可能短短10分鐘,一個小時到了幾萬人、幾百萬人這樣的一個傳播的范圍,產生很大的影響,因此要求我們對互聯網輿情的處理做到快速響應。不能說已經很熱,形成一定規模以后才進行處理,在最初的突發包括在苗頭性事件,苗頭還沒有真正產生影響,這個時候要有預測的能力,能夠對未來發展有一定的預期,能夠進行預警。這個應該說是要求越來越高,治理的難度也越來越大。

 隨著數據量的增長,我們想做到對互聯網上的信息內容做全面的監測和掌控,也應該是越來越難以做到。我們怎么樣既達到能夠掌控整個互聯網的總體的態勢,同時又能對事件做到及時有效快速預警和處理,這就要抓到網絡輿情的關鍵點,就是要找它的源頭以及找聚集點。

對于輿情事件處理,可以看成是兩方面的要素,一方面是人,一方面是事。我們傳統的做法對事是更關注,但是從事件來講,本身具有很大的不可預見性。比如說今天出來一個事件,明天出來一個礦難,這不可預見。從人和源頭的角度,可能在網上傳播某一類敏感信息或者某一類事件,有一定領域的匯集性,往往是一部分的主要傳播者在進行傳播和擴散。因此,我們從人類的角度可以比較好的抓住這個源頭,我們提出實際上也是今天要說的觀點,就是要強調以人為本。

實際上我們在互聯網管理過程中,我們要關注一些主要目標人物,包括特定領域的活躍群體,是敏感性事件的源頭。包括某一些特定領域的意見領袖,很大程度上主導這個輿論和傾向和網民的一些情緒觀點。再就是一些大V,他往往在輿論傳播過程中起到引爆點的作用,平常的事件通過大V轉發之后也許成為公眾的焦點熱點。這些實際上都是我們在互聯網治理過程中要關注一些主要的目標人物。

這是我們舉的一個實例,是我們配合相關部門做分析的時候,我們以維權律師群體做了一個群體分析,這個也是針對微博中的一些重點人物律師樣本進行分析,從人物本身可以看到大部分超過六成的維權律師都是比較資深的微博用戶,這樣可以積累他的影響。從內容的角度,我們從不同維度進行分析,在內容角度參與的話題主要是司法案件,是他的本行,發揮他的影響力。還有生活休閑類,維持他的熱度。在內容表述方面,在熱點事件參與方式方面采用轉載陳述事件實時,話語策略較為謹慎和理性。從關聯關系的分析上來看,律師群體大部分的關注主要在圈內,律師之間的關注是他的一個主流,其次是針對政見活躍人士和學者,此外包括一些意見人士,民間維權人士等等這些人。

輿論引導方面我們看他會發揮什么樣的作用,我們以“辱母殺人案”為例,是近期熱點事件。我們可以看到維權律師發這個群體還是起到比較明顯的作用,原創微博轉發量排在第5、第7、第10,我們刨除的一些媒體和營銷賬號,選了一些比較專業性的排名。可以看到總體群體活躍度在這個事件里頭算比較高,互動性很強。作為一些重要的傳播節點,下面是事件話題傳播的傳播圖,可以看到帶來了比較多的二次轉發和關注。進一步我們對他在傳播過程中產生的影響和作用做了分析和分類,維權律師在事件里議題設定和輿論導向作用比較明顯,從律師發的消息和相應的評論可以看到,網民的態度傾向受到律師本身設定的話題的立場的影響還是比較明顯。比如說這個律師側重分析真相比較理性,下面評論大家都是對他比較多樣性。另外律師提到比較激進,可以看到他的評論也是一邊倒。我們由此在這里可以得出結論維權律師這個群體在推動事件輿論擴散和導向方面,他的作用還是非常明顯的。

前面我們是對人物在輿論管理和網絡當中的一些作用,下面給大家匯報一下我們在這方面一些技術上的進展。基于網絡大數據的人物分析技術,基于前面所說的網絡治理和業務,我們總結應用特點首先我們采用多維屬性的抽取和刻畫,對這個人物多方面的屬性,身份、行為、數去、關系、影響力進行抽取和刻畫。在這方面基于這些特性,我們打上不同的業務標簽,比如可能是一個敏感人物,可能是一個意見領袖或者可能是一個積極分子或者是推手,有了這些之后,我們就可以對他有不同的應用,我針對敏感人物基于他進行敏感信息的發現,對于意見領袖評估他傳播里頭的作用,預測信息傳播的趨勢。像右邊這是一個例子,我們針對一個人物,通過他的內容上面的一些特征去關注到哪些主題和關鍵詞,他經常交往的圈子以及在地理位置上活躍的地點,最后給他貼上標簽這可能是一個恐怖分子,是需要重點關注的一個人物。對人物屬性的分析,我們一般也經常把他稱之為人物畫像,提供多維度的分析。通過身份、行為、興趣、關系以及影響力多方面構建一個多維度的人物的綜合的表達。

簡單介紹一下在這些方面我們采用的一些方法和我們能做到什么程度。人物屬性抽取里面,像百科有相應的標簽和屬性內容,這個可以通過上下文分析的方式可以做到95%以上比較精準的抽取。我們在新聞網頁報告里頭通過無結構化數據的抽取,也可以達到90%以上的抽取的準確率。很多時候人物并不是有一個已經完整表達,不是一個名人,在百科里頭不能找到他完整屬性。我們怎么樣推斷他在互聯網上并沒有體現出來的信息,采用人物特征推斷的方法來進行,可以通過社交網絡的關聯分析,已知身份特征屬性推測未知用戶身份特征的屬性。這里頭基于我們稱之為社交網絡、社交結構里頭有同質性的特征,簡單來說物以類聚、人以群分,具有相似特征的用戶個體更傾向于選擇對方成為自己的好友。這是一個例子,根據好友興趣判斷他是一個CEO,興趣在互聯網這個領域,這樣可以把人物屬性補充完整。通過對人物關聯的分析,在數據中抽取人物關系分析。

同時,我們在人物身份映射方面,在互聯網虛擬人物里頭有一個特點,人物在互聯網中會有很多的身份。我們在互聯網管理過程中,我們需要不同的身份映射到同一個人,甚至映射到真實的身份里頭。這個典型的場景比如說對轉世賬號進行識別,包括推薦相關人物。這是我們通過屬性的匹配映射出虛實映射,某個虛擬人物找到真實的身份。通過這些屬性的關系,通過關聯我們最后能夠構建出一個綜合、多維度人物的知識圖譜,對同齡的人物進行消極可以得到人物真實身份信息,構建出相應的知識體系。我們對人物各種屬性,建立檔案以及群體和關系等分析。

從應用的角度,我們把這個人物信息收集起來以后,建立人物知識庫,對傳播和影響進行分析。對于一個人物的影響力,大家就會想到粉絲數,發文比較多,或者評論比較多會影響比較大。真正的作用哪方面作用更強,相關研究表明這個觀點跟大家直觀感覺會不太一樣,相關研究表明粉絲數多的用戶不一定影響真正會影響力很大,并不會被大家所接受或者認可。用戶的影響力與粉絲數的關聯度實際上是很低的。剛才這個在Twitter上做得研究,微博上也有相關研究可以得到類似的結果。我們影響力怎么去評價,在社交網絡里面更多的情況下我們會用一個轉發率體現關注和影響。也就是說,這個信息傳達到這里,看到這個消息,不見得真正接受他的觀點。但是把他轉發做了評論之后,一定對我產生影響。

實際上我們人類的行為是在傳播交互方面是普遍有一個規律特征,這幾天對你很關注,關注你的信息,對我有比較強的信息。隨著時間的變化,這個影響力是隨著規律指數是下降的。通過分析影響力之后能夠做什么樣的事情,一個對影響力進行最大化,我們通過哪些人物或者通過媒體進行信息的發布,最后這個影響力能夠影響到最大,這實際上現在有一套相對成熟的算法,對他進行排序。而且這個算法目前處理的規模已經達到真實網絡需要的已經達到實用化。這是我們用這個算法做得對事件傳播里頭的關鍵人物進行分析,用霧霾的話題做得一個分析。可以看到下面是我們列出來排名前10位在穹頂之下事件傳播過程中影響最大的10個微博賬號,這個影響力中間的粉絲數看到影響力和粉絲數量并不是線性相關。其中有一些粉絲數并不大,但是在事件傳播過程中發揮很大的影響和作用。

對于怎么樣去判斷這個人物他在傳播過程中的影響,我們會從他的影響力和易感性兩個角度建立他的模型。首先影響很大,對周圍的人有很強的輻射作用。另外接收方是很容易受感動,我們專題和興趣相近,就會產生比較強的影響傳播力。通過這個可以從微觀上對輿情事件的傳播,消息的轉發進行一個判斷和預測。

另一方面,從中觀程度,對結構上對事件的傳播具有比較明顯的特點。這里頭我們可以看到傳播過程中由集聚向發散轉變的時候,這個是一個爆發期。話題最開始傳播的時候,在一個小圈子里頭,小圈子里頭討論很密集,但是范圍很小,并沒有產生真正的影響和熱點。但是一旦從我小圈子擴散出去之后,向更大范圍去擴散,到外面更大的范圍之后,就進入真正的爆發期。從這個特征上我們可以去對事件話題傳播的爆發進行預測。

另一個方面,我們可以從更高的維度,從宏觀的角度進行模型的建立。這個基于概率模型我們對這個事件進行預測,右邊下面是預測的趨勢。可以看到對事件我們在消息發布半個小時之后,我們可以建立一套模型,有擴散速度和傳播潛力的分析,可以知道有多少轉發,影響多少用戶,這個準確率偏差在10%左右,應該說達到比較準確的效果。在話題的傳播過程中,很多時候并不是一個簡單的一次傳播曲線,在過程中會產生很多二次傳播的現象。基于這個二次傳播,我們可以通過對傳播的過程進行一個切分,什么情況下進入了一個低谷,這個時候又產生新的傳播的變化,這時候進入到二次傳播的過程。通過這個對模型進行調整,這是調整之后可以看到對于多次傳播疊加之后我們還是能夠比較準確地對話題傳播和演化過程進行一個預測。

最后,說一下群體方面的分析。群體是對人物在社會里頭,人本質上是一個社會動物,如果是孤立產生不了社會影響和價值。我們研究人物在網絡中產生的作用和影響,一定是繞不開所處的群體跟他密切相關的群體的問題。還是以霧霾這個話題為例做得群體分析,這是我們基于連邊密度的社區發現算法進行識別,同一個顏色表現同一個群體,可以看到在話題傳播過程中,主要影響的是公益群體,此外還包括一些環保群體,包括一些美食團隊,還有一些僵尸賬號在里面。通過這個可以把握在傳播過程中,不同人物以及關鍵人物,不同群體在當中產生的作用。????

新疆25选7中奖历史