在上一篇《Gephi社會網絡分析-網絡圖的過濾器(濾波)》中,我們使用從知乎上采集到的實際的社交媒體數據,經GooSeeker分詞工具做分詞和選詞后生成共詞矩陣,在Gephi中導入共詞矩陣,在此基礎上學習和討論了Gephi網絡圖過濾的概念和實際操作演練。 本文參考Gephi官網的內容,繼續學習Gephi網絡圖的統計。其實,上一篇為了使過濾操作有數據支撐,我們已經使用了一個統計操作。簡單理解,統計就是針對圖的整體或者節點或者邊的一些統計指標的運算,這些統計值有助于更好的觀察和分析網絡。 我們之前在Jupyter Notebook中做過很多各種算法的實踐,各種度的計算,這些和Gephi的統計有些是交叉或者有關聯的,想詳細了解這些算法的實踐過程的朋友,可以直接下載這些Notebook后做運行和觀察,下面列舉其中幾篇:
今天我們將繼續使用從知乎上采集的“二舅”相關的話題作為我們實驗的數據源,將采集結果數據導入GooSeeker文本分詞軟件,經過選詞后生成共詞矩陣,以excel的形式導出。有關怎樣在Gephi導入不同形式的數據,請參考這篇文章《Gephi社會網絡分析數據的批量生成和導入》。 1 什么是Gephi的統計 Gephi提供多種統計(Statistics)方法用于網絡分析。 Gephi統計分為網絡概述、社>**(不當用詞)現、節點概述、邊概述、動態這5部分。由節點和邊組成的圖,主要的研究對象是節點和邊,包括圖中的節點有什么特性、邊有什么特性、節點能組成什么特性、邊能組合出什么特性,以及從整體上觀察,節點與邊的不同使圖有什么不同。 常用的有下面這些統計:
2 Gephi統計(Statistics)的基本過程 2.1 統計操作界面 統計與外觀、布局、過濾相比,在操作界面以及設置方面相對比較簡單。 統計中的統計項目分為網絡概述、社>**(不當用詞)現、節點概述、邊概述、動態5個部分,如上圖所示。 統計界面的左上角有一個“設置”按鈕,統計的設置與運算無關。單擊“設置”按鈕,可以選擇自己需要使用的統計方式。 2.2 統計的運行方式 每個統計的使用方式都是相同的,就是單擊統計方式右側的“運行”按鈕: 2.3 統計運行后帶來的變化 統計與外觀關系緊密相關,與過濾存在關系,與數據資料界面中的數據也存在關系。 我們下面做簡單網絡圖的一個PageRank統計,看看統計的運行對數據,過濾,外觀有什么影響。 PageRank是網絡節點重要性計算的一種算法,是搜索引擎(如百度、Google)用來計算網頁排名的最核心的算法。 先來看一下在未運行PageRank前,即先不做統計,數據資料界面、外觀界面、過濾界面是什么樣的。 在數據資料界面中,此實例的節點數據,如下圖所示: 節點數據分為3列,即Id、Label、Interval。 再看外觀設置窗口節點的設置,可以看到只有3種渲染方式:度、連入度、連出度。 再看過濾界面,單擊“濾波”選項卡,切換到濾波界面。選擇“屬性→等于”過濾方式,因為目前沒有值,所以相應的過濾器也沒有出現: 我們來做PageRank統計:單擊“統計”選項卡,切換到統計界面。然后單擊“PageRank”右側的“運行”按鈕,彈出“網頁排名設置”對話框,點擊“確定”后會彈出report框,點擊關閉即可: 我們再去看看采用“PageRank”統計后的數據資料界面、外觀界面、濾波界面的情況。 此時檢查節點數據,發現節點數據增加了一列PageRank,如下圖所示。其中PageRank一列的值,可以簡單理地解為該節點的“重要性”。節點的PageR-ank值越大,代表該節點的重要性越高。該算法應用在網頁排序中,某個網頁的PageRank值越高,則代表該頁面的重要性越高,相應該網頁在搜索結果中應該排在前列。 此時檢查外觀界面中的數值設定,發現在“選擇一種渲染方式”下拉列表中增加了“PageRank”渲染方式,如下圖所示: 此時檢查過濾的“屬性→等于”過濾方式,發現增加了“PageRank”一項過濾屬性,如下圖所示: 通過上面的這個操作過程我們可以理解到,在對一個圖做統計運算后,程序會把生成的值存儲在數據資料里,當數據資料里有這些值后,就可以提供給“外觀”和“過濾”使用,用來對網絡做更多的分析。 3 Gephi常用的統計功能介紹 這里我們只對每個統計項做一個基本解釋,更詳細的內容請參考官網資料及相關的圖知識和算法知識。 3.1 網絡概述 平均度 平均度與加權平均度所統計的值,既有各個節點的,也有網絡總體的。網絡直徑所統計的值,既有各個節點的,也有網絡總體的。 度是節點的屬性,但與邊有關系,沒有邊也就沒有度,一個節點的邊的數量也就是這個節點的度。 平均加權度 平均加權度是在統計節點度時,也考慮邊的權重,平均加權度與平均度的計算方式不同。 網絡直徑 網絡直徑是統計的邊的連接特性,統計網絡直徑后,得出的值一個是網絡整體的,另外幾個分別是介數中心度(Betweenness Centrality)、親密中心度(Closeness Centrality)、離心度(Eccentricity),還有新增的Harmonic Close-ness Centrality。 平均路徑長度 指在一個網絡中,節點的數量除以所有兩個節點最短路徑之和,也可以理解為就是求平均每個最短路徑可以分配到幾個節點。 圖密度 圖密度是實際有的邊數與最大可能邊數之比。 模塊化 模塊化是根據圖的連接關系對節點做歸類,類型相同的節點會增加一個字段,用相同的數字表示。模塊化在社會學中可以用于社區發現。 PageRank PageRank是一種根據網頁之間的鏈接關系對網頁的重要性進行評分的算法。 3.2 節點概述 平均聚類系數 聚類系數是指一個節點一度連接的節點中,實際的邊數與最大邊數之比。 特征向量中心度 特征向量中心度(Eigenvector Centrality)的核心思想是:一個重要的節點不僅與其他許多節點有連接,而且與它相連的節點也是比較重要的節點。 可以把特征向量中心度算法理解成是(無向圖)節點度統計方式的“增強版”。 3.3 邊概述 平均路徑長度 在一個網絡中,兩個節點之間,可能存在多條可連通的路徑,其中最短的路徑也稱作最短路徑,最短路徑的值是最短路徑中邊的個數。平均路徑指的是兩個節點之間的路徑。 4 使用共詞矩陣做Gephi統計實驗 4.1 導入GooSeeker分詞軟件生成的共詞矩陣excel文件 4.2 設置外觀 4.3 設置布局 4.4 設置顯示中文節點名稱 注意:要能顯示出中文標簽名,需要選擇特定的幾種標簽字體。下圖選擇了“宋體”: 4.5 做PageRank統計 4.6 基于PageRank做過濾 做PageRank統計后,基于PageRank范圍做節點過濾 5 總結 以上就是今天學習和實驗的Gephi統計相關的內容,和上一篇過濾的學習類似,今天我們仍然使用了從知乎上采集到的實際的社交媒體數據,經分詞工具做分詞和選詞后生成共詞矩陣,在Gephi中導入共詞矩陣。 從上面的實驗可以看出,增加了統計以后,社會網絡圖上就可以顯示更豐富的內容;而最重要的是,多了更多過濾指標。通過過濾,可以看到重要的節點和邊的關系,這是社會網絡分析的一項重要工作。 在GooSeeker分詞和情感分析軟件上,提供了按照共現次數多少進行過濾的功能,也就是根據邊的權重進行過濾。在此前發布的Jupyter Notebook中,我們又增加了使用MST算法化簡圖的方法,同時,可以利用Python Numpy的統計功能,用協方差、皮爾森相關系數、余弦相似度等度量邊的權重,例如,下面的notebook:
Gephi大大擴展了可以利用的過濾手段。 |