1. 快捷導航

            Gephi社會網絡分析-網絡圖的統計

            2022-9-22 09:38| 發布者: Fuller| 查看: 896| 評論: 0

            摘要: 本文參考Gephi官網的內容,繼續學習Gephi網絡圖的統計。為了使過濾操作有數據支撐,統計就是針對圖的整體或者節點或者邊的一些統計指標的運算,這些統計值有助于更好的觀察和分析網絡 ...

            在上一篇《Gephi社會網絡分析-網絡圖的過濾器(濾波)》中,我們使用從知乎上采集到的實際的社交媒體數據,經GooSeeker分詞工具做分詞和選詞后生成共詞矩陣,在Gephi中導入共詞矩陣,在此基礎上學習和討論了Gephi網絡圖過濾的概念和實際操作演練。

            本文參考Gephi官網的內容,繼續學習Gephi網絡圖的統計。其實,上一篇為了使過濾操作有數據支撐,我們已經使用了一個統計操作。簡單理解,統計就是針對圖的整體或者節點或者邊的一些統計指標的運算,這些統計值有助于更好的觀察和分析網絡。

            我們之前在Jupyter Notebook中做過很多各種算法的實踐,各種度的計算,這些和Gephi的統計有些是交叉或者有關聯的,想詳細了解這些算法的實踐過程的朋友,可以直接下載這些Notebook后做運行和觀察,下面列舉其中幾篇:

            今天我們將繼續使用從知乎上采集的“二舅”相關的話題作為我們實驗的數據源,將采集結果數據導入GooSeeker文本分詞軟件,經過選詞后生成共詞矩陣,以excel的形式導出。有關怎樣在Gephi導入不同形式的數據,請參考這篇文章《Gephi社會網絡分析數據的批量生成和導入》。

            1 什么是Gephi的統計

            Gephi提供多種統計(Statistics)方法用于網絡分析。

            Gephi統計分為網絡概述、社>**(不當用詞)現、節點概述、邊概述、動態這5部分。由節點和邊組成的圖,主要的研究對象是節點和邊,包括圖中的節點有什么特性、邊有什么特性、節點能組成什么特性、邊能組合出什么特性,以及從整體上觀察,節點與邊的不同使圖有什么不同。

            常用的有下面這些統計:

            • 研究節點的度:度、加權度、PageRank、聚類系數、特征向量中心度、模塊化。
            • 研究邊的連接性:網絡直徑、連接組件。
            • 研究圖的整體特性:平均度、平均加權度、圖密度、平均路徑長度。
            • 研究聚類特性:模塊化。

            2  Gephi統計(Statistics)的基本過程

            2.1 統計操作界面

            統計與外觀、布局、過濾相比,在操作界面以及設置方面相對比較簡單。

            統計中的統計項目分為網絡概述、社>**(不當用詞)現、節點概述、邊概述、動態5個部分,如上圖所示。

            統計界面的左上角有一個“設置”按鈕,統計的設置與運算無關。單擊“設置”按鈕,可以選擇自己需要使用的統計方式。

            2.2 統計的運行方式

            每個統計的使用方式都是相同的,就是單擊統計方式右側的“運行”按鈕:

            2.3 統計運行后帶來的變化

            統計與外觀關系緊密相關,與過濾存在關系,與數據資料界面中的數據也存在關系。

            我們下面做簡單網絡圖的一個PageRank統計,看看統計的運行對數據,過濾,外觀有什么影響。

            PageRank是網絡節點重要性計算的一種算法,是搜索引擎(如百度、Google)用來計算網頁排名的最核心的算法。

            先來看一下在未運行PageRank前,即先不做統計,數據資料界面、外觀界面、過濾界面是什么樣的。

            在數據資料界面中,此實例的節點數據,如下圖所示:

            節點數據分為3列,即Id、Label、Interval。

            再看外觀設置窗口節點的設置,可以看到只有3種渲染方式:度、連入度、連出度。

            再看過濾界面,單擊“濾波”選項卡,切換到濾波界面。選擇“屬性→等于”過濾方式,因為目前沒有值,所以相應的過濾器也沒有出現:

            我們來做PageRank統計:單擊“統計”選項卡,切換到統計界面。然后單擊“PageRank”右側的“運行”按鈕,彈出“網頁排名設置”對話框,點擊“確定”后會彈出report框,點擊關閉即可:

            我們再去看看采用“PageRank”統計后的數據資料界面、外觀界面、濾波界面的情況。

            此時檢查節點數據,發現節點數據增加了一列PageRank,如下圖所示。其中PageRank一列的值,可以簡單理地解為該節點的“重要性”。節點的PageR-ank值越大,代表該節點的重要性越高。該算法應用在網頁排序中,某個網頁的PageRank值越高,則代表該頁面的重要性越高,相應該網頁在搜索結果中應該排在前列。

            此時檢查外觀界面中的數值設定,發現在“選擇一種渲染方式”下拉列表中增加了“PageRank”渲染方式,如下圖所示:

            此時檢查過濾的“屬性→等于”過濾方式,發現增加了“PageRank”一項過濾屬性,如下圖所示:

            通過上面的這個操作過程我們可以理解到,在對一個圖做統計運算后,程序會把生成的值存儲在數據資料里,當數據資料里有這些值后,就可以提供給“外觀”和“過濾”使用,用來對網絡做更多的分析。

            3 Gephi常用的統計功能介紹

            這里我們只對每個統計項做一個基本解釋,更詳細的內容請參考官網資料及相關的圖知識和算法知識。

            3.1 網絡概述

            平均度

            平均度與加權平均度所統計的值,既有各個節點的,也有網絡總體的。網絡直徑所統計的值,既有各個節點的,也有網絡總體的。

            度是節點的屬性,但與邊有關系,沒有邊也就沒有度,一個節點的邊的數量也就是這個節點的度。

            平均加權度

            平均加權度是在統計節點度時,也考慮邊的權重,平均加權度與平均度的計算方式不同。

            網絡直徑

            網絡直徑是統計的邊的連接特性,統計網絡直徑后,得出的值一個是網絡整體的,另外幾個分別是介數中心度(Betweenness Centrality)、親密中心度(Closeness Centrality)、離心度(Eccentricity),還有新增的Harmonic Close-ness Centrality。

            平均路徑長度

            指在一個網絡中,節點的數量除以所有兩個節點最短路徑之和,也可以理解為就是求平均每個最短路徑可以分配到幾個節點。

            圖密度

            圖密度是實際有的邊數與最大可能邊數之比。

            模塊化

            模塊化是根據圖的連接關系對節點做歸類,類型相同的節點會增加一個字段,用相同的數字表示。模塊化在社會學中可以用于社區發現。

            PageRank

            PageRank是一種根據網頁之間的鏈接關系對網頁的重要性進行評分的算法。

            3.2 節點概述

            平均聚類系數

            聚類系數是指一個節點一度連接的節點中,實際的邊數與最大邊數之比。

            特征向量中心度

            特征向量中心度(Eigenvector Centrality)的核心思想是:一個重要的節點不僅與其他許多節點有連接,而且與它相連的節點也是比較重要的節點。

            可以把特征向量中心度算法理解成是(無向圖)節點度統計方式的“增強版”。

            3.3 邊概述

            平均路徑長度

            在一個網絡中,兩個節點之間,可能存在多條可連通的路徑,其中最短的路徑也稱作最短路徑,最短路徑的值是最短路徑中邊的個數。平均路徑指的是兩個節點之間的路徑。

            4 使用共詞矩陣做Gephi統計實驗

            4.1 導入GooSeeker分詞軟件生成的共詞矩陣excel文件

            4.2 設置外觀

            4.3 設置布局

             

            4.4 設置顯示中文節點名稱

            注意:要能顯示出中文標簽名,需要選擇特定的幾種標簽字體。下圖選擇了“宋體”:

            4.5 做PageRank統計

            4.6 基于PageRank做過濾

            做PageRank統計后,基于PageRank范圍做節點過濾

            5 總結

            以上就是今天學習和實驗的Gephi統計相關的內容,和上一篇過濾的學習類似,今天我們仍然使用了從知乎上采集到的實際的社交媒體數據,經分詞工具做分詞和選詞后生成共詞矩陣,在Gephi中導入共詞矩陣。

            從上面的實驗可以看出,增加了統計以后,社會網絡圖上就可以顯示更豐富的內容;而最重要的是,多了更多過濾指標。通過過濾,可以看到重要的節點和邊的關系,這是社會網絡分析的一項重要工作。

            在GooSeeker分詞和情感分析軟件上,提供了按照共現次數多少進行過濾的功能,也就是根據邊的權重進行過濾。在此前發布的Jupyter Notebook中,我們又增加了使用MST算法化簡圖的方法,同時,可以利用Python Numpy的統計功能,用協方差、皮爾森相關系數、余弦相似度等度量邊的權重,例如,下面的notebook:

            Gephi大大擴展了可以利用的過濾手段。


            鮮花
            1

            握手

            雷人

            路過

            雞蛋

            剛表態過的朋友 (1 人)

            最新評論

            GMT+8, 2022-11-23 09:58

            欧美一级午夜福利免费区