1. 快捷導航

            使用GooSeeker分詞和Gephi進行中文文本分析和社會網絡分析

            2022-10-12 11:12| 發布者: Fuller| 查看: 572| 評論: 0

            摘要: 前面我們發布了多篇Gephi操作方法的文章,今天這篇,我們要把所用的方法串在一起,執行這些步驟:分詞和選詞:在GooSeeker分詞和情感分析軟件上,通過選詞可以大幅度提升準確度;生成共詞矩陣:共詞矩陣就是Gephi需 ...

            1. 本文目的

            前面我們發布了多篇Gephi操作方法的文章,今天這篇,我們要把所用的方法串在一起,執行這些步驟:

            1. 分詞和選詞:在GooSeeker分詞和情感分析軟件上,通過選詞可以大幅度提升準確度
            2. 生成共詞矩陣:共詞矩陣就是Gephi需要的鄰接矩陣。也可以生成匹配矩陣,就是feature matrix,可以做更加精細的統計分析
            3. 在Gephi上設置外觀
            4. 在Gephi上定義統計
            5. 利用定義的統計指標,對圖進行各種各樣的過濾,凸顯有價值的信息。

            此前發布的學習和使用Gephi的過程和心得記錄如下,可以參考:


            很久以前,我們在知乎“學習python網絡爬蟲建設智慧時空數據庫”專欄發布過一篇《利用GooSeeker分詞、Ucient和NetDraw進行社會網絡分析( http://www.laborcompanion.com/doc/article-442-1.html )》,這篇文章講解了怎樣使用集搜客分詞工具提取詞頻統計表,然后在excel里構建共詞矩陣,再將共詞矩陣表導入Ucinet,通過Netdraw繪制微博主題關系圖。

            這幾年GooSeeker分詞工具經過多次功能升級,新增和優化了多項功能,比如生成共詞矩陣,在GooSeeker分詞工具里可以直接生成和導出,不需要按上面這篇文章的步驟先導出一個詞頻表,再在excel里做轉換了。

            相比之下,Gephi提供了對網絡圖進行多種過濾的手段,使研究者能對數據從網絡整體,節點或者邊進行過濾操作,從而幫助分析人員能面對一個更美觀更直觀的網絡圖來進行探索和分析。所以,當前我們更推薦GooSeeker和Gephi配合使用的方案。

            2. 本文適合的讀者和對數據的說明

            在近期這些Gephi學習的文章發布后,有同學留言能否發布一篇新的使用GooSeeker分詞工具和Gephi做中文文本分析和社會網絡分析的文章,在文章中可以重點介紹目前GooSeeker分詞工具最新版有哪些功能,可以導出哪些數據表,怎樣基于這些數據表在Gephi中做進一步觀察和分析。

            作為回應,今天的這篇文章會從步驟上講解怎樣使用目前GooSeeker分詞工具最新版和Gephi做中文文本分析和社會網絡分析。更具體的案例,我們會在后續的其它文章中繼續講解。

            本文所用的數據源自知乎問題《影視編劇談《回村三天,二舅治好了我的精神內耗》刷屏,稱「反映出當下文藝創作空乏懸浮」,如何看待其觀點?》的回答,使用GooSeeker網絡爬蟲工具從知乎網頁上采集并導出excel數據表。

            3. 使用GooSeeker分詞做中文文本分析

            GooSeeker分詞目前的功能包括下圖的幾部分:

            3.1 讀取數據

            導入的excel數據文件,需要有序號和正文這2列,其它的可選。

            3.2 分詞和詞頻統計(自動完成)

            需要說明的是,只要讀取數據成功后,就會自動分詞和做詞頻統計。這時候就可以導出“詞頻統計表”,不需要做選詞等其它操作。

            3.3 人工選詞

            針對不同的數據,不同的研究目標,人工對已經分好的詞做精選處理。這一步的結果用于后面的詞云圖和共詞矩陣的生成。如果后面要做統計分析,選詞一步十分重要,可以確保分析結果準確。在選詞的時候,詞是按照詞頻排序的,所以,從前往后選是合適的,詞頻越高越重要。選詞完成后,在選詞結果那里可以再根據文檔頻率排序,把文檔頻率太低的詞去掉。如果要做統計分析,文檔頻率太低的詞會造成過擬合。

            3.4 生成詞云圖

            3.5 共詞匹配和社會網絡圖

            點擊“共詞矩陣”功能按鈕,待共詞匹配完成后,就可以下載共詞矩陣數據,也可以生成社會網絡圖。

            3.6 同義詞合并

            3.7 導出數據表

            可導出的數據表有:詞頻表,分詞效果表,選詞結果表,選詞匹配表,共詞矩陣表,選詞矩陣表。

            共詞矩陣表可以在Gephi的數據導入界面直接導入后生成網絡圖。

            但是,共詞矩陣中只表示詞是否出現,并沒有考慮一個詞在一個文檔中的出現次數。如果需要考慮進去出現次數,或者先計算TF-IDF,那么應該使用選詞矩陣表自行計算網絡圖的鄰接矩陣。也就是說,選詞矩陣表就是機器學習需要的feature matrix 。選詞矩陣轉置以后乘以自己,就是鄰接矩陣,這在《共詞分析中的共詞關系是怎么得到的?》一文已經講過。

            4. Gephi做社會網絡分析

            用來生成網絡圖的數據,是上面介紹的從GooSeeker分詞工具生成并導出的共詞矩陣“共詞矩陣-知乎-二舅.xlsx”,打開文件查看內容是這樣的:

            4.1 導入共詞矩陣

            4.2 網絡圖外觀設置

            4.3 網絡圖布局

            4.4 網絡圖統計

            4.5 網絡圖過濾及觀察分析

            定義了一些統計指標以后,就能應用到網絡圖的過濾,這樣可以突出觀察一些信息。此前,我們曾經用Jupyter Notebook的方式,共享了一些網絡圖過濾的程序,在python下,最常用的是根據邊權重進行刪減,還有MST算法進行大幅度刪減。而在Gephi中,能找到更多的過濾方法。

            這篇文章介紹了怎樣使用的GooSeeker分詞工具和Gephi做中文文本分析和網絡分析的流程,具體每一步更詳細的介紹,可以參考GooSeeker分詞文檔和Gephi的文檔和學習記錄。

            我們接下來會采集不同的社交媒體數據,使用GooSeeker分詞工具和Gephi做中文文本分析和網絡分析實踐,過程也會記錄下來和大家共享。


            鮮花

            握手

            雷人

            路過

            雞蛋

            最新評論

            GMT+8, 2022-11-23 09:56

            欧美一级午夜福利免费区