1. 快捷導航
            本帖最后由 HJLing 于 2017-1-6 16:23 編輯

            知乎數據采集攻略如下(綠框是頁面名稱,橙色字體是采集結果表中的網址字段或瀏覽器地址欄復制的網址):

            1、采集“知乎_關鍵詞搜索結果列表_內容
            方法:

            從“知乎_關鍵詞搜索結果列表_內容”展開采集更多頁面信息

            方法:從“知乎_關鍵詞搜索結果列表_內容”的數據表中,把“詳情鏈接”這列的網址拷貝出來,然后點擊“知乎_獨立問題所有回復采集”的“輸入多條網址”按鈕,粘貼網址,就可以用后者實現批量數據采集。其它頁面類似。
            注意:用戶主頁鏈接需要自己在excel中拼上前面的域名“https://www.zhihu.com”才能作為線索添加。


            2、采集“知乎_關鍵詞搜索結果列表_話題
            方法:


            3、從“知乎_獨立話題首頁”展開采集更多頁面信息

            方法:從“知乎_獨立話題首頁”的數據表中,把“話題動態鏈接”這列的網址拷貝出來,然后點擊“知乎_獨立話題動態內容采集”的“輸入多條網址”按鈕,粘貼網址,就可以用后者實現批量數據采集。其它頁面類似。


            4、從“知乎_獨立話題動態內容采集”展開采集更多頁面信息

            方法:從“知乎_獨立話題動態內容采集”的數據表中,把“精華鏈接”這列的網址拷貝出來,然后點擊“知乎_獨立話題精華內容采集”的“輸入多條網址”按鈕,粘貼網址,就可以用后者實現批量數據采集。其它頁面類似。
            注意:用戶主頁鏈接需要自己在excel中拼上前面的域名“https://www.zhihu.com”才能作為線索添加。


            5、從“知乎_獨立話題精華內容采集”展開采集更多頁面信息

            方法:從“知乎_獨立話題精華內容采集”的數據表中,把“精華鏈接”這列的網址拷貝出來,然后點擊“知乎_獨立話題動態內容采集”的“輸入多條網址”按鈕,粘貼網址,就可以用后者實現批量數據采集。其它頁面類似。
            注意:用戶主頁鏈接需要自己在excel中拼上前面的域名“https://www.zhihu.com”才能作為線索添加。


            6、從“知乎_獨立話題等待回答采集”展開采集更多頁面信息

            方法:從“知乎_獨立話題等待回答采集”的數據表中,把“精華鏈接”這列的網址拷貝出來,然后點擊“知乎_獨立話題動態內容采集”的“輸入多條網址”按鈕,粘貼網址,就可以用后者實現批量數據采集。其它頁面類似。


            7、從“知乎_用戶詳情資料采集”展開采集更多頁面信息

            方法:從“知乎_用戶詳情資料采集”的數據表中,把“他關注的人的鏈接”這列的網址拷貝出來,然后點擊“知乎_他關注的人列表采集”的“輸入多條網址”按鈕,粘貼網址,就可以用后者實現批量數據采集。其它頁面類似。


            【附注】
            數據DIY上可以找到很多網站下不同頁面的采集入口,只要與樣例網址是相同級別的網頁,就可以用該頁面的采集入口采集數據。因此,如果從數據DIY某個頁面采集到網址,那么就可以找到該網址對應頁面的采集入口,把批量網址添加進去,這也是數據DIY的出發點,讓用戶可以組合任意頁面進行批量采集。

            本帖子中包含更多資源

            您需要 登錄 才可以下載或查看,沒有帳號?立即注冊

            x
            舉報 使用道具
            | 回復

            共 0 個關于本帖的回復 最后回復于 2022-5-3 10:26

            您需要登錄后才可以回帖 登錄 | 立即注冊

            精彩推薦

            • 對共詞關系求協方差矩陣后再用Girvan-Newma
            • 社區發現算法Girvan-Newman(GN)是否能應用
            • 使用GooSeeker分詞和Gephi進行中文文本分析
            • Gephi社會網絡分析-網絡圖的統計
            • 范文:亞運短視頻對杭州城市形象的建構研究

            熱門用戶

            GMT+8, 2022-11-23 11:05

            欧美一级午夜福利免费区