海量規則模板,免去做規則煩惱。 如果你不會做規則但又非常想直接抓取數據,可以到集搜客的資源庫直接下載規則模板,直接抓取數據。 集搜客的資源庫擁有大量成熟的規則模板,提供微信、微博、電商、新聞、論壇、行業等多種網站的采集規則模板,可以滿足大多數人的數據需求。 如何下載、運行規則? 1. 下載安裝集搜客數據管家(增強版網絡爬蟲) 下載安裝過程見《下載安裝Gooseeker數據管家》。 2. 打開集搜客官網 在數據管家打開集搜客官網 http://www.laborcompanion.com/index.html,檢查爬蟲和數據管家是否登陸,服務器是否連接。如果服務器沒有連接,重新登陸爬蟲,重選服務器 http://www.laborcompanion.com 3. 進入規則市場,瀏覽查找規則 在官網首頁,選擇 服務-規則市場 4. 下載規則 比如想要下載B站視頻搜索列表_教程,在規則市場選中它,進入這個規則的下載頁面。點擊下載。注意下載之前,仔細閱讀規則介紹,了解這個規則是否需要提前在數據管家登陸待采集網站,是否需要和其它規則合用等等。 點擊下載后,出現如下提示: 5. 采集數據 如果選擇“查看下載規則”,會轉到任務管理頁面,按啟動采集的方式二采集數據。 如果選擇“現在運行”,彈出對話框: 對于我們下載的B站視頻搜索列表_教程,目前只有一個待采集網址,所以網址數量是1,這個列表有很多頁,不限制翻頁次數,就會翻到底,把所有的頁都采集到。我們為了早點看到采集結果,限制了翻頁次數,只采集3頁。 點擊確定。系統自動彈出采集窗口,開始采集數據。 采集完成后,按提示點擊導出excel 系統會自動跳到這個規則的任務管理窗口,點擊導出數據。
下載的數據是一個ZIP包,保存在電腦的下載文件夾。 雙擊這個ZIP數據包,會自解壓,得到excel文件。數據截圖: 6. 給規則批量添加線索,批量采集數據 我們下載了規則,可不只是為了采集樣本頁面的數據。和樣本頁面類似的網頁的數據都可以采集。把相應的網頁鏈接添加到這個規則中就可以了。 比如,這個規則的樣本頁面是在B站搜索“王者榮耀“的搜索列表頁面 樣本頁面: 類似的網頁: 把這個鏈接添加到規則中,可以采集這個列表頁的數據。 總之,下載了規則后,就可以把這個規則當成自己的規則一樣使用,添加要采集的網頁鏈接,運行它,采集數據。 |