可視化免編程
web如同一個大型的大數據庫,其中包含各種各樣有價值的信息,當您需要把某些特定信息采集下來,卻往往可能面臨這樣的困境:
- 沒有系統學過Python、Ruby、PHP、Perl、Javascript、java這些編程語言,通過寫代碼實現數據采集難度太大。
- 網絡爬蟲、網頁抓取軟件雖然很多,但學習難度大,初學者難以上手。
集搜客GooSeeker與“技術小白”共同成長。秉承此宗旨,集搜客GooSeeker抓取軟件操作簡單,完全可視化操作,無需編程基礎,熟悉電腦操作即可輕松掌握:
- 當定義采集規則時,用鼠標點選的方式,告知集搜客軟件哪些是要抓取的內容,系統會即刻自動生成抓取規則,網絡爬蟲的工作流程序會根據網頁特征自動適配,連拖曳和編輯采集流操作都是多余的;
- 當程序進行采集時,集搜客高仿真模擬真人操作,可以實現自動登錄、輸入查詢條件、點擊鏈接、點擊按鈕等,還能自動移動鼠標,自動改變焦點,避過機器人判斷程序;
整個采集過程所見即所得,遍歷的鏈接信息、抓取結果信息、錯誤信息等都會及時地反映在軟件界面中。讓您整個操作清晰明了,帶著輕松的心情完成自己的任務。
模板資源套用
集搜客GooSeeker的模板資源套用特性,讓您輕松快捷地獲得數據。
在集搜客資源庫中,分門別類存放著抓取規則,既可通過關鍵詞也可通過目標網頁網址搜索到可用的抓取規則。在抓取規則的詳情頁面,您可以仔細考察一個規則的抓取結果是否滿足您的需要,如果滿足,只需點擊“下載”按鈕,即可在會員中心一鍵啟動集搜客網絡爬蟲,抓取到你想要的數據。比如:
- 電商網站上價格、評論的抓取規則
- B2B網站上的聯系人、聯系電話的抓取規則
- 微博上的消息、話題、興趣、活動等網頁內容的抓取規則
省卻自己定義抓取規則的麻煩,像直接套用網頁模板一樣使用發布出來的規則。對于初學者或者業務目標導向的用戶,模板資源套用是一條捷徑。
通用網絡爬蟲
集搜客GooSeeker網絡爬蟲與其它網絡爬蟲相比,在易用性方面已經遠遠勝出,加上一鍵啟動網絡爬蟲這個獨特性功能和整個[資源共享平臺]的支撐,已經大大降低了對用戶的技術基礎條件的要求。然而,網頁抓取畢竟是一個技術工作,需要適當掌握HTML等基礎知識。也就是說需要花費一些時間學習這個軟件的使用方法。既然已經有所投入(即便是時間上的),那么網絡爬蟲的通用性高低顯得十分重要。
集搜客網絡爬蟲歷經8年行業歷練,采用功能強大的火狐瀏覽器內核,所見即所得。很多動態內容并不在HTML文檔中出現,而是動態加載,都不影響精確抓取他們,而且不用網絡嗅探器從底層分析網絡通信消息,與抓取靜態網頁一樣可視化定義抓取規則。再加上開發者接口,能夠模擬十分復雜的鼠標和鍵盤動作,一邊動作一邊抓取。
抓取范圍可以歸納成如下幾類:
- 各種網站類型:新聞、論壇、電商、社交網站、行業資訊、金融網站、企業門戶、政府網站等各種網站都可抓??;
- 各種網頁類型:服務器側動態頁面、瀏覽器側動態頁面(AJAX內容)、靜態頁面都可抓取,甚至可以抓取沒有終點的瀑布流頁面、web qq的會話過程等。集搜客爬蟲在默認狀態下就可抓取AJAX/Javascript動態頁面、服務器動態網頁等動態頁面,無需其他設置;甚至還可以自動滾屏抓取動態加載的內容。
- 與PC網站一樣,手機網站均可抓?。?爬蟲可模擬移動端agent;
- 所有語言文字:不用特殊設置,自動支持所有語言編碼,國際語言一視同仁;
可見,使用集搜客網絡爬蟲,整個互聯網成為你的數據庫!
會員互助抓取
這是爬蟲群并行抓取的一種特殊情形,利用這個功能,您可以低成本快速匯集海量數據。場景描述如下:
- 當你要大批量快速或者頻繁地抓取數據時,從數據量方面考察,需要多臺電腦,您自己的電腦不夠用
- 時間緊張,從而采集活動密度很高,比如,一秒鐘內從微博上采集很多條消息,只用您自己的電腦,很容易被目標網站封鎖
- 目標網站對采集量有嚴格限制,比如,抓取機票價格
- 需要登錄以后才能抓取,您需要大量賬號同時登錄。
那么,您可以創建一個工作組,并邀請網友加入,為了得到更多會員的響應,您可以發“紅包”,接受任務的社友就會用他的的電腦幫你分擔采集數據。在社區中別人會幫你采集數據,當然你也可以幫助社友抓取數據,賺取更多的積分,后面有任務時再把積分懸賞發給社友。
使用過程中要注意:
- 發布:可在社區圈中發布,發布時選擇懸賞類型、懸賞積分數、時間限制,懸賞發布后不可刪除、編輯。
- 回復:指對懸賞任務進行回復、解答幫助
不限深度不限廣度
從網站上采集數據,尤其采集大型網站時,被采集的數據往往位于網站的不同層級的網頁上,大大增加了網絡爬蟲采集數據的難度。百度或者google這樣的綜合網絡爬蟲,能夠自動管理爬行的深度和廣度。我們這里討論的是聚焦網絡爬蟲,希望能夠以盡量低的成本獲得數據,而且希望只獲取需要的網頁內容。所謂聚焦,主要包含兩方面:
- 所抓取的網頁(無論深度還是廣度)都是預先規劃好的,不像綜合網絡爬蟲那樣自動去發現向深度和廣度發展的新線索??梢?,在受控范圍內爬行必然會降低成本。
- 從網頁上抓取的內容也是預先定義好的,這就是所謂的抓取規則。不像綜合網絡爬蟲那樣把整個網頁文本內容都抓下來??梢?,精確抓取可用于數據挖掘和情報分析,因為噪音已被精確地過濾掉了。
集搜客GooSeeker就是這樣的聚焦網絡爬蟲,但是跟其他市面上的采集器不同:
- 集搜客對網站深度和廣度不設限,任由您規劃。集搜客要做純粹的大數據能力開放平臺,不會用收費版本方式把這個能力藏起來。
- 集搜客對采集數量不設限,不會根據時間或者根據網頁數量扣取積分或者費用,您把整個互聯網下載下來都行。
什么是網站深度和廣度
在網站的信息架構中,有一種組織結構叫做樹形結構:網站首頁視為鏈接層級中第一級,與其有從屬關系的頁面視為鏈接層級中的第二級,一般稱其為二級頁面。通過二級頁面又可以繼續得到第三級頁面,依此類推可以得到一個完整的樹形鏈接結構。這樣一個完整的鏈接結構,如圖1所示。
在整個樹形結構中,鏈接的層數被稱為網頁鏈接的【深度】(depth)。而在樹形結構里,每層頁面包含的頁面總數被稱為網頁鏈接的【廣度】(breadth)[1]。因此,圖1中樹形結構深度3,樹形結構第三層的廣度為5.
抓取指數圖表
進入大數據時代,互聯網不再局限于發布文字內容和提供關鍵詞搜索。越來越多的數據經過統計、分析、挖掘,并用可視化圖表展示出來,比如,
- 百度指數
- 百度司南
- 淘寶指數
- 如果您運營一個網站,一般會采用某個網站分析(Web Analytics)工具,通常在這個工具上看到的是用圖表展示的經營指標
- 如果您經營一個網店,比如,淘寶店鋪,一般會用電商平臺提供的經營工具和營銷工具等,也會看到很多圖表內容。
還有眾多垂直領域的指數圖表網站,他們對數據進行深度挖掘加工以后展示出來。那么從網頁上抓取數據不再局限于文本內容,如果能夠直接從圖表上抓取數字將有更大價值,原因如下:
- 對于網絡資訊,圖表顯示了文章最核心的結論信息,如果放棄圖表信息,就會損失掉這種重要信息點;
- 對于經營分析工具,雖然可以在線看圖表,如果您經營多個店鋪想看綜合經營指標,或者您想將重要的經營數據存入自己的數據中心,那么就得想辦法把需要的數據抓取下來。
集搜客網絡爬蟲具有強大的圖表數據抓取能力,而且提供一個開發者擴展接口,允許技術基礎高的用戶用Javascript自定義更高級的網絡爬蟲動作,比如
- 驅動鼠標在圖表上移動,抓取懸停后顯示的數據
- 模擬人的連續的鼠標點擊動作
- 連續地輸入查詢條件
總之,集搜客GooSeeker網絡爬蟲不僅能抓取文本數據、圖片、表格,還能模擬鼠標動作,抓取在指數圖表上懸浮顯示的數據,無論是新聞資訊圖表、電商網站上的產品介紹圖片、電商經營分析數據還是指數走勢圖,只要使用集搜客軟件就能抓取到完整的圖表信息,讓整個互聯網成為您的數據資源庫。
本地化存儲保護隱私
在互聯網時代,用戶的隱私安全越來越受到人們重視,而集搜客GooSeeker的本地化存儲機制,能充分保護用戶隱私安全。體現在多方面:
- 集搜客把所有采集結果數據直接存儲在用戶個人電腦上(如圖1所示),便于用戶對采集結果數據做各種處理。
- 如果被采集的目標網站需要登錄,用戶可以先行用火狐登錄目標網站在運行集搜客網絡爬蟲,個人隱私由火狐的SecurityManager管理,任何程序無法獲知賬號和密碼,充分保證用戶的個人隱私的安全。
- 集搜客把采集任務放在用戶個人電腦上運行,用戶的采集數據行為別人是看不到的,所以,無論結果還是過程都得到了充分保護。同時本地運行采集任務也保證了高速、穩定和可靠。
相反,如圖2所示,其他云采集方案要求用戶必須把賬號和密碼先存儲在大家都共享的云數據庫,讓云端的網絡爬蟲自動登錄后執行采集,大大增加用戶賬戶泄露的可能性,同時,云采集數據必需經過云服務器再到用戶個人電腦,增加用戶采集行為和結果數據被暴露的可能。
自動登錄驗證碼識別
在采集網站數據的時候,需要輸入驗證碼的情形很多
- 登錄時需要輸入驗證碼
- 采集過程中在不確定的時間要求輸入驗證碼
- 翻頁采集微博消息,翻頁數量達到一定數字后,出現驗證碼
- 采集電商評論或者成交記錄數據時,翻頁數量達到一定數量后,出現驗證碼
- 采集機票信息更容易出現驗證碼
通常驗證碼是為了阻止自動化程序過于頻繁訪問一個網站,所以,出現的驗證碼可能會很難辨認,連人眼辨認都很困難,自動程序識別驗證碼就更困難了。
在數據采集過程中,如果不能及時輸入驗證碼,或者輸入了錯誤的驗證碼,就會致使網頁無法顯示,數據抓取也會中斷,這也加大了自動化持續采集數據的難度。集搜客GooSeeker網絡爬蟲從多個方面應對驗證碼:
- 可以設置爬行速度,不要過于頻繁訪問某個網站;
- 具有自動登錄功能,只需要設置相關參數,就可以控制集搜客網絡爬蟲定期自動登錄相應的賬號;
- 定期切換登錄賬號,可以有效地減少賬號封鎖的風險;
- 采用集搜客特有的 集搜功能、會員互助抓取能力和爬蟲群并行抓取,做到采集流量分散,甚至可以定期更換IP地址和清空cookie;
一旦遇到驗證碼、或者在自動登錄時必須輸入驗證碼的情形,集搜客GooSeeker網絡爬蟲與互聯網打碼平臺對接,實時完成驗證碼輸入。因為打碼平臺聚合了海量的打碼人群,既能滿足實時性要求,又能達到自動識別無法實現的精度。有效防止數據抓取中斷,無需人工看管。
定時自啟動采集
集搜客GooSeeker網頁抓取軟件可以設置定時自動采集,完全無需人工干預,自動采集最新數據,自動實現持續增量數據采集。比如
- 持續抓取論壇上的新發帖子;
- 持續抓取微博、twitter或者其它社交網站用戶討論。
- 持續跟蹤在線商城的商品價格、用戶評論、成交記錄;
- 在一個產品發布會前后,持續跟蹤新聞的跟評,研究營銷效果、用戶對廣告的態度、用戶對品牌的態度
- 輿情監測需要實時自動抓取最新消息,才能掌握群眾思想動態,做出正確輿論引導,提供分析依據。
- 商品比價需按照計劃自動抓取商品價格,做出比較分析。
上圖是手機消費者洞察系統中的一個截圖,為了研究消費者品牌認知和態度,需要從互聯網上采集所有用戶評論信息,而且每天定時自動啟動網絡爬蟲運行多次,把最新內容增量采集下來。
爬蟲群并行抓取
想要A網站、B網站、C網站……等等多個網站一起采集怎么辦?
- 集搜客(GooSeeker)可以讓您在一臺機器上同時運行多個網絡爬蟲任務,并行抓??;
- 也可以讓您在多臺電腦上并行運行多個任務,即可以抓取相同網站,也可以抓取不同網站。
多個任務,快速采集,高效作業,讓您的工作變得輕松愉快。
大數據時代,就是海量信息時代,我們有時候需要的數據量非常多,然而受到個人電腦的性能和網速的限制,數據獲取者常常在數據獲取方面耗費大量的時間和精力。所以當您的采集任務過于繁重時,您可以借助您的小伙伴的電腦,讓多臺電腦同時為您的采集任務服務,如果您一時沒辦法找到足夠的幫助資源,可以來我們的社區,向其他小伙伴尋求幫助;集搜客的并行抓取功能,一方面可以幫助個人解決效率低下的問題,另一方面也促進社區閑散資源的整合利用;所以請加入我們的集搜客社區,快速尋求支援,既可以將自己的閑散資源進行有效的商業轉化,也是增進收入的另一種選擇。
一鍵“集搜”啟動多爬蟲抓取數據
對于百萬、千萬甚至更大的的網頁抓取量,可選擇分布式采集的方式,把采集任務分配到多臺電腦上執行,這需要在集搜客會員中心創建工作組,啟動會員互助抓取。但如果抓取量不那么大,或者即便啟動多機并行抓取,也希望在一臺計算機上并行運行多個爬蟲程序,從而充分利用計算機的能力,這就可以用到集搜客新增的“集搜”功能。
“集搜”功能能夠支持同一臺電腦手工啟動并行運行多個爬蟲窗口,無需編程,只需在DS打數機的操作界面的抓取規則列表上點擊“集搜”按鈕,就能為該規則啟動一個爬蟲窗口。如果列表一共羅列了20個抓取規則,則可以同時運行20個爬蟲窗口。
集搜客網絡爬蟲還可以 自動啟動定時抓取任務,同樣也可以啟動多個并行抓取窗口,達到相同的目的。但是,集搜功能是一鍵點擊手工啟動的,免除編寫自啟動指令文件,更加便捷。
相對于其它網頁抓取軟件提供的云采集服務,雖然云采集號稱并行利用云中的眾多服務器,理論上能夠達到同樣的目的,但是在云中運行的任務無法實時掌控他們的運行狀態,假設需要實時比價或者負面口碑或者危機跟蹤,時間過去了才發現沒有抓全,再補救就來不及了。另外,云資源需要排隊等待,時間不可控,無法用于時效性要求高的場合,當然,云資源付費使用也是不得不面對的問題。
手機網站數據抓取
爬蟲不僅可以抓取PC網站上的數據,還可以抓取手機網站上的數據。移動互聯網強勢崛起后,人們通過手機訪問互聯網的頻率越來越高,同一個目標網站,移動端和PC端顯示的內容是不一樣的,有區別的場景舉例如下:
- 有些網站采用相同網址,但是用PC訪問和用手機訪問看到的內容會不一樣
- 有些電商網站的商品的價格移動端比PC端低,要監測產品的價格必須同時監測移動端的價格。同樣,手機上看到的促銷活動和貨架貨品內容都可能不一樣。
使用GooSeeker采集手機網站數據和采用PC網站數據同樣簡單, 可視化定義抓取規則的過程完全一樣。
為了告知目標網站目前使用手機端(模擬的),需要設置agent類型,從而網絡爬蟲使用指定類型的agent訪問網站,使PC端看到移動端的網頁內容。這樣就能用同一個集搜客網頁抓取程序獲得手機站內容。
(請注意:這個功能并不涉及手機APP的內容抓取,抓取的內容仍然來自于網頁,是適合手機屏幕大小網頁。)