建設網絡爬蟲私有云
GooSeeker網絡爬蟲軟件由兩部分組成:
- 網絡爬蟲云服務器
- 網絡爬蟲執行單元
我們比較熟悉的在線版本是免費下載和安裝的MS謀數臺和DS打數機,這兩個軟件屬于網絡爬蟲執行單元。分散在全國各地的成千上萬的用戶安裝和運行執行單元,由公共云服務器統一調度,通常我們不需要關心云服務器,所有在線版用戶共享這個云服務器,負責
- 存儲抓取規則
- 執行用戶鑒權和管理用戶權限
- 管理爬蟲線索和網址
- 調度爬蟲
企業版用戶能夠部署自己完全掌控的私有云服務器,突出的優勢是:
- 上列功能都可以用自己的程序邏輯自動控制,可與企業的IT系統無縫集成
- 私有的云服務器,獨享服務器的處理能力和網絡帶寬
- 定義的抓取規則和使用行為完全保密
另外一個突出優勢是成本優勢:企業版GooSeeker網絡爬蟲采用Site License授權方式,如果部署在一個大型企業,因為網絡爬蟲執行單元的部署數量不受限制,平攤的網絡爬蟲單價就會很低。
高效的分布式、協同化數據采集模式
集搜客GooSeeker用戶無論分布在哪里,都可以享受集搜客網絡爬蟲的服務,在線版用戶可以創立一個工作組,邀請其他在線版用戶加入工作組,為相同的采集目的協同完成數據采集任務。
企業版將這個能力完全開放,可以完全控制和管理分布式和協同化數據采集模式。
- 在企業內部可以劃分成多個工作組
- 工作組可以用后臺管理程序隨時根據工作目標直接創建
- 工作組大小不受限制
- 工作組的劃分和管理完全受控
GooSeeker網絡爬蟲可以由服務器統一調度,企業版可以用定制開發的更周密的負荷分擔算法控制每個網絡爬蟲的運行,而且根據網絡爬蟲的運行狀態合理調配工作量,對于失敗的網絡爬蟲可以及時予以隔離,甚至在其他網管系統的輔助下,監控網絡爬蟲計算機各個層面的運行狀況。
典型案例
某系統集成公司用集搜客GooSeeker網絡爬蟲部署了一套證券數據挖掘系統,幾個機柜裝滿服務器,并且將每個物理服務器劃分成4個虛擬機,每個虛擬機都部署了網絡爬蟲程序,所有爬蟲協同化海量采集數據。為了監控這么多計算機,該公司專門開發了網管系統和爬蟲監控系統。
爬蟲路線規劃能力
集搜客GooSeeker網絡爬蟲沿著線索擴展爬行范圍,而且不限廣度和深度。免費在線版用戶在MS謀數臺的爬蟲路線工作臺上規劃爬蟲路線,主要能力就是:從抓取到的網址上建立下一級線索,這是深度方向,同時抓取到的下級線索不只一個,那么就是在廣度方向進行擴展。
總之,網絡爬蟲抓取網頁數據的時候,把一些網址作為廣度或者深度方向擴展的線索。免費在線版只能在定義抓取規則的時候規劃爬蟲路線;而企業版可以有更多規劃爬蟲路線的選擇。
在抓取結果清洗和入庫的時候在深度和廣度方向生成線索,這是企業版常用的方式,此時,企業版GooSeeker具有最大的靈活性和控制力,比如,可以用入庫腳本程序任意控制爬蟲路線的生成,可以替換URL中的參數,可以根據URL地址規律批量生成網址,可以在一批網址中根據一定規則進行篩選等等。
最大的靈活性在于爬蟲路線的生成時間。當網頁抓取用于探索性研究的時候,可以根據需要隨時延伸爬蟲深度和廣度范圍,不必在第一次數據清洗過程就把所有線索都生成好了,其實那時可能還不知道是否有必要做爬行范圍延展。而且也容易實現同一個網址用于多個抓取主題,分別為不同的研究目的服務。
典型案例
某品牌手機消費者洞察系統中,除了常規的網頁抓取和數據挖掘以外,還需要一些事件驅動的抓取,比如某款手機的發布會效果分析,也需要一些深度數據挖掘,比如消費者群體差異研究。為了配合這些分析研究,往往需要靈活的網絡爬蟲路線規劃,在探索研究過程中,不斷添加新的數據源,要求網絡爬蟲向深度和廣度進行延展的時候具有足夠的靈活性。只有企業版GooSeeker網絡爬蟲才有這個能力。
爬蟲調度和負荷規劃能力
集搜客GooSeeker網絡爬蟲是一款高性能網絡爬蟲軟件,多臺計算機可為同一目標協同工作,同一臺計算機上能運行多個線程并行抓取網頁。那么就需要規劃每個網絡爬蟲線程的工作內容和工作負荷,以及啟動和停止時間等等。
免費在線版GooSeeker網絡爬蟲主要依賴周期性網頁抓取調度文件crontab.xml管理網絡爬蟲,比如,一臺計算機上啟動多少個線程,每個線程在什么時間啟動,每一批包含多少網頁,抓取什么主題,按照什么順序等等。crontab.xml文件是預先生成好的,比如,使用crontab.xml生成器。預先生成的缺點是調度爬蟲不夠靈活,如果爬幾十個網站,這個缺點并不顯著,如果要爬幾百上千個網站,要把所有的網站目標都編制到crontab文件,將是十分繁瑣的。
企業版GooSeeker網絡爬蟲可以接受服務器下發的任務安排,也就是crontab文件中的每個step都可以通過云服務器下發下來,那么在云服務器上可以實現一個復雜的調度和負荷規劃程序,配以爬蟲管理程序,能夠細致地為每個爬蟲安排合適的抓取任務。
極致的開放兼容平臺
為什么需要開放的可集成的網頁抓取軟件
如果網絡爬蟲只是大型IT系統的一個模塊,集搜客GooSeeker網絡爬蟲能否無縫地集成到各種IT系統中?
此類IT系統對網絡爬蟲的需求主要包括:
- IT系統可以控制網絡爬蟲的爬行范圍
- IT系統可以控制網絡爬蟲什么時候啟動,每次抓取的批次大小等
- IT系統需要及時獲得爬取結果,由IT系統負責內容管理、數據挖掘等信息處理過程
- IT系統能夠監控爬蟲的成功率,可及時修正失敗狀態,比如,重新啟動抓取失敗的線索
集搜客網絡爬蟲的開放接口
顯然,一個封閉的網絡爬蟲軟件不能滿足上述需求,而集搜客網絡爬蟲提供標準的開放的API接口,也可以直接從數據庫層面進行對接,完美解決無縫集成問題。
典型案例
已有近百家大型企事業單位的IT系統集成了集搜客網絡爬蟲,以及配套的數據清洗和數據集成軟件模塊,這得益于集搜客網絡爬蟲獨特的開放的設計思想和軟件架構,更詳細信息參看集搜客網絡爬蟲功能列表。將這些能力打包成開放的軟件模塊,集成到各類IT軟件系統中,IT系統根據自己的業務目標,可以自動調度和管理網絡爬蟲,典型案例有:
- 中國進出口銀行項目:集搜客網絡爬蟲負責抓取中文財經、金融、證券和經濟報告類網站內容,而爬行范圍、時間安排和其它管理指令是由整個IT系統的其他軟件模塊發出。
- 某電商競爭分析項目:集搜客網絡爬蟲負責從國內所有主流電商網站上獲取商品、品牌、價格、庫存、貨架、品類、以及促銷信息,爬蟲調度、數據匯聚等操作指令的下發都由整個情報分析系統負責。
- 某手機消費者洞察項目:集搜客網絡爬蟲從電商、論壇、社交媒體、微博、問答等等主流自媒體網站上抓取用戶評論和各種互動產生的內容,經過數據清洗處理,交給數據挖掘系統進行分析
- 某上市公司的母嬰產品導購平臺項目:集搜客網絡爬蟲實時監視天貓、淘寶、京東和各主流電商的商品、貨架、店鋪變化情況,及時通知導購平臺,例如,某導購攻略提及的商品下架了或者價格變化了,要實時根據通知進行調整