集搜客GooSeeker網頁抓取套件
MS謀數(臺)—— MetaStudio:抓取規則定義軟件
DS打數(機)—— DataScraper:執行網頁抓取的網絡爬蟲
MC數滿倉—— MetaCorpora:抓取結果入庫清洗軟件
謀定而后打,必定大數據滿倉
規格 | 詳細說明 | 費用 |
---|---|---|
集搜客GooSeeker抓取軟件的組件 | ||
MS謀數臺 | 指定抓取內容,定義抓取結果存放結構,自動生成抓取規則 | √免費 |
DS打數機 | 是網絡爬蟲軟件,使用抓取規則,把網頁數據抓取下來,存成結構化的XML結果文件 | √免費 |
集搜客GooSeeker抓取軟件的功能 | ||
集成化圖形界面 | 包括網頁結構窗口、工作臺、顯示窗口等子窗口。選取被抓取內容時,三個子窗口聯動,并顯示HTML節點的重要屬性 | √免費 |
抓取規則自動生成 | 指定抓取內容,定義抓取結果存放結構(整理箱),然后將網頁內容分別映射給整理箱中的抓取內容,MS謀數臺即可自動生成抓取規則 | √免費 |
抓取規則即時驗證 | 點擊界面上的按鈕,可即時驗證抓取規則的有效性,若達不到預期,可立即進行修改,不用等到DS打數機實際抓取時才驗證,大大提高工作效率 | √免費 |
直觀驗證以前定義的抓取規則是否有效 | 網頁結構變化會導致以前定義的抓取規則失效,不用人工閱讀抓取規則指令,只需加載以前的抓取規則,MS謀數臺會自動加載樣本網頁,并驗證抓取規則的有效性,如果哪個抓取內容無法定位,則會在輸出信息中提示錯誤原因 | √免費 |
所見即所得地修改以前定義的抓取規則 | 在驗證抓取規則有效性后,如果哪個抓取內容無法定位,則重新對這個抓取內容做映射操作,即可生成新抓取規則 | √免費 |
對網頁編程技術透明 | 集搜客GooSeeker用戶不用關心目標網站和網頁采用的編程技術,顯示在網頁上的內容通常都可抓取,包括AJAX即時生成的動態內容 | √免費 |
原始網頁內容糾錯 | 網頁的發布者在寫網頁的時候可能存在語法和詞法錯誤,只要是火狐瀏覽器能打開的,都能定義抓取規則并進行抓取 | √免費 |
對網頁編碼透明 | 所有編碼格式不加區別,用戶不必操心網頁具體的編碼,只要是合法的能夠被火狐瀏覽器解析和顯示的網頁都用統一的方法定義抓取規則和進行抓取 | √免費 |
抓取服務器側動態網頁 | 服務器側網頁可以采用各種動態技術,比如,ASP,JSP,PHP,CGI等等,集搜客GooSeeker不加區別,都用統一的方法定義抓取規則并進行抓取 | √免費 |
JS實現的動態網頁 | 集搜客GooSeeker提供一系列手段,確保JS動態網頁內容抓取的正確性和完整性,而且網頁抓取規則定義方法與普通網頁一致,所見即所得的方式讓用戶覺察不到哪些JS代碼執行了什么操作 | √免費 |
post和get一致處理 | DS打數機并不關心向服務器發送的是post還是get消息,因為DS打數機模擬用戶的行為只管點擊指定的按鈕或超鏈接,至于是post還是get,由低層函數庫根據HTML網頁上的內容自動識別處理 | √免費 |
抓取用JS實現的分頁 | 如果內容很長,網站會分成多個網頁,如果用JS實現翻頁,往往每個分頁沒有獨立的URL地址,集搜客GooSeeker可以像抓取普通分頁一樣,連續模擬點擊翻頁按鈕或者超鏈接,抓取每一分頁的內容 | √免費 |
模擬點擊抓取 | 集搜客GooSeeker可模擬用戶用鼠標點擊網頁上確定位置的按鈕或者超鏈接,并在點擊后抓取變化了的網頁內容 | √免費 |
開發者模式提高JS內容抓取能力 | JS是一個全特性編程語言,它可以完成的網頁展示行為情形是無限的,在開發者模式下,用戶輸入自定義JS代碼,驅動網絡爬蟲,使用MS和DS的爬蟲函數庫,適用于各種JS內容情形,比如,連續鼠標懸浮、點擊、鍵盤錄入等 | √免費 |
防屏蔽抓取 | 有些目標網站可能根據點擊行為特征屏蔽網絡爬蟲的過度訪問,集搜客GooSeeker采用技術手段盡量避免被屏蔽 | √免費 |
隨機延遲 | 通過設置最小延遲時間和最大延遲時間,每抓完一頁,DS打數機會隨機在這個區間找一個延遲時間,過后才啟動下一頁抓取 | √免費 |
高仿真模擬點擊 | 為了混過網站的反網絡爬蟲識別程序的檢測,集搜客GooSeeker程序通過給鼠標點擊事件賦予更逼真的參數,可以在一定程度上突破反網絡爬蟲檢測 | √免費 |
爬蟲群并行抓取 | 把爬蟲分布到不同電腦上,甚至可以部署在不同地點,可以利用集搜客社區平臺廣泛邀請GooSeeker會員,執行會員互助抓取 | √免費 (明級會員) |
清理運行狀態 | 使用ADSL等動態分配地址的部署方式,定期撥號更換IP地址,也可在火狐瀏覽器上清除cookie和緩存 | √免費 |
抓取結果本地存儲 | 抓取結果是XML格式文件,一個目標網頁對應一個文件,抓取結果默認存儲在Windows用戶目錄下的DataScraperWorks文件夾,含有語義標簽的XML格式利于與第三方系統集成??梢耘繉氲絜xcel,也可以成批壓縮打包傳送給集中管理程序 | √免費 |
抓取結果存儲路徑規劃 | 缺省情況下,抓取結果存儲在系統盤C中,為了防止過度消耗系統盤的可用空間,可通過DS打數機的菜單,把存儲目錄指向別處,可規定每個文件夾存儲的結果文件數量,DS打數機能自動創建深層文件夾,存儲更多文件。為了防止創建過深的目錄結構,可定期修改頂層目錄的指向 | √免費 |
斷點續抓 | 在網絡擁塞、設備斷電、宕機、程序不可自修復故障、維護性或者意外關閉情況下,抓取程序重新恢復運行后,能夠從任務中斷處接著進行抓取 | √免費 |
接替故障爬蟲的抓取任務 | DS打數機組成的網絡爬蟲集群工作在協同方式下,某臺計算機失敗,則集搜客服務器不再為其分配任務,那么正常的爬蟲自然會接替這臺計算機的工作 | √免費 (明級會員) |
自動登錄和輸入驗證碼 | 軟件具有自動登錄功能,如果遇到驗證碼,可與打碼平臺對接,將打碼平臺返回的碼值自動錄入,無需人工看管。自動登錄所需的賬號密碼信息需配置在周期性抓取調度文件中,文件名crontab.xml | √免費 |
手工預先登錄 | 運行火狐瀏覽器并手工訪問并登錄目標網站,再運行集搜客軟件,集搜客軟件就能使用此手工預先登錄狀態 | √免費 |
手工啟動測試網絡爬蟲 | 用MS謀數臺定義完抓取規則,并執行了保存操作,則在謀數臺工具條上可以點擊“爬數據”按鈕啟動一個測試用網絡爬蟲,即時驗證抓取的正確性 | √免費 |
手工啟動“單搜”網絡爬蟲 | 單搜就是一次只使用一個抓取規則抓取一批網頁,也就是說網絡爬蟲線程是獨占的。便于觀察失敗情況,主要用于為一個項目專注抓一批網頁內容 | √免費 |
手工啟動“集搜”網絡爬蟲 | 集搜就是能用一群網絡爬蟲線程同時抓取網頁,每個線程服務一個抓取規則。主要用于要抓取的網站多,還想人工觀察抓取進度的情形 | √免費 |
周期性自動啟動爬蟲群 | 在網絡爬蟲計算機上配置周期性抓取調度文件(crontab.xml),可以啟動多個爬蟲線程,每個線程服務一個抓取規則,多個線程也可服務同一個抓取規則??稍O定周期性調度參數 | √免費 |
會員協同抓取 | 創建一個工作組,邀請其他會員加入工作組,每個會員的DS打數機都可以為相同的抓取規則服務,每個計算機也可以運行多個線程,提高抓取能力 | √免費 (明級會員) |
增量抓取 | 對于不斷發布新內容的網站,沒有必要重復抓取以前抓取過的內容,通過在周期性抓取調度文件中設定相應參數,可以只增量抓取新內容 | √免費 |
網絡爬蟲路徑規劃 | 互聯網的頁面由超鏈接相互連接起來就像一張蜘蛛網,DS打數機稱為網絡爬蟲,MS謀數臺定義抓取規則的時候可以設定下級線索,指示打數機進行深度和廣度擴展 | √免費 |
不限深度不限廣度 | 集搜客對網站深度和廣度不設限,任由您規劃。集搜客對采集數量不設限,不會根據時間或者根據網頁數量扣取積分或者費用,您把整個互聯網下載下來都行 | √免費 |
深度和寬度可限定 | 必要的時候,您可限定深度和寬度,以節省網絡爬蟲的計算機資源。在周期性抓取調度文件中進行設定 | √免費 |
連貫抓取和非連貫抓取 | 連貫抓取主要用于翻頁抓取,也用在多個抓取規則之間連續跳轉頁面抓取,比如,ajax頁面的連續模擬點擊抓取。也可以不設定連貫抓取,那么為跳轉到的頁面生成獨立線索,可以在另外的線程中抓取新線索 | √免費 |
抓指數圖表 | 利用開發者擴展接口,允許技術基礎高的用戶用Javascript自定義更高級的網絡爬蟲動作,比如:驅動鼠標在圖表上移動,抓取懸停后顯示的數據、模擬人的連續的鼠標點擊動作、連續地輸入查詢條件。 | √免費 |
高效率抓取 | 為了提高抓取效率,尤其在無人值守長期運行的情況下,DS大數據提供多個設置參數,可確保高效運行 | √免費 |
自動關閉彈窗 | 勾選“關閉彈窗”之后,爬蟲會自動關閉所有新近開啟的火狐窗口,可以防止打開過多窗口導致內容耗完 | √免費 |
配置瀏覽器加載選項 | 可告知DS打數機,不要加載圖片、插件、js代碼等,從而提高抓取速度 | √免費 |
使用集搜客資源庫 | ||
模板套用 | 在集搜客資源庫中,分門別類存放著抓取規則,只需點擊“下載”按鈕,即可在會員中心一鍵啟動集搜客網絡爬蟲。省卻自己定義抓取規則的麻煩,像直接套用網頁模板一樣使用發布出來的規則。對于初學者或者業務目標導向的用戶,模板資源套用是一條捷徑 | √免費 |
網頁上直接啟動網絡爬蟲 | 在集搜客的資源庫中,可直接下載運行他人發布的抓取規則,啟動爬蟲進行抓取 | √免費 |
發布抓取規則 | 原創的抓取規則可以發布到集搜客的資源庫中,如果其他用戶下載了您發布的規則,會向您支付相應積分 | √免費 |
規格 | 詳細說明 |
---|---|
集搜客GooSeeker的性能 | |
網絡爬蟲核心程序用C++編寫 | 高性能的決定要素,Java網絡爬蟲無法相比,PHP、Python、Ruby等解釋性語言就更加無法談性能 |
并行線程數:20 | 與計算機配置有關,建議控制在20個線程以內 |
協同化網絡爬蟲數:不限 | 多臺計算機既提高性能,又防止被封鎖,可邀請異地的會員互助抓取,云采集模式無法相比 |
定時抓取的時間精度:1秒 | 要抓取變化很快的數據,比如,來自不同網站的機票價格比價,需要對不同網站執行同時抓取,時間同步誤差可以控制到1秒鐘 |
運行保障 | |
界面日志 | 每個DS打數機窗口的下部是日志列表,用戶可直觀地觀察網絡爬蟲工作情況,失敗的線索都羅列在日志中 |
線程級性能統計 | 每個DS打數機線程窗口上都有一個性能統計按鈕,點擊后可以看到抓取的網頁數量,成功的數量,總花費時間,平均一個網頁抓取時間,通信字節數等 |
網絡爬蟲日志文件 | 每個網絡爬蟲計算機都在本地硬盤中記錄所有線程的工作日志,當前日志文件名是metaseeker.log.txt,如果日志文件長度達到2M,則自動另創建一個當前文件 |
軟件故障自動恢復 | 為了滿足無人值守的要求,DS打數機采用看門狗程序監測每個窗口的運行狀態,如果某個窗口出現故障,則看門狗程序自動重啟該窗口,以從故障狀態中恢復過來 |
軟硬件環境要求 | |
MS謀數臺硬件要求 | 較高的顯示器分辨率會有更大的可視范圍,可以提高抓取規則定義效率,推薦使用分辨率1680X1050及以上的顯示器。如果是小屏筆記本,可選擇移動工作臺界面布局模式 |
DS打數機硬件要求 | 硬件配置高可以運行更多線程,通常選擇當前市面上中等配置PC機,Windows下,DS大數據最多可用內存量不超過4G |
MS謀數臺和DS打數機的軟件環境 | Windows操作系統,通常PC機的操作系統是Win7,Win8等,需安裝火狐瀏覽器。如果需要運行在Linux操作系統和Mac操作系統上,需與客服聯系 |