本帖最后由 ym 于 2017-2-13 16:19 編輯
一、什么是相同網頁結構
相同的網頁結構是指網頁布局、組成、顯示樣式都一樣,只有信息是不同的網頁頁面,這里的比較是針對同一個網站上的網頁,不同網站的網頁結構都是不同的。
例如:下面兩部電影的豆瓣影評頁面就是相同的網頁結構,分別打開兩個網址,可以看到上下左右的布局、組成、顯示樣式都一模一樣,不同的只是一個是泰坦尼克的影評,另一個是這個殺手不太冷的影評,它們都是豆瓣影評的網頁,網頁結構也是相同的,所以可以用一個爬蟲程序(采集規則)來批量采集。
泰坦尼克號的影評 https://movie.douban.com/subject/1292722/reviews
這個殺手不太冷的影評 https://movie.douban.com/subject/1295644/reviews
二、如何批量采集
2.1,使用數據DIY上面現成的爬蟲程序(選擇目錄:類別->網站->頁面),查看樣本網址就可以知道網頁結構,把相同網頁結構的其他網址點擊“輸入多條網址”就可以批量采集。
2.2,下載集搜客爬蟲,通過學習《從入門到精通》章節的教程,掌握制作采集規則的技能,就可以對想要采集的網頁做采集規則,再把相同結構的網址添加到規則里,實現批量采集。
|
|
|
|
|
共 7 個關于本帖的回復 最后回復于 2020-1-3 16:06