Web Scraper Chrome插件背景介紹
作為小編,我們常常有種強烈的需求就是不需要編程,也能夠網頁抓取。做新媒體運營也是,很多時候會需要用到數據來幫助工作。比如,我們登陸淘寶,京東等商務網站,抓取某一類商品的規格說明,價格,廠家等信息;我們希望可以抓取我們進入頭條上的最熱門的文章,也可以抓取我們自己的所有文章列表,發布時間,閱讀和瀏覽量等信息,當然也能抓取我們的粉絲列表。 那么有沒有這樣一款工具存在呢?今天我們chrome插件網要為大家介紹的這款Web Scraper插件就是這樣一款你不需要寫任何的代碼,只需點擊,點擊,點擊,四步使用者就能通過該插件來建立頁面數據提取規則,從而快速對網頁中需要的內容進行提取,最后還能把抓取的結果導出為Excel可以識別的CSV格式。
Web Scraper插件使用方法
1、如果你可以進入Chrome 應用商店,那么可以選擇在線安裝。如下圖所示:
不能訪問的話就在本站下載Web Scraper插件。其離線安裝的方法參照:chrome插件的離線安裝方法。最新chrome瀏覽器下載地址:http://www.djfsmith.com/category/chrome/。
標簽頁輸入【chrome://extensions/】進入chrome擴展程序,解壓你在本頁下載的Web Scraper插件,并拖入擴展程序頁即可。
2、插件安裝完成后,在瀏覽器中會出現其按鈕標記。用戶可以先在設置頁面中對該插件的儲存設置和儲存類型功能進行設置。
3、用戶可以使用Web Scraper插件來抓取頁面,其操作方法如下:
1)、打開你要抓取的網頁。首先要使用該插件來提取網頁數據需要在開發者工具模式中使用,使用快捷鍵Ctrl+Shift+I/F12或者點擊右鍵,選擇“檢查(Inspect)”,在開發者工具下面就能看到WebScraper的Tab。如下圖所示:

然后進行這兩個操作:
(1)Sitemap Name:代表你這個Sitemap是適用于哪一個網頁的,所以你可以根據網頁來自命名,不過需要使用英文字母,比如我抓的是今日頭條的數據,那我就用toutiao來命名;
(2)Sitemap URL:把網頁鏈接復制到Star URL這一欄,比如圖片里我把「吳曉波頻道」的主頁鏈接復制到了這一欄,而后點擊下方的create sitemap來新建一個Sitemap。
3)、設置這個Sitemap
整個Web Scraper的抓取邏輯是這樣:設置一級 Selector,選定抓取范圍;在一級 Selector 下設置二級 Selector,選定抓取字段,然后抓取。
對于文章而言,一級 Selector 就是你要把這一塊文章的要素圈出來,這個要素可能包含了 標題、作者、發布時間、評論數等等,然后我們再在二級 Selector 中挑出我們要的要素,比如標題、作者、閱讀數。

下面我們來拆解這個設置一級、二級 Selector 的工作流:
而后按照以下步驟操作:
-輸入id:id代表你抓取的整個范圍,比如這里是文章,我們可以命名為wuxiaobo-articles;
-選擇Type:type 代表你抓取的這部分的類型,比如元素/文本/鏈接,因為這個是整個文章要素范圍選取,我們需要用Element 來先整體選取(如果這個網頁需要滑動加載更多,那就選 Element Scroll Down);
-勾選Multiple:勾選 Multiple 前面的小框,因為你要選的是多個元素而不是單個元素,當我們勾選的時候,爬蟲插件會幫助我們識別多篇同類的文章;
-保留設置:其余未提及部分保留默認設置。
(2)點擊select選擇范圍,按照以下步驟操作:
-選擇范圍:用鼠標選擇你要爬取數據的范圍,綠色是待選區域,用鼠標點擊后變為紅色,才是選中了這塊區域;
-多選:不要只選一個,下面的也要選,否則爬出來的數據也只有一行;
-完成選擇:記得點Done Selecting;
-保存:點擊Save Selector。

(3)設置好了這個一級的Selector之后,點進去設置二級的Selector,按照以下步驟操作:
-新建Selector:點擊 Add new selector ;
-輸入id:id代表你抓取的是哪個字段,所以可以取該字段的英文,比如我要選「作者」,我就寫「writer」;
-選擇Type:選Text,因為你要抓取的是文本;
-勿勾選Multiple:不要勾選 Multiple 前面的小框,因為我們在這里要抓取的是單個元素;
-保留設置:其余未提及部分保留默認設置。

(4)點擊 select,再點擊你要爬取的字段,按照以下步驟操作:
-選擇字段:這里爬取的字段是單個的,用鼠標點擊該字段即可選定,比如要爬標題,那就用鼠標點擊某篇文章的標題,當字段所在區域變紅即為選中;
-完成選擇:記得點 Done Selecting;
-保存:點擊 Save Selector。
4、爬取數據
(1)之后你想要爬取數據只需要設置完所有的Selector就可以開始:
點擊Scrape,然后點Start Scraping,彈出一個小窗后爬蟲就會開始工作。你會得到一個列表,上面有你想要的所有數據。
(2)如果你希望把這些數據做一個排序,比如按照閱讀量、贊數、作者等指標排序,讓數據更一目了然,那么你可以點擊 Export Data as CSV,把它導入 Excel 表里。
(3)導入 Excel 表格之后,你就可以對數據進行篩選了。
我們這里只是簡單介紹總結了Web Scraper的插件的功能,安裝以及一個簡單的單頁面例子。其實Web Scraper的功能遠遠不止于此,其實還能抓取分頁,還能多頁多元素的抓取,還能抓取二級頁面。大家自己慢慢摸索吧。
Web Scraper插件官方教程視頻
http://webscraper.io/tutorials
Web Scraper下載地址
轉載必須注明來自: Chrome插件 ? Web Scraper