Scrapy是什麼?
歷史
Scrapy最初是在 2008年6月26日在BSD許可協議下發布,並在2015年6月發佈的一個里程碑版本1.0。
為什麼要使用Scrapy?
-
它更容易構建和大規模的抓取專案;
-
它內置的機制被稱為選擇器,用於從網站(網頁)上提取數據;
-
它非同步處理請求,速度十分快;
-
它可以使用自動調節機制自動調整爬行速度;
-
確保開發人員可訪問性;
Scrapy的特點
-
Scrapy是一個開源和免費使用的網路爬蟲框架;
-
Scrapy生成格式導出如:JSON,CSV和XML;
-
Scrapy內置支持從源代碼,使用XPath或CSS運算式的選擇器來提取數據;
-
Scrapy基於爬蟲,允許以自動方式從網頁中提取數據;
優點
-
Scrapy很容易擴展,快速和功能強大;
-
這是一個跨平臺應用程式框架(在Windows,Linux,Mac OS和BSD)。
-
Scrapy請求調度和非同步處理;
-
Scrapy附帶了一個名為Scrapyd的內置服務,它允許使用JSON Web服務上傳專案和控制蜘蛛。
-
也能夠刮削任何網站,即使該網站不具有原始數據訪問API;
缺點
-
Scrapy只面向Python2.7+以上版本;
-
不同的操作系統安裝不太相同;
開始學習 >> :Scrapy安裝