Pages - Menu

2018年8月28日 星期二

Windows 7 玩 Python 爬蟲 use Scrapy


1.(命令提示字元)安裝 scrapy
conda install scrapy
conda是什麼?是安裝anaconda的產物,可參考 YENLUNG'S BLOG

2.(命令提示字元)建立scrapy項目
scrapy startporject booksDemo
建立完成後,會在下面出現你建立的資料夾位置
image
3.切換到項目的資料夾 運行crawl
我的電腦是裝    Anaconda ,所以先用
conda list
看一下目前已安裝的套件,有沒有把scrapy安裝成功
再來確認 目前的環境是哪個
conda env list
image
後來又建了一個環境  scrapyTest,建環境的方法,請看  Pyton Anaconda for Windows
image
建立spider

scrapy startproject scrapy_spider


import scrapy
class booksSpider(scrapy.Spider):
     name = "books"
     allowed_domains = ["books.com.tw"]
     start_urls = [
         "http://www.books.com.tw/products/0010789024"
     ]
    def parse(self, response):
         filename = response.url.split("/")[-2]
         with open(filename, 'wb') as f:
             f.write(response.body)

最後都確認完成後,將程式碼複製到 module內的專案名稱,路徑在
C:\user\Anaconda3\envs\scrapyTest\Lib\site-packages\scrapy\booksDemo\booksDemo\spiders
底下建一個檔案,名稱是什麼都沒關係。在建立的專案底下後再去找到spiders這個資料夾,
把程式放進去
SNAGHTML81a3fb48
完成後,在該路徑(C:\user\Anaconda3\envs\scrapyTest\Lib\site-packages\scrapy\booksDemo)底下 執行
scrapy crawl books
image
如果出現 no active project,Unknown command: crawl,Use "scrapy" to see available commands
表示你的路徑錯了。
再如果 出現 no module named ${project_name} ,也表示你執行的路徑錯了。
(當初就是這個錯誤,導致我整個重做)
目前只有印在畫面上,但印了什麼東西,我也看不懂。
先測試能跑才是重點。
.
2018/10/11 補充: 轉存成csv

scrapy crawl books -o aa.csv

沒有留言:

張貼留言