2023年7月28日 星期五
2020年8月4日 星期二
2020年6月12日 星期五
2020年6月5日 星期五
2020年4月23日 星期四
2019年12月11日 星期三
2019年12月5日 星期四
2019年12月4日 星期三
[Scrapyd]在Scrpayd container內安裝postgreSQL
前言
一開始在猶豫要裝monogoDB還是postgreSQL,最後因為懶得再去動scrapyd裡面的函示,就灌mongoDB好了。
以前的環境都在區網內,這次搬到外網,才發現 mongoDB預設是大家都可以連結。
因為他是NoSQL的資料庫。最後只好乖乖在換去postgreSQL,至少能不能連線,
在一開始就擋掉了。
2019年11月20日 星期三
2019年11月13日 星期三
2019年11月12日 星期二
[Docker]用Docker 架設Scrapyd及UI畫面(Gerapy or Scrapydweb)
前言
前陣子寫完讀冊生活的搜尋工具,就沒再繼續研究自動執行了。當然可以包成Docker,再用linux工具啟動,這個我也幹過,
請看上一篇文章 [Docker]自製docker image 執行scrapy
但如果我一次有很多隻蟲要爬,難道要一個一個包成docker?
所以,scrapyd 出現了。有點像 ScrapingHub,我也曾經在上面部屬過程式,
右上方的每日一句,就是撈博客來的資料產生的,
可參考 [Python] Scrapy 部署至ScrapingHub 上以及錯誤解法
簡單講,這次就是架設一個平台,所有的爬蟲通通在上面跑。
2019年7月29日 星期一
[Python]Scrapy傳遞參數
某個特殊需求,
我想要再願望清單上做記號,
當有抓到這本書有二手書的時候,立即丟line通知我。
在傳送參數時,加上 meta={"name":value}
使用方式,response.meta.get('name')
ref.Passing a argument to a callback function
我想要再願望清單上做記號,
當有抓到這本書有二手書的時候,立即丟line通知我。
在傳送參數時,加上 meta={"name":value}
def start_requests(self):
source_url = "...."
for keyword in self.db.wishList.find ({},{ "name" :1 , "_id" : 0 ,"quote":1 } ):
self.log(keyword['name'])
#self.log("urlencode::: " + urlparse.quote(keyword['name']))
start_url = source_url + urlparse.quote(keyword['name'])
yield scrapy.Request(start_url,self.parse,meta={"favorite":keyword['quote']})
使用方式,response.meta.get('name')
def parse(self, response):
#le = LinkExtractor(restrict_css='div.panel-default>a.list-group-item')
#指到二手書列表
#self.log("source_url_link is ===" + response.url)
self.log("favorite: "+ response.meta.get('favorite'))
ref.Passing a argument to a callback function
2019年7月17日 星期三
[Python]Scrapy存MangoDB
MangoDB的建置方法,請看前面 MongoDB 與 Mongo-express 連動
因為Scrapy本身就有資料庫的寫入機制,所以在原本的程式上不用改。
需要改的地方只有 pipeline.py 、items.py以及settings.py
因為Scrapy本身就有資料庫的寫入機制,所以在原本的程式上不用改。
需要改的地方只有 pipeline.py 、items.py以及settings.py
2019年7月15日 星期一
2019年7月3日 星期三
2018年11月9日 星期五
[Raspberry]Raspberry安裝Scrapy
續上篇的 Raspberry樹莓派安裝ubuntu初步環境設定及安裝anaconda
後來發現anaconde miniconda X裡面沒有scrapy from arm的安裝套件。
只好又回歸原頭了。
以下繼續
後來發現
只好又回歸原頭了。
以下繼續
2018年11月1日 星期四
2018年10月17日 星期三
[Python] ScrapingHub 的API使用方式
上一篇 Scrapy 部署至ScrapingHub 上以及錯誤解法 講到部屬的方式,
這次要直接從外部自動取用。不然只是單純變成excel或json就沒什麼意義了。
參考 開發和運行爬蟲進程在scrapyhub的雲平台上
以下開始
這次要直接從外部自動取用。不然只是單純變成excel或json就沒什麼意義了。
參考 開發和運行爬蟲進程在scrapyhub的雲平台上
以下開始
2018年10月14日 星期日
[Python] Scrapy 部署至ScrapingHub 上以及錯誤解法
延續第一篇 Windows 7 玩 Python 爬蟲 use Scrapy
ScrapingHub其實就是 Scrapy 背後的公司所推出來的線上爬蟲服務。
有興趣的可以去找一下由來。
要使用之前,要先去申請一下GitHub的帳號 ,
不會用沒關係,基本上也不會用到Git的指令,
只要有帳號就好。
此文章參考 scrapy爬蟲學習系列三:scrapy部署到scrapyhub上
然後做了些修改。
以下正文開始
ScrapingHub其實就是 Scrapy 背後的公司所推出來的線上爬蟲服務。
有興趣的可以去找一下由來。
要使用之前,要先去申請一下GitHub的帳號 ,
不會用沒關係,基本上也不會用到Git的指令,
只要有帳號就好。
此文章參考 scrapy爬蟲學習系列三:scrapy部署到scrapyhub上
然後做了些修改。
以下正文開始
總網頁瀏覽量
About
每次一句
Popular Posts
-
放了四天假,第一天上班 就看到Server出了點問題, 開工作管理員沒看到有吃大量記憶體的程式, 後來查到一篇, 黑暗執行緒-Windows記憶體都用到哪裡去了? 去抓了 RAMMap 來用,才發現所有的記憶體都被Drier Locked吃掉了,大約有4xG 看了幾篇文章 ...
-
前言 最近發現的,電腦開機過一段時間後,記憶體常被咬滿。 但看真實的記憶體使用量,又沒有特定的程式在使用。 最後才看到,『非分頁集區的記憶體』高的很誇張。
-
總是要用到下面的script 就是上一篇講沒很多的 @name @namespace @version @author @description ..這些東西 原文請參考 官網 簡單的就帶過, 困難的就略過, 普通的就掃過。XD 自己要用的其實上面打什...
-
首先來說起因源由, 因為以前常用的F2碰到了硬碟的GPT格式就不能用。 有試過改電腦的bios,但不是每台電腦都能改。 所以,回來當MIS後,就開始找其他備份軟體了。 此軟體的 安裝、下載,不解釋,網路上很多教學。 值得一提的是,有些電腦如果你設定了秒數,但一直都沒看到...
-
前言 弄MsChart的時候,搞了太多的參數, 不寫一下又怕到時忘記
Blog Archive
-
▼
2023
(34)
-
▼
7月
(15)
- [雜談]這篇是六百零一篇了
- [k8s]kubeadm重新產生驗證
- [Terraform]terraform 部署,啓動docker安裝metadata_startup...
- [Terraform]Terraform的基本概念
- [Terraform]用chatGPT學Terraform
- [Git]git submodule 下載失敗
- [K8s]k8s 的sercret複製
- [GCP]gcs cors設定
- [GCP]gcs自動刪除檔案
- [GCP]GCS 掛載domain
- [k8s]openlens 還原 pod shell or logs button
- [Scrapy]gerapy+scrapyd+mongo爬蟲整套流程
- [GKE]kubecolor 直觀的kubectl
- [GKE] 一步步篩選k8s的deploy內容
- [Google]Google sheet 使用 Query
-
▼
7月
(15)
Categories
.NET
小技巧
小說
文章分享
正規表示法
序列埠通訊
居家
拼圖
科學上網
逆向工程
偽文青
軟體
硬體
程式概念
逸品
雲端
試算表
資料庫
資訊安全
電影
演算法
網站心得
網路
機器學習
隨筆
鍵盤
雜事記錄
Android
ATOM
AutoIT
Blogger
Chrome
CSS
Dapper
dd-wrt
Debug
DevOops
DISM
DIY
Docker
Driver
Drone
EasyUI
ECK
EPPlus
EXCEL
FFmpeg
Flot Chart
GCP
Git
GKE
Golang
Google App Script
Grafana
IIS
iOS
istio
iTunes
JavaScript
jQuery
k8s
Katalon
Kubernetes
Line
LINQ
LinqToExcel
Linux
Log4Net
MAC
MailKit
Modbus
moment
MS SQL
MsChart
Nginx
NPOI
Nuget
OpenCV
OpenData
Oracle
PHP
Postgresql
powerBuilder
PowerShell
Prometheus
Python
Raspberry
Redis
ReportViwer
RPA
Scrapy
shellScript
SignalR
Solr
SQL CLR
SRE
SRS
Swagger
T-SQL
tampermonkey
Terraform
TFS
TypeScript
Ubuntu
USB安裝
VBA
VivoStick
VMware
VPN
VS Code
WebAPI
Windchill
Windows 10
Windows 7
Windows OS
Windows Server
WorePress
Xpath
Zookeeper