本文整理汇总了Golang中github.com/henrylee2cn/pholcus/app/downloader/context.Request类的典型用法代码示例。如果您正苦于以下问题:Golang Request类的具体用法?Golang Request怎么用?Golang Request使用的例子?那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。
在下文中一共展示了Request类的20个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于我们的系统推荐出更棒的Golang代码示例。
示例1: Push
// 添加请求到队列
func (self *scheduler) Push(req *context.Request) {
// 初始化该蜘蛛的队列
spiderId, ok := req.GetSpiderId()
if !ok {
return
}
self.RLock()
defer self.RUnlock()
if self.status == status.STOP {
return
}
// 当req不可重复时,有重复则返回
if !req.GetDuplicatable() && self.Deduplicate(req.GetUrl()+req.GetMethod()) {
return
}
// 初始化该蜘蛛下该优先级队列
priority := req.GetPriority()
if !self.foundPriority(spiderId, priority) {
self.addPriority(spiderId, priority)
}
defer func() {
recover()
}()
// 添加请求到队列
self.queue[spiderId][priority] = append(self.queue[spiderId][priority], req)
}
开发者ID:jununfly,项目名称:pholcus,代码行数:33,代码来源:scheduler.go
示例2: Download
func (self *Surfer) Download(cReq *context.Request) *context.Response {
cResp := context.NewResponse(nil)
var resp *http.Response
var err error
switch cReq.GetDownloaderID() {
case SURF_ID:
resp, err = self.surf.Download(cReq)
case PHANTOM_ID:
resp, err = self.phantom.Download(cReq)
}
if resp != nil {
// 确保Response与Request中的Url字符串相等
resp.Request.URL, _ = url.Parse(cReq.GetUrl())
}
cResp.SetRequest(cReq)
cResp.SetResponse(resp)
cResp.SetError(err)
return cResp
}
开发者ID:BobbWu,项目名称:pholcus,代码行数:26,代码来源:downloader_surfer.go
示例3: Push
// 添加请求到队列
func (self *Matrix) Push(req *context.Request) {
sdl.RLock()
defer sdl.RUnlock()
if sdl.status == status.STOP ||
self.maxPage >= 0 ||
// 当req不可重复下载时,已存在成功记录则返回
!req.IsReloadable() && !UpsertSuccess(req) {
return
}
// 大致限制加入队列的请求量,并发情况下应该会比maxPage多
atomic.AddInt64(&self.maxPage, 1)
priority := req.GetPriority()
// 初始化该蜘蛛下该优先级队列
if _, found := self.reqs[priority]; !found {
self.priorities = append(self.priorities, priority)
sort.Ints(self.priorities) // 从小到大排序
self.reqs[priority] = []*context.Request{}
}
// 添加请求到队列
self.reqs[priority] = append(self.reqs[priority], req)
}
开发者ID:TonyFStark,项目名称:pholcus,代码行数:27,代码来源:scheduler.go
示例4: BulkAddQueue
// 批量url生成请求,并添加至队列。
func (self *Context) BulkAddQueue(urls []string, req *context.Request) *Context {
for _, url := range urls {
req.SetUrl(url)
self.AddQueue(req)
}
return self
}
开发者ID:BobbWu,项目名称:pholcus,代码行数:8,代码来源:context.go
示例5: Process
// core processer
func (self *crawler) Process(req *context.Request) {
defer func() {
if err := recover(); err != nil {
// do not affect other
scheduler.Sdl.DelDeduplication(req.GetUrl() + req.GetMethod())
// 统计失败数
cache.PageFailCount()
// 提示错误
logs.Log.Error(" * Fail [process panic]: %v", err)
}
}()
// download page
resp := self.Downloader.Download(req)
// if fail do not need process
if resp.GetError() != nil {
// 删除该请求的去重样本
scheduler.Sdl.DelDeduplication(req.GetUrl() + req.GetMethod())
// 统计失败数
cache.PageFailCount()
// 提示错误
logs.Log.Error(" * Fail [download]: %v", resp.GetError())
return
}
// 过程处理,提炼数据
spider.NewContext(self.Spider, resp).Parse(resp.GetRuleName())
// 统计成功页数
cache.PageSuccCount()
// 提示抓取成功
logs.Log.Informational(" * Success: %v", req.GetUrl())
// 该条请求文本结果存入pipeline
for _, data := range resp.GetItems() {
self.Pipeline.CollectData(
resp.GetRuleName(), //DataCell.RuleName
data, //DataCell.Data
resp.GetUrl(), //DataCell.Url
resp.GetReferer(), //DataCell.ParentUrl
time.Now().Format("2006-01-02 15:04:05"),
)
}
// 该条请求文件结果存入pipeline
for _, img := range resp.GetFiles() {
self.Pipeline.CollectFile(
resp.GetRuleName(),
img["Name"].(string),
img["Body"].(io.ReadCloser),
)
}
}
开发者ID:BobbWu,项目名称:pholcus,代码行数:54,代码来源:crawl.go
示例6: SetFailure
func (self *Matrix) SetFailure(req *context.Request) bool {
self.Lock()
defer self.Unlock()
unique := makeUnique(req)
if _, ok := self.failures[unique]; !ok {
// 首次失败时,在任务队列末尾重新执行一次
self.failures[unique] = req
logs.Log.Informational(" * + 失败请求: [%v]\n", req.GetUrl())
return true
}
// 失败两次后,加入历史失败记录
UpsertFailure(req)
return false
}
开发者ID:TonyFStark,项目名称:pholcus,代码行数:14,代码来源:scheduler.go
示例7: Process
// core processer
func (self *crawler) Process(req *context.Request) {
defer func() {
if err := recover(); err != nil { // do not affect other
logs.Log.Error(" * Process panic: %v", err)
}
}()
// logs.Log.Debug("**************断点 1 ***********")
// download page
resp := self.Downloader.Download(req)
// logs.Log.Debug("**************断点 2 ***********")
// if fail do not need process
if resp.GetError() != nil {
// 取消该请求的去重样本
scheduler.Sdl.DelDeduplication(req.GetUrl() + req.GetMethod())
logs.Log.Error(" * %v", resp.GetError())
// 统计下载失败的页数
cache.PageFailCount()
return
}
// logs.Log.Debug("**************断点 3 ***********")
// 过程处理,提炼数据
self.Spider.ExecParse(resp)
// logs.Log.Debug("**************断点 5 ***********")
// 该条请求文本结果存入pipeline
for _, data := range resp.GetItems() {
self.Pipeline.CollectData(
resp.GetRuleName(), //DataCell.RuleName
data, //DataCell.Data
resp.GetUrl(), //DataCell.Url
resp.GetReferer(), //DataCell.ParentUrl
time.Now().Format("2006-01-02 15:04:05"),
)
}
// 该条请求文件结果存入pipeline
for _, img := range resp.GetFiles() {
self.Pipeline.CollectFile(
resp.GetRuleName(),
img["Name"].(string),
img["Body"].(io.ReadCloser),
)
}
// logs.Log.Debug("**************断点 end ***********")
}
开发者ID:WangCrystal,项目名称:pholcus,代码行数:49,代码来源:crawl.go
示例8: UpsertFailure
// 更新或加入失败记录
// 对比是否已存在,不存在就记录
func (self *Failure) UpsertFailure(req *context.Request) bool {
self.RWMutex.Lock()
defer self.RWMutex.Unlock()
spName := req.GetSpiderName()
s := req.Serialize()
if failures, ok := self.list[spName]; !ok {
self.list[spName] = make(map[string]bool)
} else if failures[s] {
return false
}
self.list[spName][s] = true
return true
}
开发者ID:ss7247,项目名称:pholcus,代码行数:18,代码来源:failure.go
示例9: AddQueue
// 生成并添加请求至队列
// Request.Url与Request.Rule必须设置
// Request.Spider无需手动设置(由系统自动设置)
// Request.EnableCookie在Spider字段中统一设置,规则请求中指定的无效
// 以下字段有默认值,可不设置:
// Request.Method默认为GET方法;
// Request.DialTimeout默认为常量context.DefaultDialTimeout,小于0时不限制等待响应时长;
// Request.ConnTimeout默认为常量context.DefaultConnTimeout,小于0时不限制下载超时;
// Request.TryTimes默认为常量context.DefaultTryTimes;
// Request.RedirectTimes默认不限制重定向次数,小于0时可禁止重定向跳转;
// Request.RetryPause默认为常量context.DefaultRetryPause.
func (self *Spider) AddQueue(req *context.Request) {
req.
SetSpiderName(self.Name).
SetSpiderId(self.GetId()).
SetEnableCookie(self.EnableCookie).
Prepare()
scheduler.Sdl.Push(req)
}
开发者ID:husttaowen,项目名称:pholcus,代码行数:19,代码来源:spider.go
示例10: AddQueue
// 生成并添加请求至队列。
// Request.Url与Request.Rule必须设置。
// Request.Spider无需手动设置(由系统自动设置)。
// Request.EnableCookie在Spider字段中统一设置,规则请求中指定的无效。
// 以下字段有默认值,可不设置:
// Request.Method默认为GET方法;
// Request.DialTimeout默认为常量context.DefaultDialTimeout,小于0时不限制等待响应时长;
// Request.ConnTimeout默认为常量context.DefaultConnTimeout,小于0时不限制下载超时;
// Request.TryTimes默认为常量context.DefaultTryTimes,小于0时不限制失败重载次数;
// Request.RedirectTimes默认不限制重定向次数,小于0时可禁止重定向跳转;
// Request.RetryPause默认为常量context.DefaultRetryPause;
// Request.DownloaderID指定下载器ID,0为默认的Surf高并发下载器,功能完备,1为PhantomJS下载器,特点破防力强,速度慢,低并发。
// 默认自动补填Referer。
func (self *Context) AddQueue(req *context.Request) *Context {
err := req.
SetSpiderName(self.Spider.GetName()).
SetSpiderId(self.Spider.GetId()).
SetEnableCookie(self.Spider.GetEnableCookie()).
Prepare()
if err != nil {
logs.Log.Error("%v", err)
return self
}
if req.GetReferer() == "" && self.Response != nil {
req.SetReferer(self.Response.GetUrl())
}
scheduler.Sdl.Push(req)
return self
}
开发者ID:BobbWu,项目名称:pholcus,代码行数:32,代码来源:context.go
示例11: Download
func (self *Surfer) Download(cReq *context.Request) *context.Response {
cResp := context.NewResponse(nil)
var resp *http.Response
var err error
switch cReq.GetDownloaderID() {
case SURF_ID:
resp, err = self.surf.Download(cReq)
case PHANTOM_ID:
resp, err = self.phantom.Download(cReq)
}
cResp.Prepare(resp, cReq)
cResp.SetError(err)
return cResp
}
开发者ID:Cdim,项目名称:pholcus,代码行数:20,代码来源:downloader_surfer.go
示例12: Download
func (self *Surfer) Download(cReq *context.Request) *context.Response {
cResp := context.NewResponse(nil)
var resp *http.Response
var err error
if cReq.GetUsePhantomJS() {
resp, err = self.phantom.Download(cReq)
} else {
resp, err = self.surf.Download(cReq)
}
cResp.SetRequest(cReq)
cResp.SetResponse(resp)
cResp.SetError(err)
return cResp
}
开发者ID:stevenliuit,项目名称:pholcus,代码行数:20,代码来源:downloader_surf.go
示例13: Push
// 添加请求到队列
func (self *scheduler) Push(req *context.Request) {
pushMutex.Lock()
defer func() {
pushMutex.Unlock()
}()
if self.status == status.STOP {
return
}
// 有重复则返回
if self.Compare(req.GetUrl() + req.GetMethod()) {
return
}
// 留作未来分发请求用
// if pholcus.Self.GetRunMode() == config.SERVER || req.CanOutsource() {
// return
// }
self.SrcManage.Push(req)
}
开发者ID:no2key,项目名称:pholcus-1,代码行数:23,代码来源:scheduler.go
示例14: Push
func (self *SrcManage) Push(req *context.Request) {
spiderId, ok := req.GetSpiderId()
if !ok {
return
}
// 初始化该蜘蛛的队列
if _, ok := self.queue[spiderId]; !ok {
self.mutex[spiderId] = new(sync.Mutex)
self.queue[spiderId] = make(map[int][]*context.Request)
}
priority := req.GetPriority()
// 登记该蜘蛛下该优先级队列
if _, ok := self.queue[spiderId][priority]; !ok {
self.uIndex(spiderId, priority)
}
// 添加请求到队列
self.queue[spiderId][priority] = append(self.queue[spiderId][priority], req)
}
开发者ID:rorovic,项目名称:pholcus,代码行数:22,代码来源:src_manage.go
示例15: Download
func (self *Surfer) Download(cReq *context.Request) *context.Response {
cResp := context.NewResponse(nil)
resp, err := self.download.Download(cReq.GetMethod(), cReq.GetUrl(), cReq.GetReferer(), cReq.GetPostData(), cReq.GetHeader(), cReq.GetCookies())
cResp.SetRequest(cReq)
cResp.SetResponse(resp)
cResp.SetError(err)
return cResp
}
开发者ID:no2key,项目名称:pholcus-1,代码行数:13,代码来源:downloader_surfer.go
示例16: Push
// 添加请求到队列
func (self *scheduler) Push(req *context.Request) {
self.pushMutex.Lock()
defer self.pushMutex.Unlock()
if self.status == status.STOP {
return
}
// 当req不可重复时,有重复则返回
if !req.GetDuplicatable() && self.Deduplicate(req.GetUrl()+req.GetMethod()) {
return
}
self.SrcManage.Push(req)
}
开发者ID:JanChou,项目名称:pholcus,代码行数:16,代码来源:scheduler.go
示例17: Download
func (self *Surfer) Download(cReq *context.Request) *context.Response {
cResp := context.NewResponse(nil)
resp, err := self.download.Download(cReq.GetMethod(), cReq.GetUrl(), cReq.GetReferer(), cReq.GetPostData(), cReq.GetHeader(), cReq.GetCookies())
cResp.SetRequest(cReq)
cResp.SetResponse(resp)
if err != nil {
logs.Log.Error(" * %v", err)
// cResp.SetStatus(false, err.Error())
// return cResp
}
cResp.SetStatus(true, "")
return cResp
}
开发者ID:treejames,项目名称:pholcus-1,代码行数:18,代码来源:downloader_surfer.go
示例18: makeUnique
func makeUnique(req *context.Request) string {
return util.MakeUnique(req.GetUrl() + req.GetMethod())
}
开发者ID:TonyFStark,项目名称:pholcus,代码行数:3,代码来源:scheduler.go
示例19: BulkAddQueue
// 批量url生成请求,并添加至队列
func (self *Spider) BulkAddQueue(urls []string, req *context.Request) {
for _, url := range urls {
req.SetUrl(url)
self.AddQueue(req)
}
}
开发者ID:husttaowen,项目名称:pholcus,代码行数:7,代码来源:spider.go
示例20: DeleteFailure
// 删除失败记录
func (self *Failure) DeleteFailure(req *context.Request) {
self.RWMutex.Lock()
s := req.Serialize()
delete(self.list[req.GetSpiderName()], s)
self.RWMutex.Unlock()
}
开发者ID:ss7247,项目名称:pholcus,代码行数:7,代码来源:failure.go
注:本文中的github.com/henrylee2cn/pholcus/app/downloader/context.Request类示例整理自Github/MSDocs等源码及文档管理平台,相关代码片段筛选自各路编程大神贡献的开源项目,源码版权归原作者所有,传播和使用请参考对应项目的License;未经允许,请勿转载。 |
请发表评论