服务器反爬虫攻略：Apache/Nginx/PHP禁止某些UserAgent抓取网站

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots 规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如~~宜搜蜘蛛（YisouSpider）~~（最新补充：宜搜蜘蛛已被UC神马搜索收购！所以本文已去掉宜搜蜘蛛的禁封！ ==> 相关文章 )。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。

一、Apache

①、通过修改.htaccess 文件

修改网站目录下的.htaccess，添加如下代码即可（2 种代码任选）：

可用代码(1)：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

可用代码(2)：

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT

②、通过修改httpd.conf 配置文件

找到如下类似位置，根据以下代码新增/ 修改，然后重启Apache 即可：

二、Nginx 代码

进入到nginx 安装目录下的conf 目录，将如下代码保存为 agent_deny.conf

cd /usr/local/nginx/conf

vim agent_deny.conf

然后，在网站相关配置中的 location / { 之后插入如下代码：

保存后，执行如下命令，平滑重启nginx 即可：

三、PHP 代码

将如下方法放到贴到网站入口文件index.php 中的第一个<?php 之后即可：

四、测试效果

如果是vps，那非常简单，使用curl -A 模拟抓取即可，比如：

模拟宜搜蜘蛛抓取：

模拟百度蜘蛛的抓取：

三次抓取结果截图如下：

可以看出，宜搜蜘蛛和UA 为空的返回是403 禁止访问标识，而百度蜘蛛则成功返回200，说明生效！

补充：第二天，查看nginx 日志的效果截图：

①、UA 信息为空的垃圾采集被拦截：

②、被禁止的UA 被拦截：

因此，对于垃圾蜘蛛的收集，我们可以通过分析网站的访问日志，找出一些没见过的的蜘蛛（spider）名称，经过查询无误之后，可以将其加入到前文代码的禁止列表当中，起到禁止抓取的作用。

五、附录：UA 收集

下面是网络上常见的垃圾UA 列表，仅供参考，同时也欢迎你来补充。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

PHP弹出提示框并跳转到新页面即重定向到新页面发布时间：2022-07-10

Atitit.sql ast 表达式语法树语法解析原理与实现 java php c#.net js py ...发布时间：2022-07-10

MATLAB文本注释及特殊符号的表示 - 那抹阳

1 krishnaik06/Machine-Learning-in-90-days

krishnaik06/Machine-Learning-in-90-days

阅读：1050|2022-08-18

2 CVE-2021-46830

A path traversal vulnerability exists within GoAnywhere MFT before 6.8.3 that ut

阅读：1117|2022-07-29

3 armancodv/building-energy-model-matlab:

armancodv/building-energy-model-matlab: It is a small software which is develope

阅读：1104|2022-08-17

4 美元符号为什么是“$”

在美元的英文“dollar”里面明明没有字母“s”，为什么美元的符号($)是一条竖线穿过字

阅读：1052|2022-11-06

5 匹的笔顺,关于匹的笔画,认识匹的部首

匹的笔顺是什么？匹的笔顺笔画顺序怎么写？还有匹的拼音及意思是什么，好多初学练字者

阅读：423|2022-07-30

6 FGRibreau/import-tweets-to-mastodon: How

FGRibreau/import-tweets-to-mastodon: How to import tweets to mastodon (e.g. http

阅读：916|2022-08-17

7 痤疮能治吗，有哪些方法（痤疮是由什么引起

临床治痤疮常用3种方式，日常做好这2件事，也能拯救你的痤疮脸痤疮也称为青春痘，是

阅读：720|2022-07-30

8 tboronczyk/localization-middleware: PSR-

tboronczyk/localization-middleware: PSR-15 middleware to assist primarily with l

阅读：493|2022-08-16

9 长沙科技学院怎么样?是几本

长沙城南，有一所以“环保”为名的学校，从1979年创立以来，四易归属、五更其名。这

阅读：743|2022-11-06

10 heinrichreimer/material-intro: A simple

heinrichreimer/material-intro: A simple material design app intro with cool anim

阅读：404|2022-08-17

客服电话

电子邮件

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些UserAgent抓取网站

一、Apache

①、通过修改.htaccess 文件

可用代码(1)：

可用代码(2)：

②、通过修改httpd.conf 配置文件

二、Nginx 代码

三、PHP 代码

四、测试效果

补充：第二天，查看nginx 日志的效果截图：

五、附录：UA 收集

请发表评论

全部评论

上一篇：

下一篇：

PacktPublishing/Python-Machine-Learning-

BentoBoxWorld/AOneBlock: A OneBlock Mine

鲁东大学一米网:Win7系统USB驱动器RAM的操

manur/MATLAB-git: A thin MATLAB wrapper

Matlab中点乘和乘的区别

MATLAB文本注释及特殊符号的表示 - 那抹阳

谁说大象不会跳舞，你的企业是否这样转型

wenzhixin/bootstrap-table: An extended t

coreos/coreos-vagrant: Minimal Vagrantfi

cebe/markdown: A super fast, highly exte

delphi7动态添加checkbox

关于我们

产品与服务

解决方案

139-2527-9053