如何使用htaccess挡掉搜寻引擎机器人?

2020-05-22 作者 : 浏览量:235

相信很多网站常常遭到流量爆掉导致于主机需要加钱,或是月底常常流量不敷使用被主机商停掉。若有这些问题的使用者不知是否有想过是哪些问题让流量变大的呢?通常流量会变大可能是档案被盗连或者是搜寻引擎机器人大量爬你的网站造成读取量过大,造成流量不够使用,因此我们就得透过.htaccess挡掉可怕的搜寻机器人!

如果你是租用无限流量虚拟主机,基本上就不用太担心流量问题,因为不会有流量爆掉的问题,但是也不要因此侥倖,因为很可能CPU Time超过被停空间。所以当流量异常过大时一定要设法找出增加流量的原因,若是不正常增加一定要设法去挡下不正常增加的途径。

通常检查方法就是去看一些流量报表,像是Google分析或是Yahoo站长工具,透过这些专业的分析工具帮你查看看到底流量是哪边来的最多?如果你是cPanel,则可以透过后台的Analog来看流量分析资料。

最常见的流量不正常增加应该是图片或是档案被盗连,当然若有此问题你可以透过.htaccess来防止盗连问题,至于该怎防护大家可以参考这篇:如何用.htaccess防止图片、档案盗连?

除了档案被盗会大大增加流量外,还有可能是网站遭受到太多的搜寻引擎来访。蛮多论坛常常发生流量不敷使的问题,通常原因就是档案遭盗连以及搜寻引擎机器人太多,导致论坛资源被吃光。因此快来封锁一些搜寻引擎吧!

建立「htaccess.txt」文字文件

首先一定要建立一个htaccess.txt文件,你可以用笔记本或者是Notepad++建立都可以,建立完成后请按照下方你需要挡的搜寻引擎,将语法加入档案中。

如何使用htaccess挡掉搜寻引擎机器人?

挡掉百度暴力搜寻引擎

通常很吃流量的搜寻引擎都是百度,它是传说中的暴力搜寻引擎,不遵守搜寻引擎的规则,若你尝试使用robot.txt来挡住,那非常恭喜你,绝对无效。所以一定要使用比较暴力、强硬的手段才能,因此透过.htaccess就可以处理了,如果你要挡掉大陆的一些搜寻引擎(像是百度、搜狗等),那请将以下程式码贴到htaccess.txt档案中。

#挡掉百度SetEnvIfNoCase User-Agent "^Baidu" bad_botSetEnvIfNoCase User-Agent "^sogou" bad_botSetEnvIfNoCase User-Agent "^Bloghoo" bad_botSetEnvIfNoCase User-Agent "^Scooter" bad_botDeny from env=bad_bot

如何使用htaccess挡掉搜寻引擎机器人?

挡掉Google搜寻引擎

如果你想要挡掉Google搜寻引擎,当然也可以透过.htaccsee挡掉,只要输入以下程式码就可以了,如果要连同暴力百度搜寻引擎一起封锁,那就把这两串程式码放在同一个htaccsee.txt档案中。

#挡掉GoogleSetEnvIf User-Agent "^Googlebot" googleDeny from env=google

上传并更名为.htaccess档案

接着请上传刚刚设定好的htaccess.txt档案,然后将档案上传到网站根目录,也就是放在「public_html」目录下,接着将档案名称改成「.htaccess」,这样就完成设定阻挡搜寻引擎啰!

如何使用htaccess挡掉搜寻引擎机器人?

网站上已经有.htaccess档案

如果你网站上本来已经有.htaccess档案,若仍想要挡掉搜寻引擎,那请您忽略刚刚前面说的建立「htaccess.txt」文字文件,您只要到FTP中去下载您原本的.htaccess档案,下载后请开起该档案,在以不破坏原本.htaccess结构的前提下,将阻挡搜寻引擎的程式码加在档案内,一般来说你可以加在档案尾部或是前头,千万不要安插到原本的架构中,否则网站将会发生错误。

如何使用htaccess挡掉搜寻引擎机器人?