Mar 11, 2006
关键词: 百度搜索 MP3 防止盗链 htaccess设置 robots.txt
昨天查看网站log时候,发现了一件非常令人气愤的事情。
我明明在自己的网站中设置了禁止所有网络爬虫访问Music子目录:
User-agent: *
Disallow: /Music/
但是日志中显示3月10日一天就有来自百度mp3搜索的几百个访问,这些访问无一例外的采用206 partial content方式,也就是说,他们并不是通过我的网页访问网站中的mp3文件,而是直接通过baidu的mp3搜索下载!!
通过仔细翻阅那几天的日子,我发现更恐怖的事情,baidu的所谓国际标准机器人居然没有访问我的robots文件,就对我的网站内容进行扫描。这意味着我并不希望被搜索引擎收录的mp3文件都会暴露在大庭广众之下。查看日志还可以发现,一天数百兆甚至接近1G的数据流量竟然有80%是从那不守规矩的百度MP3搜索引擎。我一个月才250G流量限制,现在才不到十个mp3文件一天就可以上G流量,要是以后多点mp3,我还怎么活啊。
所以,我们必须对百度疯狂盗链说不!(其实盗链不光百度,但目前来看,就百度的mp3搜索最无耻)
下面是对.htaccess文件的设置,如果有使用apache服务器的网站站长深受百度mp3搜索的骚扰,可以试一试下面的方法。
1.是屏蔽来自百度mp3的搜索。
2.是防盗链设置,禁止除了白名单中地址外,其他所有地址对mp3文件的直接访问。
我就不信百度现在还能来盗我的链,
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www\.)?znsunimage.com(/)?.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://www\.znsunimage\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://blog\.znsunimage\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://click\.znsunimage\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://gallery\.znsunimage\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(.*)\.spaces\.live\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(.*)\.wordpress\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://web\.hku\.hk/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://www\.hku\.hk/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://forum\.xitek\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://forum\.pixelpost\.org/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://del\.icio\.us/.*$ [NC]
RewriteCond %{HTTP_REFERER} !^http://(.*)\.feedburner\.com/.*$ [NC]
RewriteCond %{HTTP_REFERER} mp3\.baidu\.com [NC,OR]
RewriteCond %{HTTP_REFERER} 202\.108\.23\.172 [NC,OR]
RewriteCond %{HTTP_REFERER} www\.xqxp\.com [NC,OR]
RewriteRule .*\.(mp3|mp4|rar|jepg|jpg|pdf)$ - [F]
注:robots文件标准是给各个搜索引擎的规范,是所有搜索引擎必须遵守的国际准则。和百度比,google,yahoo的机器人都很乖,都是先访问robots文件才进行抓取。baidu的行为不是无耻,是相当的无耻~
Mar 3, 2006
又到月初,OUTLOOK里面的tasks栏又跳出来下面的东西。
发现自己还是有几条没改,要努力。
十九种不良生活习惯---你是不是也有?快改掉喔!
1.起床先叠被
2.不吃早餐
3.饭后松裤带
4.饭后即睡
5.饱食
6.空腹吃糖
7.吃太鹹的食物
8.留胡子
9.跷二郎腿
10.瞇眼看东西、揉擦眼睛
11.强忍小便
12.伏案午睡
13.俯睡(趴着睡)
14.睡前不洗脸
15.睡前不刷牙
16.睡懒觉
17.热水淋浴时间过长
18.赌博
19.生活过度紧张
|inline
Feb 22, 2006
今天发现很奇怪的事情,我主页的Google Pagerank,一下是5,一下是0。
搜索了一下,又学到了一些东西。估计是pagerank的服务器正在跳舞呢,于是
附上小工具:
| Check Page Rank of any web site pages instantly: |
了解Google Dance工具
无论是参加贸易展销,开研讨会,还是在座谈会上发言,都会有人问我这样一个问题:“Google dance是什么东东?”我也听到过若干不同版本的“Google dance”论,不过只有一种说法是对的:Google Dance其实就是指Google重新安排它的搜索结果的排名的过程。在Google Dance时期(三到五天内),你可以发现Google的搜索结果会有大幅度的波动。
Google多长时间更新一次?
Google Dance这个名字通常用于描述Google搜索引擎对其主要的索引结果进行更新的过程。每隔36天(一年10次),Google会对其主要的索引结果进行一次更新。不过在今年的5月,Google提前对其搜索结果进行了更新,而且是一次大的更新。
Google的更新过程可以很容易地通过搜索结果的显著变化来识别,通过Google对所有索引页面的网页快照的更新也能够看出来。你可以发现,每一分钟都会有明显的变化。不过Google的更新过程并不是象开关切换那样,从一个索引列表瞬间就可以切换到另外一个索引列表。实际上,Google需要几天的时间来完成对主要搜索结果的更新。
由于Google也和其它搜索引擎一样,以其随时向其访问者提供权威而可靠的搜索结果来赢得客户。这样Google的更新过程就变成一个比较严重的问题。在更新过程中,Google不可能关闭服务器来进行维护,即使是只有一分钟的掉线也会给Google带来不可想象的损失。所以就有了我们现在看到的这个术语--Google Dance。
|inline
Feb 15, 2006
很过分,有人居然告诉我K726是在KK Leung,害我差点就冲进别人办公室了。还好我醒目,明白过来应该是在Knowles Bldg,但这多少影响了我刚进教室的心情。
陶杰的通识课
他比我脑子里的那个他苍老许多,却更有味道,因为真实。不谈政治的他还是很值得慢慢细品的。他从The King and I的一个片断入手,讲东西方文化的冲突差异、科学和宗教的关系到不同时代的异同。
全是很泛很广的话题,我觉得任何一个问题中的任何一点拿出来都可以论好久。当然,这正是他的他的目的,通在他,识还要靠我们自己。
所以,慢慢消化中,嗯。
阅读的进度和思考问题。
各个宗教区别。
圣经和进化论。
东西方文化的冲突。
几本书推荐:
- The bluffer’s guide to relationships
- The bluffer’s guide to seduction
- 中国传统文化 / 顧建華
- 中国政治制度 / 曾繁康
Jan 26, 2006
一说白平衡,有dc的朋友们应该都知道。稍好些的机子,都会在机子的setup中有更改白平衡的选项,比方说日光模式啦,钨光白平衡啦、荧光白平衡啦。其实设置这些模式的目的只有一个:
为了在不同的光源条件下还原出物体在日光下的颜色。
既然需要人设置,那么难免有时候会设置错的时候,这时候出来的照片颜色就很怪,有时候甚至惨不忍睹……
所以我写了这个,希望能对大家有用版权所有,严禁转载。同时多谢brights指正。。
首先,你要安装个photoshop 8O,还要会些基本操作。(若不知ps为何物的也可以看看,很简单……)
下面借用brights的一张图,用ps打开这张图,可以看到图片颜色有些发蓝,可能就是因为白平衡用错了。
我们可以点一下属性栏中的channels,看不同颜色下这幅图的颜色,不难发现,红色的channel有些偏暗,而蓝色的有些偏亮,
接下来,请点击Layer->New Adjustment Layer->Color Balance, 新建一个调节层,请出我们这次的主角!
Color Balance中有三个可以调节条,可以分别更改红绿蓝三色,左边的青,洋红,黄色则是他们的补色。同时,又可以调节highlights,midtones区,还有shadows区。
根据我们之前的分析,红色偏暗,蓝色偏亮,而且通过看直方图可以看到,数据主要都在midtone区,因此,我们先只对midtone做调节。首先,我们更改蓝色,也就是第三条,直接拉到最左侧,也就是-100的位置。而针对红色偏暗的情况,我们可以增强红色,这里我们选的参数是+44,最后,我们调节中间的绿色,根据预览图,我们可以最后对三个数值进行微调。
这里,我用的参数是+46,-53,-100,按下确定后,我们可以看到照片的偏色情况得到了很大的改善。
同时,你可以通过点击调节层预览图中左侧的小眼睛来比较调节前后的效果。
怎么样,很easy吧~。
当然,这样的调节方法,有一定的局限性,一般对风光片比较有效。对有人物的片子,或者光线条件比较复杂的片子,我们就要必须用到<蒙板,还有Channel Mixer了。其实这次的修改中,为了保护天空的颜色,我已经使用了蒙板,不过讲起来太麻烦,就跳过了。如果反映强烈,下次专门开个专题讲蒙板。
Jan 23, 2006
.htaccess指南->photoblog更新
我其实还是很臭美的,photoblog里就那么几张破照片,却变着法子想着被google收录,这个叫做本末倒置,嗯! :evil:不过思想斗争了半天,还是决定改写代码,毕竟照相的时间之后很多,但等google的robot爬完我的photoblog却可能需要数月时间。
现在,photoblog里面的网页基本上都是静态的啦
先来科普:
网页分动态网页和静态网页两种,一般说来动态的更为灵活,操作性更强大,更方便(所以我全换成动态平台了)。但是所有的搜索引擎爬虫对动态网页的抓取效果都不太好,所以为了更好的被搜索引擎系统的收录,最好的方法就是用静态网址来模拟动态网址。
我的photoblog用的是pixelpost,一个MySQL+php的动态发布平台,它对静态网页模拟支持不好。所以这就是我要改代码的原因了。
这次改写利用的是Apache HTTP Server的rewrite模块。其方法就是利用在根目录下的.htaccess文件来重定向网页。
原理其实很简单,就是在该文件中定义一些重定向。
举例:
RewriteRule ^abc$ def
RewriteRule ^sun$ QmQ
如果你在.htaccess文件中定义了上述的指令,那么当有人访问你的网页时,如果链接中包含字符"abc",那么系统就会解析成def,如果包含"sun",就会解析成"QmQ"。
不过真的改写起来,还是很恐怖的。首先要总结除了要想办法归纳总结这个htaccess文件外,还要在数千行源代码中找出需要更改的动态链接,并改写成符合规则的方式。更具体的规则,参见网页。
下面是我photoblog根目录下的.htaccess文件,如果谁想用piexlpost来架设自己的photoblog时候,可以参考一下。
----------------------------------------------------------------------------------------------
Options -Indexes
RewriteEngine on
RewriteBase /
RewriteRule ^(browse|about)$ index.php?x=$1&pagenum=1
RewriteRule ^browse/([0-9]+)$ index.php?x=browse&category=&pagenum=$1
RewriteRule ^browse/category/([0-9]+)/([0-9]+)$ index.php?x=browse&category=$1&pagenum=$2
RewriteRule ^browse/category/([0-9]+)$ index.php?x=browse&category=$1&pagenum=1
RewriteRule ^comment/([0-9]+)$ index.php?popup=comment&showimage=$1
RewriteRule ^comment/submit$ index.php?x=save_comment
RewriteRule ^photo/([0-9]+)$ index.php?showimage=$1
RewriteRule ^collage$ index.php?x=collage
RewriteRule ^photo/([0-9]+)/rating/([1-5])$ index.php?showimage=$1&rating=$2
RewriteRule ^photo/file/(.+)$ /images/$1
RewriteRule ^thumbnails/latest$ index.php?showthumb=latest&thumbtag=image
RewriteRule ^feeds/(rss|atom).xml$ index.php?x=$1
RewriteRule ^browse/archive/(.*)/(.*)/([0-9]+)$ index.php?x=browse&archivedate=$1&monthname=$2&pagenum=$3
RewriteRule ^browse/archive/(.*)/(.*)$ index.php?x=browse&archivedate=$1&monthname=$2&pagenum=1
RewriteRule ^browse/archive/(.*)/([0-9]+)$ index.php?x=browse&archivedate=$1&pagenum=$2
RewriteRule ^browse/archive/(.*)$ index.php?x=browse&archivedate=$1&pagenum=1
RewriteRule ^browse/calendar/([0-9]+)/([0-9]+)/([0-9]+)$ index.php?curr_month=$1&curr_year=$2&showimage=$3
RewriteRule ^sitemap.xml$ index.php?z=sitemap
----------------------------------------------------------------------------------------------
相聚一刻Name