精选文章

Android下使用TCPDUMP抓包Wireshark分析数据 如果想分析Android下某个APP的网络数据交互,需要在Android手机上抓包,最常用的抓包工具非tcpdump莫属,用tcpdump生成Wireshark识别的pcap文件,然后将pcap文件下载到电脑上,用电脑上的Wireshark加载pcap文件,通过Wireshark分析tcpdump抓取的数据。...

继续阅读

Mac下部署Android开发环境附加NDK 作为开发者,我们深有体会,不管是进行什么开发,为了部署开发环境,我们往往需要折腾很长时间、查阅很多资料才能完成,而且这次折腾完了,下次到了另一台新电脑上又得重新来过,整个部署过程记得还好,要是不记得又得重新开始,而且遇到Android这种GFW阻隔了开发资源下载链接的环境部署,又尤其浪费时间。所以这也是我写下这篇教程的初衷跟动力源泉,希望大家参考了这篇教程以后可以轻轻松松在Mac系统下将Android环境部署好。...

继续阅读

稍顯嚴肅的台中 坦白說,留在腦海中的台中影像並不多,來台灣之前在Booking上只訂到了台中的一家青旅,第一次住青旅有些不習慣,幹什麼都放不開。 同屋的一個男生是台灣人,不過一年中四分之三的時間在上海跟北京,這麼說來跟我還是比較有共同話題的。得之我準備花15天的時間環島,覺得太倉促了,他們大學時期花一個半月的時間也不見得能將台灣島給逛完。我只能無奈地表示,兩岸允許的簽證時間有限,自己的空閒時間更有限,只能用打卡式的旅行了,我深知正真地旅行應該慢下來,融入當地的環境,感受他們的風土人情,但第一次只能這樣作罷,以後換成民進黨上台,形勢會變成怎樣還不得而知,能否再過來還是個未知數。而我一向信奉的人生格言是秉燭夜遊,活在當下,所以,理解自己吧。...

继续阅读

為之留戀的新竹 來新竹之前本沒有對她有過高的期待,慢慢對她加分要從桃園火車站出發前往新竹開始。 在桃園火車站的候車月台上,有醒目的旅遊資料發放處,這上面的擺放的全是新竹的旅遊宣傳資料,關鍵的是資料做得非常簡潔易懂,而接下來一天的新竹之行就全部是依據這份寶典的指引來完成的。...

继续阅读

從桃園開始台灣之行 初到台灣恰逢華夏銀行系統升級,特意準備的華夏銀聯卡在桃園機場沒能派上用場,只好用建行在機場5000塊,算下來是很不划算的,但是沒辦法,誰叫我出機場就得花錢呢。 從機場打車到桃園的酒店,花了將近六百塊新台幣,到酒店時五點多,天已經漸亮了,洗漱完等到七點吃過早餐就開始補覺囉,一覺醒來已是中午,帶著換下來的衣服外出找自助洗衣店,順便覓食。...

继续阅读

  • Prev
  • Next

关于网络小爬虫

文章分类 : 网络

五一最后一天,跟着了魔似的,一门心思宅在寝室整博客。好久没有现在这样的劲头了,跟去年天天在公司加班到很晚写Qt程序有得一拼。收获很多,页面基本汉化完毕,加了很多实用的插件,最关键的是优化了SEO,希望谷歌百度大哥能买我的帐吧。

以前就很关注网络爬虫这玩意儿,总觉得这里面技术含量比较高,对那些做网络爬虫的伙计尤为敬佩。SEO要做的就是帮我们勤劳的小爬虫指路,网站里一大堆文件,为了让小爬虫尽快找到有价值的网页信息,我们必须把网站目录下无关的文件告诉小爬虫,可是小爬虫不懂俺们人类的语言,自然得有一套规范的协议(小爬虫世界的语言)跟它们交流,这种语言便是robots语法,它依附于robots.txt文件。

robots.txt语法规则

最简单的 robots.txt 语法使用两条规则:
User-Agent: 后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人
Disallow: 限制搜索引擎不能访问网站中的哪些部分,Disallow后可以写目录名,文件扩展名,特定的程序文件结构。

robots.txt语法示例

让所有种类的小爬虫访问所有文件(”*”表示所有的意思)

User-agent: *

不允许小爬虫访问所有文件(‘“/”表示跟目录)
Disallow: /

禁止所有小爬虫访问特定目录:
User-agent: *
Disallow: /public/
Disallow: /images/
Disallow: /temp/
Disallow: /include/

禁止特定搜索引擎爬虫访问特定目录(这里我们以百度爬虫为例说明)
User-agent: Baiduspider
Disallow: /test/
上面的robots.txt语法示例的意思是禁止百度爬虫访问根目录下的test目录

仅禁止Baiduspider抓取.jpg格式图片的robots.txt语法
User-agent: Baiduspider
Disallow: .jpg$

Disallow: /wp- 不允许小爬虫抓取和索引wp-开头的文件及目录,如wp-login.php,wp-admin目录等均被阻止;
Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了,这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片,为了能使Google图片搜索收录图片等附件,将这个目录设置为Allow;

Disallow: /? 禁止小爬虫索引以?开头的网址,如单独文章页面的动态网址http://fcpplive.com/?p=1。这一条比较厉害,包括了WordPress博客的大部分动态网址,相当于:

Disallow: /?p=            单独文章页面
Disallow: /?cat=          文章分类页面
Disallow: /?tag=          文章标签页面
Disallow: /?m=            文章按月归档
Disallow: /?r=            文章评论链接跳转地址
Disallow: /?s=            文章站内搜索结果页面
Disallow: /?paged=        固定页面
Disallow: /?feed=         博客订阅feed
Disallow: /?*             其他动态页面

当然你也可以按照上面这样一条一条来写,如果用Disallow: /? ,又想不禁止其中的某个的时候,可以再加个Allow,如Allow: /?m=

 

各种小爬虫的大名

1. Google爬虫: Googlebot

2. 百度(Baidu)爬虫:Baiduspider

3. 雅虎(Yahoo)爬虫:Yahoo Slurp

4. 有道(Yodao)爬虫:YodaoBot

5. 搜狗(sogou)爬虫:sogou spider

6.微软:(Microsoft)Msnbot

 

 

除非注明,文章均为CppLive 编程在线原创,转载请注明出处,谢谢。

本文地址:https://www.cpplive.com/html/32.html

这里因为你的留言而存在!!!

You must be logged in to post a comment.