CppLive 编程在线 » Blog Archive » 关于网络小爬虫

精选文章

Android下使用TCPDUMP抓包Wireshark分析数据 如果想分析Android下某个APP的网络数据交互，需要在Android手机上抓包，最常用的抓包工具非tcpdump莫属，用tcpdump生成Wireshark识别的pcap文件，然后将pcap文件下载到电脑上，用电脑上的Wireshark加载pcap文件，通过Wireshark分析tcpdump抓取的数据。...

继续阅读

Mac下部署Android开发环境附加NDK 作为开发者，我们深有体会，不管是进行什么开发，为了部署开发环境，我们往往需要折腾很长时间、查阅很多资料才能完成，而且这次折腾完了，下次到了另一台新电脑上又得重新来过，整个部署过程记得还好，要是不记得又得重新开始，而且遇到Android这种GFW阻隔了开发资源下载链接的环境部署，又尤其浪费时间。所以这也是我写下这篇教程的初衷跟动力源泉，希望大家参考了这篇教程以后可以轻轻松松在Mac系统下将Android环境部署好。...

继续阅读

稍顯嚴肅的台中 坦白說，留在腦海中的台中影像並不多，來台灣之前在Booking上只訂到了台中的一家青旅，第一次住青旅有些不習慣，幹什麼都放不開。同屋的一個男生是台灣人，不過一年中四分之三的時間在上海跟北京，這麼說來跟我還是比較有共同話題的。得之我準備花15天的時間環島，覺得太倉促了，他們大學時期花一個半月的時間也不見得能將台灣島給逛完。我只能無奈地表示，兩岸允許的簽證時間有限，自己的空閒時間更有限，只能用打卡式的旅行了，我深知正真地旅行應該慢下來，融入當地的環境，感受他們的風土人情，但第一次只能這樣作罷，以後換成民進黨上台，形勢會變成怎樣還不得而知，能否再過來還是個未知數。而我一向信奉的人生格言是秉燭夜遊，活在當下，所以，理解自己吧。...

继续阅读

為之留戀的新竹 來新竹之前本沒有對她有過高的期待，慢慢對她加分要從桃園火車站出發前往新竹開始。在桃園火車站的候車月台上，有醒目的旅遊資料發放處，這上面的擺放的全是新竹的旅遊宣傳資料，關鍵的是資料做得非常簡潔易懂，而接下來一天的新竹之行就全部是依據這份寶典的指引來完成的。...

继续阅读

從桃園開始台灣之行 初到台灣恰逢華夏銀行系統升級，特意準備的華夏銀聯卡在桃園機場沒能派上用場，只好用建行在機場5000塊，算下來是很不划算的，但是沒辦法，誰叫我出機場就得花錢呢。從機場打車到桃園的酒店，花了將近六百塊新台幣，到酒店時五點多，天已經漸亮了，洗漱完等到七點吃過早餐就開始補覺囉，一覺醒來已是中午，帶著換下來的衣服外出找自助洗衣店，順便覓食。...

继续阅读

关于网络小爬虫

作者 CppLive | 发表于 2011-05-02

文章分类 : 网络

标签: robots, SEO, 网络爬虫

五一最后一天，跟着了魔似的，一门心思宅在寝室整博客。好久没有现在这样的劲头了，跟去年天天在公司加班到很晚写Qt程序有得一拼。收获很多，页面基本汉化完毕，加了很多实用的插件，最关键的是优化了SEO，希望谷歌百度大哥能买我的帐吧。

以前就很关注网络爬虫这玩意儿，总觉得这里面技术含量比较高，对那些做网络爬虫的伙计尤为敬佩。SEO要做的就是帮我们勤劳的小爬虫指路，网站里一大堆文件，为了让小爬虫尽快找到有价值的网页信息，我们必须把网站目录下无关的文件告诉小爬虫，可是小爬虫不懂俺们人类的语言，自然得有一套规范的协议（小爬虫世界的语言）跟它们交流，这种语言便是robots语法，它依附于robots.txt文件。

robots.txt语法规则

最简单的 robots.txt 语法使用两条规则：
User-Agent: 后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人
Disallow: 限制搜索引擎不能访问网站中的哪些部分，Disallow后可以写目录名，文件扩展名，特定的程序文件结构。

robots.txt语法示例

让所有种类的小爬虫访问所有文件(”*”表示所有的意思)

User-agent: *

不允许小爬虫访问所有文件(‘“/”表示跟目录)
Disallow: /

禁止所有小爬虫访问特定目录：
User-agent: *
Disallow: /public/
Disallow: /images/
Disallow: /temp/
Disallow: /include/

禁止特定搜索引擎爬虫访问特定目录(这里我们以百度爬虫为例说明)
User-agent: Baiduspider
Disallow: /test/
上面的robots.txt语法示例的意思是禁止百度爬虫访问根目录下的test目录

仅禁止Baiduspider抓取.jpg格式图片的robots.txt语法
User-agent: Baiduspider
Disallow: .jpg$

Disallow: /wp- 不允许小爬虫抓取和索引wp-开头的文件及目录，如wp-login.php,wp-admin目录等均被阻止；
Allow: /wp-content/uploads/ 因为在上一条将wp-content目录屏蔽了，这样Google图片搜索和百度就无法访问放在/wp-content/uploads/目录下的图片，为了能使Google图片搜索收录图片等附件，将这个目录设置为Allow；

Disallow: /? 禁止小爬虫索引以?开头的网址，如单独文章页面的动态网址http://fcpplive.com/?p=1。这一条比较厉害，包括了WordPress博客的大部分动态网址，相当于：

Disallow: /?p=            单独文章页面
Disallow: /?cat=          文章分类页面
Disallow: /?tag=          文章标签页面
Disallow: /?m=            文章按月归档
Disallow: /?r=            文章评论链接跳转地址
Disallow: /?s=            文章站内搜索结果页面
Disallow: /?paged=        固定页面
Disallow: /?feed=         博客订阅feed
Disallow: /?*             其他动态页面

当然你也可以按照上面这样一条一条来写，如果用Disallow: /? ，又想不禁止其中的某个的时候，可以再加个Allow，如Allow: /?m=

各种小爬虫的大名

1. Google爬虫: Googlebot

2. 百度（Baidu）爬虫：Baiduspider

3. 雅虎（Yahoo）爬虫：Yahoo Slurp

4. 有道（Yodao）爬虫：YodaoBot

5. 搜狗（sogou）爬虫：sogou spider

6.微软：(Microsoft)Msnbot

除非注明，文章均为CppLive 编程在线原创，转载请注明出处，谢谢。

本文地址：https://www.cpplive.com/html/32.html

这里因为你的留言而存在!!!

You must be logged in to post a comment.

精选文章

关于网络小爬虫

robots.txt语法规则

robots.txt语法示例

各种小爬虫的大名

这里因为你的留言而存在!!!

常用页面

Categories

页面

归档

管理

精选文章

关于网络小爬虫

robots.txt语法规则

robots.txt语法示例

各种小爬虫的大名

这里因为你的留言而存在!!!

常用页面

Categories

热门标签

页面

归档

管理