百度网页上搜到的东西能相信吗?

如题所述

信息都是人写的,真实与否需要你有一个判断。 权威媒体发布的信息可信度更高,其他网站发布的信息需要自己做一个判断。

等等,图片错了,应该是这样的爬虫:

爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你可以简单地想象:每个爬虫都是你的“分身”。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。

你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。

抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪块来付款。

正好在上周末,一位黑客盆友御风神秘兮兮地给我发来一份《中国爬虫图鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科技。比如他们搞了一个威胁情报系统,号称能探测到全世界的“爬虫”都在做什么。

我吹着口哨打开《图鉴》,但一分钟以后,我整个人都不好了。我看到了另一个“平行世界”:

就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。

我们今天要说的,就和这些 App 有关

一、爬虫的“骚操作”

爬虫也分善恶。

像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。

但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)

给你看一张图:

这张图里显示的,就是各行各业被爬“叨扰”的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。

接下来,就给你科普一下里面的骚操作。

1、排名第一的是出行

出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。

你还记得当年12306 上线王珞丹和白百何的“史上最坑图片验证码”么?

这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。

你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。没错。抢票软件也不是吃素的。它们在和铁总搞“对抗”。

有一种东西叫做“打码平台”,你可以了解一下。

打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。

当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。

你可能会问:为什么 12306 这么抠呢?它大方地让爬虫随意爬会死吗?

答:会死。

你知道每年过年之前,12306 被点成什么样了吗?公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。

况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?

铁路被爬虫“点鸡”成这样已经够惨了,但它还有个难兄难弟,就是航空。而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。

航空类爬虫的分布比例

很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷X度假之首选。

为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。

据我所知,他们是这样玩的:

技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。

亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后0.00001秒之后,就帮你用你的名字预定了这张票。

“我是中间商,我就要赚差价!”这波骚操作,堪称完美。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2018-09-29
百度网页搜的东西有的是可以相信的,有的是不可以相信的,因为,有些东西是骗局,打的帮助的你信息,其实是骗局。求采纳谢谢,80%是可以相信的
第2个回答  2018-10-07

这得你自己理性判断,如你选择在这提问,那也是在百度上能搜索到的,百度更多是个平台,里面的内容都是由人来提供的,个人理解:

    广告类的要谨慎再谨慎

    找资源要看来源,如果是在百度百科之类的,大部分可以作为参考,但肯定也有错误的,毕竟也是人提交的

    如果是下载资源,如电影电视剧等,那得看最终在哪个网页上下载,百度搜索到的各种最后还是得看下载来源

    任何有关于金钱的,都需谨慎

第3个回答  2018-09-27
这个不能笼统的说百度搜的东西能不能相信,其实不管是百度 还是360或是其他搜索引擎其实都只是为用户提供问题的解决方案的,只有搜索结果的内容是否可信,还需要用户自己通过其他的一些手段或者经验来验证和判断。并不能说百度搜索的结果就一定非常可信,也不能说搜索的结果就完全没有价值和意义。
第4个回答  2018-09-20
我一直是非常相信的,因为我是非常认真地对待每一个问题的