V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
ShutTheFu2kUP
V2EX  ›  全球工单系统

为什么老是有一些百度爬虫的 ip 访问公司的网站,但是没有 referer 请求头

  •  
  •   ShutTheFu2kUP · 2020-10-15 09:33:54 +08:00 · 3147 次点击
    这是一个创建于 1535 天前的主题,其中的信息可能已经有所发展或是发生改变。
    host:xxx.cn
    connection:close
    remoteip:111.206.36.10
    x-forwarded-for:111.206.36.10
    user-agent:Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0
    accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    referer: http://www.baidu.com/s?wd=TQ7U
    accept-encoding:gzip
    accept-language:en-US,*
    

    这是其中一个请求的请求头信息,host 是我们公司的网址我给抹掉了。

    referer 中搜索关键词是“TQ7U”,不可能通过这个关键词搜索到我们公司的网站吧,而且基本每个请求都是这样的,关键词都是随机字母加数字。

    现在公司要做访问人数统计,这样的 ip 请求头又没包含百度蜘蛛信息,但是 ip 拿去“ip138.com”这个网站查却能查到是百度蜘蛛的 ip,百度蜘蛛相关文档根本没有提到这个东西,而且还没有客服或技术可以询问的入口。

    20 条回复    2020-10-16 08:47:10 +08:00
    herozzm
        1
    herozzm  
       2020-10-15 09:35:58 +08:00
    百度好像会隐藏 referer,只要被百度发现一个地址能访问,它肯定会爬的
    ShutTheFu2kUP
        2
    ShutTheFu2kUP  
    OP
       2020-10-15 09:38:17 +08:00   ❤️ 1
    @herozzm
    这个 referer 其实不是关键,百度蜘蛛的文档上写的是他们会在爬虫的请求头上加上如下的 User-Agent 信息,可是你可以看上面的这个请求 User-Agent 并没有包含百度爬虫的 User-Agent,但是 ip 拿去查询它又是百度爬虫的 ip


    user-agent:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
    westoy
        3
    westoy  
       2020-10-15 09:44:47 +08:00   ❤️ 1
    通常百度蜘蛛 host 查询 IP 是 baiduspider 开头的

    不过主流搜索引擎为了检测网站有没有面向爬虫针对性吐数据, 也会用一些非标 IP 段和 http 头做检测, 也不好说
    herozzm
        4
    herozzm  
       2020-10-15 09:53:48 +08:00
    @ShutTheFu2kUP 好像不会按规矩来,之前还爆出不遵守 robots.txt 文件违规抓取
    ShutTheFu2kUP
        5
    ShutTheFu2kUP  
    OP
       2020-10-15 09:59:21 +08:00
    @herozzm 好吧,这坑爹百度
    worldtongfb
        6
    worldtongfb  
       2020-10-15 10:28:36 +08:00 via Android
    我司也有这个问题,从百度过来,一查都是 wd=4 位随机字符串
    worldtongfb
        7
    worldtongfb  
       2020-10-15 10:49:29 +08:00
    请求来源 :111.206.36.17

    请求引用 : http://www.baidu.com/s?wd=good6x5

    设备信息 :Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0

    之前很多这样的 最近少了
    opengps
        8
    opengps  
       2020-10-15 10:54:10 +08:00
    高概率是假的百度爬虫,你查下来源 ip 分散的乱七八糟,不像是百度的 ip 地址
    ShutTheFu2kUP
        9
    ShutTheFu2kUP  
    OP
       2020-10-15 11:07:02 +08:00
    @worldtongfb 对啊,快被这个烦死了,也没有反馈和咨询入口
    ShutTheFu2kUP
        10
    ShutTheFu2kUP  
    OP
       2020-10-15 11:08:17 +08:00
    @opengps 感觉不像是假的,ip 就在那几个段内,就是不知道为什么 user-agent 没有带爬虫信息
    Soar360
        11
    Soar360  
       2020-10-15 11:13:49 +08:00
    worldtongfb
        12
    worldtongfb  
       2020-10-15 11:22:25 +08:00
    是真的百度爬虫 IP,ipip.net 查了是百度的机房,dns 反查也是百度
    id4alex
        13
    id4alex  
       2020-10-15 11:27:35 +08:00
    百度的是 123 开头和另外一个多少开头的

    你这个是伪装的
    id4alex
        14
    id4alex  
       2020-10-15 11:29:22 +08:00
    看错了, 来自百度的 refer 是 www.baidu.com 后面带一长串加密的字符, 你这个也是伪造 refer 的
    josca
        15
    josca  
       2020-10-15 11:58:23 +08:00   ❤️ 1
    印象中好像是“搜索引擎公司为了检查站长是不是只针对搜索引擎给出一份特意优化的页面,而不同于用户访问的页面,会采取普通 IP 和 UA 进行爬取页面,进而对比站长是否作弊”
    worldtongfb
        16
    worldtongfb  
       2020-10-15 11:58:58 +08:00
    恩 用 host 命令查确实没查到。。。可能是百度云买的服务器,ipip 和 ip138 标记成北京市 北京百度网讯科技有限公司联通节点(BGP)就以为是百度的爬虫了
    ShutTheFu2kUP
        17
    ShutTheFu2kUP  
    OP
       2020-10-15 12:01:34 +08:00
    @Soar360 这些有问题的 ip 就是没有 User-Agent,而且 dns 反差不管有没有带 user-agent,我都查不出结果不知道为什么
    hundan
        18
    hundan  
       2020-10-15 12:14:19 +08:00
    首先排除一下 从百度云购买服务器 的说法,查了下 asn 111.206.36.0/22 同段下有百度主站服务器 111.206.37.114 证书可靠

    比较倾向于 #15 检查作弊的说法
    worldtongfb
        19
    worldtongfb  
       2020-10-15 12:23:25 +08:00 via Android
    @hundan
    @ShutTheFu2kUP 这种的最蛋疼,说是百度吧,没有 ua,host 也查不出来,说不是百度吧,ip 确实相近,而且 15L 的说法也有可能,只能看看频率高不高,不高就不理完事了
    ShutTheFu2kUP
        20
    ShutTheFu2kUP  
    OP
       2020-10-16 08:47:10 +08:00
    @josca 好的,谢谢大佬,这个好像确实比较说得通
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2675 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:14 · PVG 20:14 · LAX 04:14 · JFK 07:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.