V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
xiaomimix5
V2EX  ›  程序员

今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽

  •  
  •   xiaomimix5 · 2019-10-22 21:58:33 +08:00 · 3702 次点击
    这是一个创建于 1892 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Bytespider 得知来自于头条系。一搜索发现众多小站中招。

    几宗罪:

    • 大并发集中式访问,攻击式地采集数据 Bytespider 爬虫虽然不比 Doos,cc,可是对于 web 服务来讲多大的服务(相对来讲)都能拖垮。 占满 CPU 带宽等资源。
    • 这家伙不受 robots 规则限制

    useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,


    我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。

    搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?

    请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?

    附图(转载至他站,IIS 日志中类似于此) iis 日志

    第 1 条附言  ·  2019-10-26 12:14:54 +08:00
    有出新报道了,防头条蜘蛛,胜于防川。
    https://mp.weixin.qq.com/s/X-H3kf_S1D-UUfjjX5F1eg
    24 条回复    2019-10-25 02:56:34 +08:00
    haoji
        1
    haoji  
       2019-10-22 22:01:16 +08:00 via iPhone
    别说之前没想过,好像他家的爬虫真的挺占资源的…
    xiaomimix5
        2
    xiaomimix5  
    OP
       2019-10-22 22:04:45 +08:00
    @haoji 关键是不遵守 robots.txt 的 disallow 规则
    wangyzj
        3
    wangyzj  
       2019-10-22 22:12:13 +08:00
    好歹人家是爬虫起家的
    mamahaha
        4
    mamahaha  
       2019-10-22 22:13:37 +08:00
    不是靠内含段子起家的吗?
    uyhyygyug1234
        5
    uyhyygyug1234  
       2019-10-22 22:18:59 +08:00   ❤️ 10
    如果是 Bytespider 的 ua,返回一点违禁词。。。
    TheWalkingDead
        6
    TheWalkingDead  
       2019-10-22 22:26:10 +08:00   ❤️ 1
    花钱找人 DDOS 你们,让他们爬虫进不来。
    ddup
        7
    ddup  
       2019-10-22 22:28:22 +08:00 via Android
    举报他们非法爬取数据
    nevin47
        8
    nevin47  
       2019-10-22 22:35:20 +08:00 via Android
    不遵守 robots 一举报一个准啊
    jeeyong
        9
    jeeyong  
       2019-10-22 23:00:48 +08:00   ❤️ 2
    报警吧..前段时间刚抓一家公司...
    一样的事情...
    alocne
        10
    alocne  
       2019-10-22 23:01:32 +08:00   ❤️ 1
    防火墙屏蔽
    110.249.202.0/24
    110.249.201.0/24
    111.225.149.0/24
    111.225.148.0/24
    ClericPy
        11
    ClericPy  
       2019-10-22 23:01:57 +08:00
    @uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
    em70
        12
    em70  
       2019-10-22 23:08:22 +08:00
    @mamahaha 内涵段子里的内容难道是自己写的吗
    misaka19000
        13
    misaka19000  
       2019-10-22 23:09:35 +08:00
    报警
    nyaapass
        14
    nyaapass  
       2019-10-22 23:16:17 +08:00
    报警 + 1
    leonard916
        15
    leonard916  
       2019-10-22 23:16:53 +08:00
    可以告他们 好多程序员都因此收到过传票
    jinliming2
        16
    jinliming2  
       2019-10-22 23:51:11 +08:00 via iPhone
    丢个 gzip 炸弹过去
    dioxide
        17
    dioxide  
       2019-10-23 00:06:03 +08:00
    之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
    xiaoz
        18
    xiaoz  
       2019-10-23 02:02:03 +08:00
    @uyhyygyug1234 奇淫技巧
    zbl430
        19
    zbl430  
       2019-10-23 09:20:13 +08:00
    收集证据,律师函 ->起诉

    最恨的手段识别这些 ip,返回错误数据(和真的一样)
    zsj950618
        20
    zsj950618  
       2019-10-23 09:33:32 +08:00 via Android
    salsa.debian.org 是把屏蔽了它的 ip

    110.249.200.0/22, 111.225.148.0/23

    反正丢人已经丢到国外了。
    humor66
        21
    humor66  
       2019-10-23 10:16:44 +08:00
    不赶紧爬,怎么做搜索?
    cnrting
        22
    cnrting  
       2019-10-23 12:19:19 +08:00 via iPhone
    屏蔽 ip 最简单有效
    unclemcz
        23
    unclemcz  
       2019-10-23 13:30:02 +08:00
    直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。
    skenan
        24
    skenan  
       2019-10-25 02:56:34 +08:00
    自己用的..
    ```
    if ($http_user_agent ~* (bytespider|scrapy)) {
    return 444;
    }
    ```
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5450 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 08:40 · PVG 16:40 · LAX 00:40 · JFK 03:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.