V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
GASALA
V2EX  ›  问与答

请问怎么防止花瓣网,堆糖网,我喜欢等这类型的网站采集内容。。。

  •  
  •   GASALA · 2013-01-22 21:07:18 +08:00 · 9888 次点击
    这是一个创建于 4357 天前的主题,其中的信息可能已经有所发展或是发生改变。
    感觉这种网站实在没有什么意义。他们做的事情就是让自己人不停的去采集别人的内容,或者忽悠站长自己去采集内容到他们的网站。这样导致基本上每个网站的内容都同质化了。

    那么,有没有有效的方法让这些网站的采集方式失效呢?这些网站往往在浏览器按钮一个采集按钮就可以一键采集了。。。
    23 条回复    1970-01-01 08:00:00 +08:00
    qiayue
        1
    qiayue  
       2013-01-22 21:18:32 +08:00
    自己写js跟他们的js干架
    GASALA
        2
    GASALA  
    OP
       2013-01-22 21:58:33 +08:00
    @qiayue 求正解。。。
    HelLion
        3
    HelLion  
       2013-01-23 10:19:08 +08:00
    ajax加载内容。
    Mutoo
        4
    Mutoo  
       2013-01-23 10:21:52 +08:00
    @HelLion ajax加载内容也挡不住。浏览器插件是直接解释当前DOM获得数据的。
    Mutoo
        5
    Mutoo  
       2013-01-23 10:24:08 +08:00
    http://huaban.com/about/disclaimer/

    第三条 维权须知

    1. 任何个人、公司或其他主体如认为花瓣网上存在侵犯其自身合法权益的内容,应及时与花瓣网取得联系同时向花瓣网提交相关书面通知书,以便花瓣网迅速做出处理。通知书应当包含下列内容:
    (一)权利人的姓名(名称)、联系方式和地址;
    (二)要求删除或者断开链接的具体侵权内容的名称、以及对应的采集或画板url地址;
    (三)构成侵权的初步证明材料。
    权利人应当对通知书的真实性负责。权利人未提交通知书的花瓣网有权在核实情况后再行处理,因此产生的一切损失由权利人承担。
    GASALA
        6
    GASALA  
    OP
       2013-01-23 11:41:28 +08:00
    @Mutoo 这种条款都是浮云一样。对方会以各种方式让你没办法继续下去。而且他们都是转采的。。。太多了。。。
    jackyz
        7
    jackyz  
       2013-01-23 12:10:57 +08:00   ❤️ 1
    回楼主,我也是做这种网站的,特地回答一下,简略的回答就是:没办法防止。

    采集行为是发生在用户的浏览器和对方的服务器之间的。你做出来的网站本身就是要让用户看的,所以用户的浏览器必然可以无损地显示你提供的信息。然后,用户从浏览器里 copy 他看到的内容,或者另存为网页,这和采集的本质是完全一样的,这个环节在你的控制范围之外。

    采集本身也是用户的需求,为什么要阻止呢?你也许可以换个思路,转而利用这种二次传播,比如,加链接,让用户回流到你网站其他的内容。网站内容本身是王道,所有的二次传播只能让你更强。
    Sunyanzi
        8
    Sunyanzi  
       2013-01-23 13:28:59 +08:00
    或者还有一种办法 ... 用技术手段定位采集者的 IP ... 发现即 ban 掉 ...

    不过基本上这事情开销很大 ... 属于杀敌八百自损一千的举动 ...
    NemoAlex
        9
    NemoAlex  
       2013-01-23 13:35:18 +08:00
    请问你怎么防止用户收集你站点的内容呢?
    用户浏览到的东西都是可以截图保存的
    除非你不给他们看
    HelLion
        10
    HelLion  
       2013-01-23 14:06:40 +08:00
    @Mutoo 用插件来采集的话,可以针对插件去做手脚。
    可能,大概就是这意思吧。
    http://keith.ecjtu.com/article.asp?id=814
    这里有个示例,如果你启用adBlock这个插件,网页就不正常显示了。
    http://antiblock.org/?p=script&demo
    AntiGameZ
        11
    AntiGameZ  
       2013-01-23 14:43:07 +08:00
    与其封,不如想想怎么利用他们给自己做广告,夹带点私活
    Mutoo
        12
    Mutoo  
       2013-01-23 15:55:30 +08:00
    @HelLion 这个思路是挺简单的,但是adblock的插件行为比较容易判断出来,像花瓣这种就难了。

    但是有一种思路可以给你参考一下:把所有的图片内容用flash包装起来。
    Air_Mu
        13
    Air_Mu  
       2013-01-23 16:41:20 +08:00
    you cant ,coz this is china
    lhj2100
        14
    lhj2100  
       2013-01-24 09:59:46 +08:00
    给图片加水印不就可以了...
    luztak
        15
    luztak  
       2013-01-24 10:10:13 +08:00
    「本站将对不经许可使用本站内容者追究责任」...有用么.
    robhsiao
        16
    robhsiao  
       2013-01-24 10:11:38 +08:00
    我觉得可以Ban IP。

    印象中这些网站其实是有爬虫来采集的,各种书签和插件其实只是回报Referer和图片URL给这些网站。
    luztak
        17
    luztak  
       2013-01-24 10:24:26 +08:00
    @robhsiao 我怎么觉得传个User-Agent就够了......
    GASALA
        18
    GASALA  
    OP
       2013-01-24 10:31:01 +08:00   ❤️ 1
    @jackyz 从来不反对分享内容。我的网站发展到现在,也都是靠网友自发分享做起来的。只是这种类型的网站,据我自己的体会(基本上所有这种类型的网站工作人员都找过我,说让我去注册账号,把自己的内容采集进去,优先推荐带来流量之类的话。。。),很多都不是网友在分享,而是网站的工作人员为了“看上去不错”,疯狂的使用小号马甲在采集。这样必然导致各种信息同质化,高尚一点的说,也就违背了信息传播的本质了。

    我个人觉得这样的网站和行为很没意义。永远拉不到头的瀑布流,千遍一律的内容。

    杜绝肯定是不可能的,我只是想能否通过技术,增加一点采集的难度,现在的这些网站提供的采集工具,基本上轻易就能把你的内容复制过去。
    GASALA
        19
    GASALA  
    OP
       2013-01-24 10:36:20 +08:00
    @luztak 嘿嘿。这个在天朝不会有约束力的。
    robhsiao
        20
    robhsiao  
       2013-01-24 10:46:02 +08:00   ❤️ 1
    @luztak 像花瓣网,UA倒是没要,要Refrer主要是有一些图片可能有防盗链吧。

    研究过花瓣的数据传输,只有这几个字段:
    text = 标题
    link=当前页的网址,也就相当于是Referer了
    img_url=图片地址
    via=渠道,=7时是Chrome插件
    board_id=画板id

    很明显,它是拿到img_url后通过后台程序去抓取图片。所以我觉得Ban他们的IP应该就可以。

    当然其它网站没有研究。
    GASALA
        21
    GASALA  
    OP
       2013-01-24 10:49:08 +08:00
    @robhsiao 谢谢指点
    millson
        22
    millson  
       2013-01-24 10:56:48 +08:00
    全站flash,来抓吧
    insub
        23
    insub  
       2013-01-24 11:54:15 +08:00
    @millson 这个属于自伤1000损敌800了...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2062 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:37 · PVG 08:37 · LAX 16:37 · JFK 19:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.