scrapy 爬取知乎内容，发现获取的和原网页不一样啊，请问这是什么原因？

可能是页面异步获取了其他内容，所以直接抓取看不到，其中策略比较多

有问题可以加我们的群问，这样效率更高，这个群是一群工程师组建的面向初学者的 python Linux 学习群（ qq 群号： 278529278 ）非商业性质，拒绝广告，只接收真正想学这方面技术的朋友，交流学习，申请请说明来自 v2ex

we3613040

2017-04-05 20:31:56 +08:00

好多异步请求

201341

2017-04-05 20:51:16 +08:00

我也以为是异步，可是禁用 js 后的页面和我获取的页面还是不一样

201341

2017-04-05 20:52:00 +08:00

@zsz
@we3613040

201341

2017-04-05 20:52:32 +08:00

@sleeperqp 好的，我试试．．谢谢．

googlebot

2017-04-05 22:04:32 +08:00 via Android

javascript ，

fffflyfish

2017-04-05 22:53:36 +08:00

直接抓现成的 json 包，伪装客户端发包

killerv

2017-04-06 10:09:13 +08:00

你说的原网页是指的网页源代码还是审查元素？审查元素的代码是经过 js 渲染过的，不一样是很正常的，这个要以网页源代码的为标准，如果网页源代码和爬虫爬的不一样，另说，有可能是防爬。

201341

2017-04-06 11:09:52 +08:00

@killerv 网页源代码不一样．．．主要是一个 css 文件不一样，结果导致我写的 xpath 和 response.css 全部为空．．．这种是防爬吗？

killerv

2017-04-06 11:43:55 +08:00

@201341 应该是防爬了，防爬一般来就是根据 header 和 cookie 下文章，再有就是根据 ip 频率

201341

2017-04-06 13:13:23 +08:00

@killerv 不是防爬，还是 js 问题，我用 selenium+Phantomjs 成功解决．

killerv

2017-04-06 13:18:20 +08:00

@201341 如果是 js 问题，那么网页源代码和你抓取的应该是一样的，你用 Phantomjs ，还是因为有些 dom 是 js 动态生成的。