如何用Gevent更快速的异步爬取内容 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 4489 天前的主题，其中的信息可能已经有所发展或是发生改变。

其实也不一定要用gevent，不过用了gevent之后效果的确不错

情况是这样，从IMDB id tt0000000 到 tt9999999遍历访问一遍豆瓣的电影信息，并保存电影信息。如果只是用线程，然后gevent.joinall(threads)，效果好像不是很明显，有什么更好的办法么？

初学gevent，还处于不会的状态

35 条回复 • 1970-01-01 08:00:00 +08:00

1

Livid

MOD

2012-09-14 00:05:14 +08:00

Celery or RQ is better for such scenario.

2

cabinw

OP

2012-09-14 00:06:12 +08:00

@Livid 3x~

3

phuslu

2012-09-14 00:08:49 +08:00

gevent.pool.spawn + httplib2

4

Brutal

2012-09-14 00:25:11 +08:00

queue 然后 q.get()

5

reus

2012-09-14 00:33:21 +08:00

requests + multiprocessing.Pool

6

cabinw

OP

2012-09-14 00:42:04 +08:00

@phuslu @Brutal @reus 感谢给出的各种方案，我都去了解下

7

btwo

2012-09-14 10:38:07 +08:00

有测试结果了也请贴出来，一起学习下！

8

muxi

2012-09-14 10:50:49 +08:00

https://gist.github.com/3719516

9

muxi

2012-09-14 10:51:50 +08:00

http://gist.github.com/3719516

10

muxi

2012-09-14 10:54:45 +08:00

http://gist.github.com/3719535

11

cabinw

OP

2012-09-14 11:04:10 +08:00

@btwo 好

12

cabinw

OP

2012-09-14 11:04:23 +08:00

@muxi 如此详细，大赞！

13

sinreal

2012-09-14 12:48:26 +08:00

额，豆瓣好像限制单个ip访问频率的。楼主可以考虑多个ip慢慢去抓。

14

cabinw

OP

2012-09-14 12:50:55 +08:00

@sinreal 我测试用单ip抓了12万数据貌似还没出现问题，不过这的确会是个问题啊

15

14kscn

2012-09-14 13:25:06 +08:00

我比较好奇的是 v2ex 可以贴 code 了？

16

eric_q

2012-09-14 13:32:18 +08:00

如果爬得过快消耗太多资源，可能会被手动封禁

17

cabinw

OP

2012-09-14 13:45:12 +08:00

@eric_q 诶，那真是大问题了

18

clowwindy

2012-09-14 20:41:09 +08:00

爬虫的瓶颈不在抓取，在被爬的网站上……一般要爬单个网站的大量数据，要么直接找对方要，要么动用大量 IP……

抓取的性能不是问题，如果爬完全不同的网站，之前用 tornado 那个 async_http_client 写了一个爬虫，开 5 个进程一边爬一边往 HBase 里插，可以达到 2000 QPS。

19

fanzeyi

2012-09-14 20:45:57 +08:00

如果楼主可以生成出爬的页面的链接到一个数组里，可以直接用 grequests<https://crate.io/packages/grequests/> 非常好用的异步 URL Fetching 库.

后端是 Gevent ..可以写上 callback 参数 =v=

20

chendahui007

2012-11-18 15:12:46 +08:00

@cabinw 可以看看你写的爬豆瓣电影那个么?

21

eric_q

2012-11-18 15:38:51 +08:00

http://developers.douban.com/wiki/?title=movie_v2#get_imdb_movie

22

cabinw

OP

2012-11-18 16:18:56 +08:00

@chendahui007 我已经放弃爬了，会被封IP的

23

cabinw

OP

2012-11-18 16:19:24 +08:00

@eric_q thanks，后来我也发现这个api了，看文档不够仔细阿，哈哈

24

chendahui007

2012-11-18 16:32:44 +08:00

@cabinw 那可以观摩你之前写的代码么?俺是新手,很新的手,没啥思路 ...`从IMDB id tt0000000 到 tt9999999遍历访问一遍豆瓣的电影信息 ` 这它们怎么关联的 ,求思路

25

cabinw

OP

2012-11-18 17:50:14 +08:00

@chendahui007 gtalk：cabinw#gmail.com

26

lj0014

2012-11-18 21:20:43 +08:00

楼主爬了多少豆瓣电影了，据说有４０Ｗ，我现在就爬了７Ｗ~

27

cabinw

OP

2012-11-18 22:28:28 +08:00

@lj0014 哈哈，我已经停止了，本来有10来万的样子，交流下？

28

lj0014

2012-11-19 10:13:07 +08:00

@cabinw 加你gtalk了

29

xi4nyu

2012-11-19 11:25:34 +08:00

多核机子上面应该对应核数启，才能达到最大性能.

30

feilaoda

2012-11-19 12:41:51 +08:00

@cabinw 用你的代码，也只爬了7w多的数据。不知道其他的链接怎么找到。

31

BigZ

2012-11-19 14:23:45 +08:00

异步？还快速？太黑了
丢我们采集界的脸

采集界有个原则，单线程同步采集，必要的时候还要sleep几秒

32

lj0014

2012-11-19 15:59:22 +08:00

@BigZ 我用scrapy 有限速的……

33

cabinw

OP

2012-11-19 16:27:47 +08:00

@BigZ 汗～小白不懂规矩，在这里向采集界各位前辈赔礼道歉了～ Sorry！不过我最后没有这么做

34

sohoer

2012-11-19 17:05:06 +08:00

@BigZ 呵呵，混哪的

35

lemon1992

2013-12-16 16:56:58 +08:00

@BigZ 我觉着还好吧，异步的库足够好的话，性能和单线程同步区别也不算大。各有优劣吧

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1487 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 17:09 · PVG 01:09 · LAX 09:09 · JFK 12:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.