yield是生成的意思,但是在python中则是作为生成器理解,生成器的用处主要可以迭代,这样简化了很多运算模型(还不是很了解是如何简化的)。
yield是一个表达式,是有返回值的.
当一个函数中含有yield时,它不再是一个普通的函数,而是一个生成器.当该函数被调用时不会自动执行,而是暂停,见第一个例子:
例1:
1
2
3
4
5
6
7
8
9
10
|
>>> def mygenerator(): ... print 'start...' ... yield 5 ... >>> mygenerator() / / 在此处调用,并没有打印出start...说明存在 yield 的函数没有被运行,即暂停 <generator object mygenerator at 0xb762502c > >>> mygenerator(). next () / / 调用 next ()即可让函数运行. start... 5 >>> |
如一个函数中出现多个yield则next()会停止在下一个yield前,见例2:
例2:
1
2
3
4
5
6
7
8
9
10
|
>>> def mygenerator(): ... print 'start...' ... yield 5 ... >>> mygenerator() / / 在此处调用,并没有打印出start...说明存在 yield 的函数没有被运行,即暂停 <generator object mygenerator at 0xb762502c > >>> mygenerator(). next () / / 调用 next ()即可让函数运行. start... 5 >>> |
为什么yield 5会输出5,yield 23会输出23?
我们猜测可能是因为yield是表达式,存在返回值.
那么这是否可以认为yield 5的返回值一定是5吗?实际上并不是这样,这个与send函数存在一定的关系,这个函数实质上与next()是相似的,区别是send是传递yield表达式的值进去,而next不能传递特定的值,只能传递None进去,因此可以认为g.next()和g.send(None)是相同的。见例3:
例3:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
>>> def fun(): ... print 'start...' ... m = yield 5 ... print m ... print 'middle...' ... d = yield 12 ... print d ... print 'end...' ... >>> m = fun() / / 创建一个对象 >>> m. next () / / 会使函数执行到下一个 yield 前 start... 5 >>> m.send( 'message' ) / / 利用send()传递值 message / / send()传递进来的 middle... 12 >>> m. next () None / / 可见 next ()返回值为空 end... Traceback (most recent call last): File "<stdin>" , line 1 , in <module> StopIteration |
在multiprocess中的使用
python在处理数据的时候,memory-heavy 的数据往往会导致程序没办反运行或者运行期间服务器其他程序效率受到影响。这种情况往往会把数据集合变为通过genertor来遍历。
但同时如我们所知,generoter看似只能被单进程消费,这样效率很低。
generator 可以被pool.map消费。
看一下pool.py的源码。
1
2
3
4
5
6
7
|
for i, task in enumerate (taskseq): ... try : put(task) except IOError: debug( 'could not put task on queue' ) break |
实际是先将generator全部消费掉放到queue中。然后通过map来并行。这样是解决了使用map来并行。
但是依然没有解决占用内存的问题。这里有两步占用内存。
- 第一步是全部消费掉的generator。
- 第二步并行运算全部data。
解决第一个问题,通过部分消费generator来达到。
解决第二个问题,可以通过imap来达到.
示例代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
import multiprocessing as mp import itertools import time def g(): for el in xrange ( 50 ): print el yield el import os def f(x): time.sleep( 1 ) print str (os.getpid()) + " " + str (x) return x * x if __name__ = = '__main__' : pool = mp.Pool(processes = 4 ) # start 4 worker processes go = g() result = [] N = 11 while True : g2 = pool.imap(f, itertools.islice(go, N)) if g2: for i in g2: result.append(i) time.sleep( 1 ) else : break print (result) |
ps: 使用注意事项。在produce数据的时候,尽量少做操作,应为即使是map也是单线程的来消费数据。所以尽量把操作放到map中作。这样才能更好的利用多进程提高效率。