最近在研究php,很喜欢,碰到php并发查询mysql的问题,研究了一下,顺便留个笔记:
同步查询
这是我们最常的调用模式,客户端调用query[函数],发起查询命令,等待结果返回,读取结果;再发送第二条查询命令,等待结果返回,读取结果。总耗时,会是两次查询的时间之和。简化一下过程,例如下图:
例图,由1.1到1.3为一个query[函数]的调用,两次查询,就要串行经历1.1、1.2、1.3、2.1、2.2、2.3,尤其在1.2和2.2会阻塞等待,进程没法做其他事情。
同步调用的好处是,符合我们的直观思维,调用和处理都简单。缺点是进程阻塞在等待结果返回,增加额外的运行时间。
如果,有多条查询请求,或者进程还有其他的事情处理,那么能否把等待的时间也合理利用起来,提高进程的处理能力呢,显然是可以的。
拆分
现在,我们把query[函数]打碎,客户端在1.1后,马上返回,客户端跳过1.2,在1.3有数据达到后再去读取数据。这样进程在原来的1.2阶段就解放了,可以做更多的事情,例如…再发起一条sql查询[2.1],是否看到了并发查询的雏形了。
并发查询
相对于同步查询的下一条查询的发起都在上一条完成后,并发查询,可以在上一条查询请求发起后,立刻发起下一条查询请求。简化一下过程,下图:
例图,在1.1.1成功发送完请求后,立马返回[1.1.2],最终查询结果的返回时在遥远的1.2 。但是在,1.1.1到1.2中间,还发起了另一个查询请求,这时间段内,就同时发起了两条查询请求,2.2先于1.2到达,那么两条查询的总耗时,只相当于第一条查询的时间。
并发查询的优点是,可以提高进程的使用率,避免阻塞等待服务器处理查询,缩短了多条查询的耗时。但缺点也很明显,发起n条并发查询,就需要建立n条数据库链接,对于有数据库连接池的应用来说,可以避免这种情况。
退化
理想情况下,我们希望并发n条查询,总耗时等于查询时间最长的一条查询。但也有可能并发查询会[退化]为[同步查询]。what?例图中,如果1.2在2.1.1前就返回了,那么并发查询就[退化]为[同步查询]了,但付出的代价却比同步查询要高。
多路复用
- 发起query1
- 发起query2
- 发起query3
- ………
- 等待query1、query2、query3
- 读取query2结果
- 读取query1结果
- 读取query3结果
那么,怎么等待知道什么时候查询结果返回了,又是哪个的查询结果返回呢?
对每个查询io调用read?如果是遇上阻塞io,这样就会阻塞在一个io上,其他io有结果返回了,也没法处理。那么,如果是非阻塞io,那不用怕会阻塞在其中一个io上了,确实是,但又会造成不断地轮询判断,浪费cpu资源。
对于这种情况可以使用多路复用轮询多个io。
php实现并发查询mysql
php的mysqli(mysqlnd驱动)提供多路复用轮询io(mysqli_poll)和异步查询(mysqli_async、mysqli_reap_async_query),使用这两个特性实现并发查询,示例代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
|
<?php $sqls = array ( 'select * from `mz_table_1` limit 1000,10' , 'select * from `mz_table_1` limit 1010,10' , 'select * from `mz_table_1` limit 1020,10' , 'select * from `mz_table_1` limit 10000,10' , 'select * from `mz_table_2` limit 1' , 'select * from `mz_table_2` limit 5,1' ); $links = []; $tvs = microtime(); $tv = explode ( ' ' , $tvs ); $start = $tv [1] * 1000 + (int)( $tv [0] * 1000); // 链接数据库,并发起异步查询 foreach ( $sqls as $sql ) { $link = mysqli_connect( '127.0.0.1' , 'root' , 'root' , 'dbname' , '3306' ); $link ->query( $sql , mysqli_async); // 发起异步查询,立即返回 $links [ $link ->thread_id] = $link ; } $llen = count ( $links ); $process = 0; do { $r_array = $e_array = $reject = $links ; // 多路复用轮询io if (!( $ret = mysqli_poll( $r_array , $e_array , $reject , 2))) { continue ; } // 读取有结果返回的查询,处理结果 foreach ( $r_array as $link ) { if ( $result = $link ->reap_async_query()) { print_r( $result ->fetch_row()); if ( is_object ( $result )) mysqli_free_result( $result ); } else { } // 操作完后,把当前数据链接从待轮询集合中删除 unset( $links [ $link ->thread_id]); $link ->close(); $process ++; } foreach ( $e_array as $link ) { die ; } foreach ( $reject as $link ) { die ; } } while ( $process < $llen ); $tvs = microtime(); $tv = explode ( ' ' , $tvs ); $end = $tv [1] * 1000 + (int)( $tv [0] * 1000); echo $end - $start ,php_eol; |
mysqli_poll源码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
|
#ifndef php_win32 #define php_select(m, r, w, e, t) select(m, r, w, e, t) # else # include "win32/select.h" # endif /* {{{ mysqlnd_poll */ phpapi enum_func_status mysqlnd_poll(mysqlnd **r_array, mysqlnd **e_array, mysqlnd ***dont_poll, long sec, long usec, int * desc_num) { struct timeval tv; struct timeval *tv_p = null; fd_set rfds, wfds, efds; php_socket_t max_fd = 0; int retval, sets = 0; int set_count, max_set_count = 0; dbg_enter( "_mysqlnd_poll" ); if (sec < 0 || usec < 0) { php_error_docref(null, e_warning, "negative values passed for sec and/or usec" ); dbg_return(fail); } fd_zero(&rfds); fd_zero(&wfds); fd_zero(&efds); // 从所有mysqli链接中获取socket链接描述符 if (r_array != null) { *dont_poll = mysqlnd_stream_array_check_for_readiness(r_array); set_count = mysqlnd_stream_array_to_fd_set(r_array, &rfds, &max_fd); if (set_count > max_set_count) { max_set_count = set_count; } sets += set_count; } // 从所有mysqli链接中获取socket链接描述符 if (e_array != null) { set_count = mysqlnd_stream_array_to_fd_set(e_array, &efds, &max_fd); if (set_count > max_set_count) { max_set_count = set_count; } sets += set_count; } if (!sets) { php_error_docref(null, e_warning, *dont_poll ? "all arrays passed are clear" : "no stream arrays were passed" ); dbg_err_fmt(*dont_poll ? "all arrays passed are clear" : "no stream arrays were passed" ); dbg_return(fail); } php_safe_max_fd(max_fd, max_set_count); // select轮询阻塞时间 if (usec > 999999) { tv.tv_sec = sec + (usec / 1000000); tv.tv_usec = usec % 1000000; } else { tv.tv_sec = sec; tv.tv_usec = usec; } tv_p = &tv; // 轮询,等待多个io可读,php_select是select的宏定义 retval = php_select(max_fd + 1, &rfds, &wfds, &efds, tv_p); if (retval == -1) { php_error_docref(null, e_warning, "unable to select [%d]: %s (max_fd=%d)" , errno, strerror(errno), max_fd); dbg_return(fail); } if (r_array != null) { mysqlnd_stream_array_from_fd_set(r_array, &rfds); } if (e_array != null) { mysqlnd_stream_array_from_fd_set(e_array, &efds); } // 返回可操作的io数量 *desc_num = retval; dbg_return(pass); } |
并发查询操作结果
为了更直观地看效果,我找了一个1.3亿数据量并且没有优化过的表进行操作。
并发查询的结果:
同步查询的结果:
从结果来看,同步查询的总耗时是所有查询的时间的累加;而并发查询的总耗时在这里其实是查询时间最长的那一条(同步查询的第四条,耗时是10几秒,符合并发查询的总耗时),而且并发查询的查询顺序和结果到达的顺序是不一样的。
多条耗时较短的查询对比
使用多条查询时间较短的sql进行对比一下
并发查询的测试1结果(数据库链接时间也统计进去):
同步查询的结果(数据库链接时间也统计进去):
并发查询的测试2结果(不统计数据库链接时间):
从结果上看,并发查询测试1并没有讨到好处。从同步查询上看,每条查询耗时大概3-4ms左右。但如果不把数据库链接时间统计进去(同步查询只有一次数据库链接),并发查询的优势又能体现出来了。
结语
这里探讨了一下php实现并发查询mysql,从实验上结果直观地认识了并发查询的优缺点。建立数据库连接的时间在一条优化了的sql查询上,占得比重还是很大。#没有连接池,要你何用
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://jiachuhuang.github.io/2017/08/08/PHP%E5%B9%B6%E5%8F%91%E6%9F%A5%E8%AF%A2MySQL/?utm_source=tuicool&utm_medium=referral