Oracle并行操作之并行查询实例解析
Oracle数据库的并行操作特性,其本质上就是强行榨取除数据库服务器空闲资源(主要是CPU资源),对一些高负荷大数据量数据进行分治处理。并行操作是一种非确定性的优化策略,在选择的时候需要小心对待。目前,使用并行操作特性的主要有下面几个方面:
ParallelQuery:并行查询,使用多个操作系统级别的ServerProcess来同时完成一个SQL查询;
ParallelDML:并行DML操作。类似于ParallelQuery。当要对大数据量表进行DML操作,如insert、update和delete的时候,可以考虑使用;
ParallelDDL:并行DDL操作。如进行大容量数据表构建、索引rebuild等操作;
ParallelRecovery,并行恢复。当数据库实例崩溃重新启动,或者进行存储介质恢复的时候,可以启动并行恢复技术。从而达到减少恢复时间的目的;
ProceduralParallel,过程代码并行化。对我们编写的代码片段、存储过程或者函数,可以实现执行的并行化,从而加快执行效率;
1、并行查询ParallelQuery
Oracle数据库的并行查询是比较基础的技术,也是OLAP和OracleDataWarehouse经常使用的一种并行技术。同本系列前面一直强调的要素相同,在确定使用并行技术之前,要确定软硬件的一些先决条件:
任务task必要条件。备选进行并行操作的任务task必须是一个大任务作业,比如,长时间的查询。任务时间通常可以以分钟、小时进行计数。只有这样的任务和需要,才值得让我们冒险使用并行操作方案;
资源闲置条件。只有在数据库服务器资源存在闲置的时候,才可以考虑进行并行处理。如果经常性的繁忙,贸然使用并行只能加剧资源的争用。
并行操作最大的风险在于并行争用引起的效率不升反降。所以,要在确定两个前提之后,再进行并行规划处理。
2、环境准备
首先,准备实验环境。由于笔者使用的一般家用PC虚拟机,所以并行度和存储量不能反映真实条件需求,见谅。
SQL>select*fromv$versionwhererownum<2; BANNER -------------------------------------------------------------------------------- OracleDatabase11gEnterpriseEditionRelease11.2.0.1.0-Production SQL>selectcount(*)fromt; COUNT(*) ---------- 1160704
选择11gR2服务器环境,数据表T总数据量超过一百万。
首先,我们观察一下不使用并行的执行情况。
//提取出使用游标信息; SQL>selectsql_text,sql_id,version_countfromv$sqlareawheresql_textlike'selectcount(*)fromt%'; SQL_TEXTSQL_IDVERSION_COUNT -------------------------------------------------------- selectcount(*)fromt2jkn7rpsbj64t2 SQL>select*fromtable(dbms_xplan.display_cursor('2jkn7rpsbj64t',format=>'advanced',cursor_child_no=>0)); PLAN_TABLE_OUTPUT -------------------------------------------------------------------------------- SQL_ID2jkn7rpsbj64t,childnumber0 ------------------------------------- selectcount(*)fromt Planhashvalue:2966233522 ------------------------------------------------------------------- |Id|Operation|Name|Rows|Cost(%CPU)|Time| ------------------------------------------------------------------- |0|SELECTSTATEMENT|||4464(100)|| |1|SORTAGGREGATE||1||| |2|TABLEACCESSFULL|T|1160K|4464(1)|00:00:54| -------------------------------------------------------------------
该执行计划中没有使用并行特性,进行全表扫描。执行时间为54s。
3、并行查询计划
首先,我们设置相应的并行度。设置并行度有两种方式,一种是使用hint加在特定的SQL语句上。另一种是对大对象设置并行度属性。
前者的优点是带有一定的强制性和针对性。就是指定特定的SQL语句进行并行处理。这样的优点是易于控制并行度,缺点是带有很强的强制力,当数据量偏小的时候,使用并行优势不大。而且如果是显示指定并行度,又会带来移植伸缩性差的缺点。
后者通过对象的属性指定并行度。就将并行作为一种执行手段,提供给优化器进行选择。这样,CBO会根据系统中资源的情况和数据的实际,进行执行计划生成。计划中可能是并行,也可能不是并行。这样的优点是将并行与否交予优化器CBO去判断,缺点是并行的滥用风险。
此处,笔者设置自动确定并行度的方式。
SQL>altertabletparallel; Tablealtered SQL>selectcount(*)fromt; COUNT(*) ---------- 1160704
当启动查询时,Oracle中的并行伺候进程池会根据系统中的负荷和实际因素,确定分配出的并行进程数量。此时,我们可以通过视图v$px_process来查看进程池中的连接信息。
SQL>select*fromv$px_process; SERVER_NAMESTATUSPIDSPIDSIDSERIAL# -------------------------------------------------------------------------- P000AVAILABLE255776 P001AVAILABLE265778
注意,并行伺候进程是一种特殊的ServerProcess,本质上是一种可共享的slave进程。专用连接模式下,一般的ServerProcess与ClientProcess是“同生共死”的关系,终身服务于一个ClientProcess。而伺候slave进程是通过进程池进行管理的,一旦启动初始化,就会在一定时间内驻留在系统中,等待下次并行处理到来。
此时,我们检查v$process视图,也可以找到对应的信息。
SQL>select*fromv$process; PIDSPIDPNAMEUSERNAMESERIAL#PROGRAM ------------------------------------------------------------------------------------------------------- 255776P000oracle13oracle@oracle11g(P000) 265778P001oracle6oracle@oracle11g(P001) (篇幅由于原因,予以省略……) 32rowsselected
对应的OS中,也存在相应的真实进程伺候。
[oracle@oracle11g~]$ps-ef|greporacle (篇幅由于原因,予以省略……) oracle57001017:29?00:00:02oraclewilson(LOCAL=NO) oracle57231017:33?00:00:00ora_smco_wilson oracle57641217:40?00:00:05oraclewilson(LOCAL=NO) oracle57741017:42?00:00:00oraclewilson(LOCAL=NO) oracle57761017:43?00:00:00ora_p000_wilson oracle57781017:43?00:00:00ora_p001_wilson oracle58201117:44?00:00:00ora_w000_wilson
由于此时查询已经结束,对应的并行会话信息,已经消失不可见。
SQL>select*fromv$px_session; SADDRSIDSERIAL#QCSIDQCSERIAL# ------------------------------------------------
但是,如果任务的时间长,是可以捕获到对应信息的。
从上面的情况看,我们执行一个并行操作时,Oracle会从伺候进程池中获取到对应的并行进程,来进行操作。当操作完成后,伺候进程还会等待一定时间,之后回收。
并行操作进程的资源消耗,通过v$px_sysstat视图查看。
SQL>colstatisticfora30; SQL>select*fromv$px_process_sysstat; STATISTICVALUE ---------------------------------------- ServersInUse0 ServersAvailable0 ServersStarted2 ServersShutdown2 ServersHighwater2 ServersCleanedUp0 ServerSessions6 MemoryChunksAllocated4 MemoryChunksFreed0 MemoryChunksCurrent4 MemoryChunksHWM4 BuffersAllocated30 BuffersFreed30 BuffersCurrent0 BuffersHWM8 15rowsselected
下面,我们检查一下执行计划信息。
SQL>setpagesize10000; SQL>select*fromtable(dbms_xplan.display_cursor('2jkn7rpsbj64t',format=>'advanced',cursor_child _no=>1)); PLAN_TABLE_OUTPUT ---------------------------------------------------------------------------------------------------- SQL_ID2jkn7rpsbj64t,childnumber1 ------------------------------------- selectcount(*)fromt Planhashvalue:3126468333 ---------------------------------------------------------------------------------------------------- |Id|Operation|Name|Rows|Cost(%CPU)|Time|TQ|IN-OUT|PQDistrib ---------------------------------------------------------------------------------------------------- |0|SELECTSTATEMENT|||2478(100)|||| |1|SORTAGGREGATE||1||||| |2|PXCOORDINATOR||||||| |3|PXSENDQC(RANDOM)|:TQ10000|1|||Q1,00|P->S|QC(RAND) |4|SORTAGGREGATE||1|||Q1,00|PCWP| |5|PXBLOCKITERATOR||1160K|2478(1)|00:00:30|Q1,00|PCWC| |*6|TABLEACCESSFULL|T|1160K|2478(1)|00:00:30|Q1,00|PCWP| ---------------------------------------------------------------------------------------------------- PredicateInformation(identifiedbyoperationid): --------------------------------------------------- 6-access(:Z>=:ZAND:Z<=:Z)
从执行计划的条件(6-access(:Z>=:ZAND:Z<=:Z))中,我们可以看到任务分配,之后分别进行全表扫描。最后排序计算count,合并结果的过程。
4、结论
OracleParallelQuery是经常使用到的一种并行操作技术。相对于DDL、DML等类型操作,并行查询更可以作为系统功能的一个步骤来进行。
进行并行查询最大的风险就是并行滥用和失控的出现。这也是Oracle一直致力解决的问题。在Oracle11gR2中,引入了ParallelStatementQueuing(PSQ)技术特性。通常,只要并行伺候池允许,Oracle会引入尽可能多的并行进程进行操作。PSQ技术的出现,就是从资源角度加入了并行控制。
当系统繁忙的时候,PSQ会将一些要进行的并行操作进入等待状态,防止并行环境的恶化。当环境好转之后,等待队列中的并行语句就进入执行状态。这个特性就可以有效的防止并行滥用的出现。