Appearance
事务 🚀
在执行SQL
语句的时候,某些业务要求,一系列操作必须全部执行,而不能仅执行一部分。例如,一个转账操作:
sql
-- 从id=1的账户给id=2的账户转账100元
-- 第一步:将id=1的A账户余额减去100
UPDATE accounts SET balance = balance - 100 WHERE id = 1;
-- 第二步:将id=2的B账户余额加上100
UPDATE accounts SET balance = balance + 100 WHERE id = 2;
这两条SQL
语句必须全部执行,或者,由于某些原因,如果第一条语句成功,第二条语句失败,就必须全部撤销。
这种把多条语句作为一个整体进行操作的功能,被称为数据库事务。数据库事务可以确保该事务范围内的所有操作都可以全部成功或者全部失败。如果事务失败,那么效果就和没有执行这些SQL一样,不会对数据库数据有任何改动。
可见,数据库事务具有ACID这4个特性:
- A:
Atomicity
,原子性,将所有SQL
作为原子工作单元执行,要么全部执行,要么全部不执行; - C:
Consistency
,一致性,事务完成后,所有数据的状态都是一致的,即A账户只要减去了100,B账户则必定加上了100; - I:
Isolation
,隔离性,如果有多个事务并发执行,每个事务作出的修改必须与其他事务隔离; - D:
Durability
,持久性,即事务完成后,对数据库数据的修改被持久化存储。
对于单条SQL
语句,数据库系统自动将其作为一个事务执行,这种事务被称为隐式事务。
要手动把多条SQL
语句作为一个事务执行,使用BEGIN
开启一个事务,使用COMMIT
提交一个事务,这种事务被称为显式事务。例如,把上述的转账操作作为一个显式事务:
sql
BEGIN;
UPDATE accounts SET balance = balance - 100 WHERE id = 1;
UPDATE accounts SET balance = balance + 100 WHERE id = 2;
COMMIT;
很显然多条SQL
语句要想作为一个事务执行,就必须使用显式事务。
COMMIT
是指提交事务,即试图把事务内的所有SQL
所做的修改永久保存。如果COMMIT
语句执行失败了,整个事务也会失败。
有些时候,我们希望主动让事务失败,这时,可以用ROLLBACK
回滚事务,整个事务会失败:
sql
BEGIN;
UPDATE accounts SET balance = balance - 100 WHERE id = 1;
UPDATE accounts SET balance = balance + 100 WHERE id = 2;
ROLLBACK;
数据库事务是由数据库系统保证的,我们只需要根据业务逻辑使用它就可以。
隔离级别 🚀
对于两个并发执行的事务,如果涉及到操作同一条记录的时候,可能会发生问题。因为并发操作会带来数据的不一致性,包括脏读、不可重复读、幻读等。
数据库系统提供了隔离级别,来让我们有针对性地选择事务的隔离级别,避免数据不一致的问题。
SQL
标准定义了4种隔离级别,分别对应可能出现的数据不一致的情况:
Isolation Level | 脏读 Dirty Read | 不可重复读 Non Repeatable Read | 幻读 Phantom Read |
---|---|---|---|
Read Uncommitted | Yes | Yes | Yes |
Read Committed | - | Yes | Yes |
Repeatable Read | - | - | Yes |
Serializable | - | - | - |
如果没有指定隔离级别,数据库就会使用默认的隔离级别。在MySQL
中,如果使用InnoDB
,默认的隔离级别是Repeatable Read
。
Read Uncommitted 🚀
Read Uncommitted是隔离级别最低的一种事务级别。在这种隔离级别下,一个事务会读到另一个事务更新后但未提交的数据,如果另一个事务回滚,那么当前事务读到的数据就是脏数据,这就是脏读(Dirty Read)。
我们来看一个例子。
首先,我们准备好students
表的数据,该表仅一行记录:
sql
mysql> select * from students;
+----+-------+
| id | name |
+----+-------+
| 1 | Alice |
+----+-------+
1 row in set (0.00 sec)
然后,分别开启两个MySQL客户端连接,按顺序依次执行事务A和事务B:
时刻 | 事务A | 事务B |
---|---|---|
1 | SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED; | SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED; |
2 | BEGIN; | BEGIN; |
3 | UPDATE students SET name = 'Bob' WHERE id = 1; | |
4 | SELECT * FROM students WHERE id = 1; | |
5 | ROLLBACK; | |
6 | SELECT * FROM students WHERE id = 1; | |
7 | COMMIT; |
当事务A执行完第3步时,它更新了id=1
的记录,但并未提交,而事务B在第4步读取到的数据就是未提交的数据。
随后,事务A在第5步进行了回滚,事务B再次读取id=1
的记录,发现和上一次读取到的数据不一致,这就是脏读。
可见,在Read Uncommitted
隔离级别下,一个事务可能读取到另一个事务更新但未提交的数据,这个数据有可能是脏数据。
Read Committed 🚀
在Read Committed
隔离级别下,一个事务不会读到另一个事务还没有提交的数据,但可能会遇到不可重复读(Non Repeatable Read)的问题。
不可重复读是指,在一个事务内,多次读同一数据,在这个事务还没有结束时,如果另一个事务恰好修改了这个数据,那么,在第一个事务中,两次读取的数据就可能不一致。
我们仍然先准备好students
表的数据:
sql
mysql> select * from students;
+----+-------+
| id | name |
+----+-------+
| 1 | Alice |
+----+-------+
1 row in set (0.00 sec)
然后,分别开启两个MySQL
客户端连接,按顺序依次执行事务A和事务B:
时刻 | 事务A | 事务B |
---|---|---|
1 | SET TRANSACTION ISOLATION LEVEL READ COMMITTED; | SET TRANSACTION ISOLATION LEVEL READ COMMITTED; |
2 | BEGIN; | BEGIN; |
3 | SELECT * FROM students WHERE id = 1; -- Alice | |
4 | UPDATE students SET name = 'Bob' WHERE id = 1; | |
5 | COMMIT; | |
6 | SELECT * FROM students WHERE id = 1; -- Bob | |
7 | COMMIT; |
当事务B第一次执行第3步的查询时,得到的结果是Alice
,随后,由于事务A在第4步更新了这条记录并提交,所以,事务B在第6步再次执行同样的查询时,得到的结果就变成了Bob
,因此,在Read Committed
隔离级别下,事务不可重复读同一条记录,因为很可能读到的结果不一致。
Repeatable Read 🚀
在Repeatable Read
隔离级别下,一个事务可能会遇到幻读(Phantom Read
)的问题。
幻读是指,在一个事务中,第一次查询某条记录,发现没有,但是,当试图更新这条不存在的记录时,竟然能成功,并且,再次读取同一条记录,它就神奇地出现了。
我们仍然先准备好students
表的数据:
sql
mysql> select * from students;
+----+-------+
| id | name |
+----+-------+
| 1 | Alice |
+----+-------+
1 row in set (0.00 sec)
然后,分别开启两个MySQL客户端连接,按顺序依次执行事务A和事务B:
时刻 | 事务A | 事务B |
---|---|---|
1 | SET TRANSACTION ISOLATION LEVEL REPEATABLE READ; | SET TRANSACTION ISOLATION LEVEL REPEATABLE READ; |
2 | BEGIN; | BEGIN; |
3 | SELECT * FROM students WHERE id = 99; -- empty | |
4 | INSERT INTO students (id, name) VALUES (99, 'Bob'); | |
5 | COMMIT; | |
6 | SELECT * FROM students WHERE id = 99; -- empty | |
7 | UPDATE students SET name = 'Alice' WHERE id = 99; -- 1 row affected | |
8 | SELECT * FROM students WHERE id = 99; -- Alice | |
9 | COMMIT; |
事务B在第3步第一次读取id=99
的记录时,读到的记录为空,说明不存在id=99
的记录。随后,事务A在第4步插入了一条id=99
的记录并提交。事务B在第6步再次读取id=99
的记录时,读到的记录仍然为空,但是,事务B在第7步试图更新这条不存在的记录时,竟然成功了,并且,事务B在第8步再次读取id=99
的记录时,记录出现了。
可见,幻读就是没有读到的记录,以为不存在,但其实是可以更新成功的,并且,更新成功后,再次读取,就出现了。
Serializable 🚀
Serializable
是最严格的隔离级别。在Serializable
隔离级别下,所有事务按照次序依次执行,因此,脏读、不可重复读、幻读都不会出现。
虽然Serializable隔离级别下的事务具有最高的安全性,但是,由于事务是串行执行,所以效率会大大下降,应用程序的性能会急剧降低。如果没有特别重要的情景,一般都不会使用Serializable隔离级别。
可重复读:为什么你改了我看不到呢? 🚀
在探索问题之前,先得明白如下知识点
InnoDB
里面每个事务有一个唯一的事务 ID,叫作transaction id
。它是在事务开始的时候向InnoDB
的事务系统申请的,是按申请顺序严格递增的。- 而每行数据也都是有多个版本的。每次事务更新数据的时候,都会生成一个新的数据版本,并且 把
transaction id
赋值给这个数据版本的事务 ID,记为row trx_id
。
还没懂的话 就看下面这张图,理解一下
按照可重复读的定义,一个事务启动的时候,能够看到所有已经提交的事务结果。但是之后,这个事务执行期间,其他事务的更新对它不可见。 因此,InnoDB
代码实现上,一个事务只需要在启动的时候,找到所有已经提交的事务 ID 的最大值,记为 up_limit_id
;然后声明说,“如果一个数据版本的 row trx_id
大于 up_limit_id
,我就不认,我必须要找到它的上一个版本”。当然,如果一个事务自己更新的数据,它自己还是要认的。有了这个声明后,系统里面随后发生的更新,是不是就跟这个事务看到的内容无关了呢? 因为之后的更新,产生的新的数据版本的 row trx_id
都会大于 up_limit_id
。
是不是还是有点懵,举个栗子
我们继续看一下图 中的三个事务,分析下 Q2
语句返回的结果,为什么是 (1,1)。 这里,我们不妨做如下假设:
- 事务 A 开始前,系统里面已经提交的事务最大 ID 是 99;
- 事务 A、B、C 的版本号分别是 100、101、102,且当前系统里没有别的事务;
- 三个事务开始前,(1,1)这一行数据的
row trx_id
是 90。
这样,事务 A、B、C 的 up_limit_id
的值就都是 99。 为了简化分析,我先把其他干扰语句去掉,只画出了跟 Q2
查询逻辑有关的操作。
从图中可以看到,第一个有效更新是事务 C,把数据从 (1,1) 改成了 (1,2)。这时候,这个数据的最新版本的 row trx_id
是 102,而 90 这个版本已经成为了历史版本。 第二个有效更新是事务 B,把数据从 (1,2) 改成了 (1,3)。这时候,这个数据的最新版本(即 row trx_id
)是 101,而 102 又成为了历史版本。 好,现在事务 A 要来读数据了,它的 up_limit_id
是 99。当然了,读数据都是从当前版本读起 的。所以,Q2
的读数据流程是这样的:
- 找到 (1,3) 的时候,判断出
row trx_id
=101 大于up_limit_id
,要不起; - 接着,找到上一个历史版本,一看
row trx_id
=102,还是要不起; - 再往前找,终于找到了(1,1),它的
row trx_id
=90,是可以承认的数据。
这样执行下来,事务 A 读到的这个数据,跟它在刚开始启动的时候读到的相同,所以我们称之为一致性读。
(1,1) 这个历史版本,什么时候可以被删除掉呢?答案是,当没有事务再需要它的时候,就可以删掉。
同时这也强调了我们不建议使用长事务的原因,回保存多个视图版本从而占据了大量内存。
顺路再说下读提交与可重复读的区别:
- 在可重复读隔离级别下,只需要在事务开始的时候找到那个
up_limit_id
,之后事务里的其他查询都共用这个up_limit_id
; - 在读提交隔离级别下,每一个语句执行前都会重新算一次
up_limit_id
的值。