Mysql百万量级数据高效导入Redis
温馨提示:这篇文章已超过606天没有更新,请注意相关的内容是否还可用!
(star ImportNew,提升Java技能)
来源:厦门的养成日记/黄云泉(本文来自作者投稿)
随着系统的运行,数据量越来越大。简单的将数据存储在mysql中已经不能满足查询需求了。这时候我们引入Redis作为查询缓存层,将业务中的热点数据保存到Redis中。,扩展传统关系型数据库的服务能力,用户可以通过应用快速从Redis获取常用数据mssql 数据库导入,或者在交互式应用中使用Redis保存活跃的用户会话,可以大大降低后端关系型数据库的负载,提高用户经验。
传统命令的缺点
使用传统的redis客户端命令在导入大量数据的场景下存在以下缺陷:
由于redis是单线程模型,虽然避免了多线程下线程切换的时间,单条命令执行速度很快,但是在大规模数据导入的场景下,发送命令的时间而接收服务器响应结果所花费的时间会被放大。
如果需要导入100万条数据,光是命令执行时间就需要100万 * (t1 + t2)。
除了一条一条发送命令,当然redis的设计肯定会考虑到这个问题,所以管道模式就出现了。
但是流水线在命令行上不可用,所以我们需要编写新的处理代码来接收批量响应。但是只有少数客户端代码支持,比如php-redis的扩展不支持异步。
pipelining管道模式实际上减少了TCP连接的交互时间。执行一批命令后,一次性发送结果。
实现原理是使用FIFO(先进先出)队列来保证数据的顺序。
只有一小部分客户端支持非阻塞 I/O,并且并非所有客户端都能够以有效的方式解析回复以最大化吞吐量。
由于这些原因mssql 数据库导入,将大量数据导入Redis的首选方法是生成包含Redis协议数据的格式并分批发送。
将数据导入 Redis 进行预热
使用nc命令导入数据
nc是netcat的缩写,nc的作用是:
1、实现任意TCP/UDP端口的监听。添加-l参数后,nc可以作为服务器以TCP或UDP方式监听指定端口
2.端口扫描,nc可以作为客户端发起TCP或UDP连接
3.机器之间传输文件
4.机器间网络测速
使用管道模式导入数据
但是,使用 nc 监听并不是执行大数据导入的可靠方法,因为 netcat 并不真正知道所有数据何时传输完毕,也无法检查错误。在 Redis 2.6 或更高版本中,redis-cli 脚本支持一种称为管道模式的新模式,该模式旨在执行大规模插入。使用管道模式的命令运行如下:
从上图中可以看到pipe命令的返回结果,txt文件中有多少行命令,以及返回的回复数量,errors表示执行错误的命令数量。
redis协议学习
协议格式为:
*<参数数量> \r\n
$<参数 1 的字节数量> \r\n
<参数 1 的数据> \r\n
...
$<参数 N 的字节数量> \r\n
<参数 N 的数据> \r\n
例如:插入一段哈希类型的数据。
HSET id book1 book_description1
按照Redis协议,一共有4个部分,所以开头是*4,其余解释如下:
注意:HSET 命令本身也作为协议的参数之一发送。
构建的协议数据结构:
*4\r\n$4\r\nHSET\r\n$2\r\nid\r\n$5\r\nbook1\r\n$17\r\nbook_description1\r\n
格式化一下:
*4\r\n
$4\r\n
HSET\r\n
$2\r\n
idvvvv\r\n
$5\r\n
book1\r\n
$17\r\n
book_description1\r\n
RESP协议批量
Redis 客户端使用称为 RESP(Redis 序列化协议)的协议与 Redis 服务器通信。
redis-cli管道方式需要和nc命令一样快,解决nc命令不知道命令什么时候结束的问题。
在发送数据时,它还会读取响应并尝试解析它。
一旦输入流中不再读取数据,它将发送一个特殊的 20 位回显命令,表示最后一个命令已发送。如果响应结果中匹配到相同的数据,则说明该批次发送成功。
使用这个技巧,我们不需要解析发送到服务器的协议来知道我们发送了多少命令,只需要回复。
在解析response的时候,redis会对解析出来的response进行统计,最后通过大量的insert session告诉用户向服务器发送的命令数量。也就是上面使用pipe模式实际运行的响应结果。
更改输入数据源为mysql
在上面的例子中,我们使用一个txt文本作为输入数据源,使用管道方式导入数据。
基于对上述协议的学习和理解,我们只需要把mysql中的数据按照既定的协议通过管道方式导入到Redis中即可。
实战案例--Mysql百万数据导入Redis
先创建数据
由于环境限制,这里没有使用真实数据导入,所以我们先用一个存储过程创建一百万条数据。使用存储过程如下:
DELIMITER $$
USE `cb_mon`$$
DROP PROCEDURE IF EXISTS `test_insert`$$
CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`()
BEGIN
DECLARE i INT DEFAULT 1;
WHILE i<= 1000000
DO
INSERT INTO t_book(id,number,NAME,descrition)
VALUES (i, CONCAT("00000",i) , CONCAT('book',i)
, CONCAT('book_description',i));
SET i=i+1;
END WHILE ;
COMMIT;
END$$
DELIMITER ;调用存储过程
CALL test_insert();
查看表数据:
通过协议构建查询语句
根据上面的redis协议,我们使用如下sql来构造协议数据:
SELECT
CONCAT(
"*4\r\n",
"$",
LENGTH(redis_cmd),
"\r\n",
redis_cmd,
"\r\n",
"$",
LENGTH(redis_key),
"\r\n",
redis_key,
"\r\n",
"$",
LENGTH(hkey),
"\r\n",
hkey,
"\r\n",
"$",
LENGTH(hval),
"\r\n",
hval,
"\r"
)
FROM
(SELECT
"HSET" AS redis_cmd,
id AS redis_key,
NAME AS hkey,
descrition AS hval
FROM
cb_mon.t_book
) AS t limit 1000000
并将内容保存到redis.sql文件中。
编写脚本使用管道方式导入redis
编写 shell 脚本。由于我在宿主机上通过docker安装了redis和mysql,以下脚本供参考:
#!/bin/bash
starttime=`date +'%Y-%m-%d %H:%M:%S'`
docker exec -i 899fe01d4dbc mysql --default-character-set=utf8
--skip-column-names --raw < ./redis.sql
| docker exec -i 4c90ef506acd redis-cli --pipe
endtime=`date +'%Y-%m-%d %H:%M:%S'`
start_seconds=$(date --date="$starttime" +%s);
end_seconds=$(date --date="$endtime" +%s);
echo "脚本执行耗时:"$((end_seconds-start_seconds))"s"
执行截图:
可以看到百万数据导入redis只需要7秒,效率很高。
预防措施
如果mysql表特别大,可以考虑分批导入,或者分表,否则在导入过程中可能会出现:
lost connection to mysql server during query
由于max_allowed_packed和超时限制,在查询数据的过程中可能会断开连接。所以当数据表的数据量特别大的时候,需要分页或者分表导入。
总结
本文主要讨论如何在Mysql百万级数据级别下高效迁移到Redis。在逐步实现目标的过程中,总结了以下几点:
1、Redis单线程执行命令,避免了线程切换消耗的时间,但是在超大数据层面,发送和接收响应的延迟是不容忽视的。
2. network nc命令的应用场景,以及数据导入方面的不足。
3、redis RESP协议的理解和应用。
4、Redis快速导入百万级Mysql数据案例。