置 顶
2024
10-10
10-10
[ RabbitMQ ] 重要知识点备忘录
Rabbitmq 集群异常故障处理流程
1. slave 挂掉
当 slave 挂掉之后,除了与 slave 相连的客户端连接全部断开,没有其他影响。
2. master 挂掉
当 master 挂掉之后,会有以下连锁反应:
(1)与 master 连接的客户端连接全.... Read More >
2024
09-27
09-27
Redis 3.20集群迁移slots槽点丢失key数据
一、问题
redis slots迁移的时候,在迁移之后key数量会变少.
二、排查
2.1、思考
redis 3.x也是比较成熟的产品了,为什么会丢key?别人有没有遇到同样的问题?
假设丢key了,如果key是因为expire丢失,那应该是正常,如果没有expir.... Read More >
2024
09-18
09-18
Linux ulimit 配置说明
ulimit 设置不当经常会引起各种各样的问题,比如很经典的 too many open files,网上也有很多文章讲解 ulimit 设置,如 initscrip 设置、PAM、systemd 的配置等等。
由于 systemd 已经成为主流,本文以 Debian 11 bullseye.... Read More >
基础概念
redis cluster是无中心节点P2P的集群架构,内部采用gossip协议传递维护集群的拓扑结构和集群元数据。社区文档地址: https://redis.io/topics/cluster-tutorial
failover是redis cluster.... Read More >
2024
09-06
09-06
【原创】MySQL远程长连接很短时间就超时夯(hang)住
现象说明
研发说有一台线上服务器(此处称为A服务器)需要远程连接数据库服务器,A服务器上配置了连接池,需要每小时跑一次任务,连接池设置的超时时间是1小时,但是发现如果没有数据传输,不到半小时数据库上的连接就消失了,而A服务器上面的已建立的连接却夯住不动了,无法继续执行sql命令,需要运维查看.... Read More >
写在前面:
研发发来邮件说线上有台服务器跑程序报错,信息如下:
./agent: /lib64/libc.so.6: version `GLIBC_2.14' not found (required by./agent)
从上面报错可以看出,程序运行时候,没有找到“GLIBC_2.... Read More >
2024
09-05
09-05
【原创】缩减大数据量Redis集群主从数据同步时间的解决方案
问题描述
随着公司业务量得大幅增长,还有某些业务系统将redis当成数据库使用,不设置key过期时间,导致现在生产环境的一些redis集群容量越来越大,最大的集群目前已经使用1T+的内存空间,集群中单节点数据大小更是达到40G+,如此大的数据量对日常的运维工作产生以下影响:
单节点数.... Read More >
2024
09-03
09-03
性能指标:TPS、QPS、并发数、RT概念详解
性能测试行业常用的性能指标表示法:
响应时间(RT)
响应时间是指系统对请求作出响应的时间。直观上看,这个指标与人对软件性能的主观感受是非常一致的,因为它完整地记录了整个计算机系统处理请求的时间。由于一个系统通常会提供许多功能,而不同功能的处理逻辑也千差万别,因而不.... Read More >
2024
09-02
09-02
异地多活实践与设计思考点归纳
一、指导事项归纳
1.多活原因归纳
推动多活的原因大体可归纳为以下三种。
高可用架构部署
业务整体的容灾
单机房容量限制
2.多活指导归纳
多活牵扯公司业务方方面面,整体来讲业务改造和基础设施中间件改造两大块。
核心链路自包含可逻辑分片
.... Read More >
1、现象
Redis集群迁移数据,分配槽点时遇到以下报错:[root@sink ~]# redis-cli --cluster rebalance --cluster-use-empty-masters 172.0.1.1:6379
Performing Cluster Check (.... Read More >