fix: gc task may encounter deadlock #168

cauchy1988 · 2021-10-12T04:37:00Z

遇到的问题描述:
1、我们在恶劣的生产机器环境下发现pegasus-java-client可能会发生死锁现象
2、因为我们应用一次取的数据很多，所以我们初始化客户端的时候配置的超时时间很大与sessionResetTimeWindowMs恰好相同
3、于是在生产环境因为各种原因读取发生超时，导致了以下调用逻辑而发生了死锁，这里为了简化逻辑描述，假设我们刚开始配置了两个异步nio线程，即 ’asyncWorkers' 设置成2，这两个线程分别记做线程-1，线程-2 ；然后我们有3个replicaserver，java client初始化的时候产生的ReplicaSession结构体和replicaserver 1:1 对应，这里记做 Replicasession1 ， ReplicaSession2， ReplicaSession3；并且每个 ReplicaSession 在连接对应的replicaserver时，内部的nettychannel会绑定一个nio线程，这里也为了描述方便，设定对应绑定的关系如下: ReplicaSession1---线程1， ReplicaSession2---线程2， ReplicaSession3---线程1; 发生死锁的流程图如下:

4、如上图，发生死锁的原因是因为， ReplicaSession.addTimer 的超时流程会被随机调度到线程1 或者是线程2；然后发生超时后 tryNotifyFailureWithSeqID 方法会调用closeSession函数来关闭session，但是关闭session的同步操作要在对应的Replicasession里的nettychannel绑定好的线程内部执行的；于是就可能发生图上的交叉情况发生死锁；
5、这个死锁的概率常规情况应该是概率很小的，和我司的极限使用情况有关系
6、给出的修复方法是在初始化ReplicaSession的时候就将超时调度的线程和 nettychannel线程强制设置成1个，那么就不会发生上图交叉的情况而发生死锁了

foreverneverer · 2021-10-13T08:03:28Z

我们也出现过超时线程无法清理timeout请求，导致请求堆积的场景。我们只是简单的猜测是机器资源导致清理线程hang住，但实际一直没有定位到原因，非常感谢你的工作。

如果是死锁引起的，一个简单的方法，是否可以直接把超时调度线程用别的线程池接管？

foreverneverer · 2021-10-13T08:06:23Z

nettychannel线程强制设置成1个

这个变更应该不够合理，这会导致配置netty线程池个数的参数失效吧

cauchy1988 · 2021-10-13T09:00:38Z

nettychannel线程强制设置成1个

这个变更应该不够合理，这会导致配置netty线程池个数的参数失效吧

确实影响的因该是：如果asyncworker数大于 replicaserver数，那么就会有闲置的线程
然后我觉得你说的对，额外设置专门处理超时任务的线程也可以解决

cauchy1988 · 2021-10-13T09:03:08Z

nettychannel线程强制设置成1个

这个变更应该不够合理，这会导致配置netty线程池个数的参数失效吧
我再改改；

cauchy1988 · 2021-10-13T09:17:42Z

我们也出现过超时线程无法清理timeout请求，导致请求堆积的场景。我们只是简单的猜测是机器资源导致清理线程hang住，但实际一直没有定位到原因，非常感谢你的工作。

如果是死锁引起的，一个简单的方法，是否可以直接把超时调度线程用别的线程池接管？

加了专门处理超时任务的线程池，帮review下

foreverneverer · 2021-10-13T09:40:22Z

我们也出现过超时线程无法清理timeout请求，导致请求堆积的场景。我们只是简单的猜测是机器资源导致清理线程hang住，但实际一直没有定位到原因，非常感谢你的工作。
如果是死锁引起的，一个简单的方法，是否可以直接把超时调度线程用别的线程池接管？

加了专门处理超时任务的线程池，帮review下

我建议你可以在压测环境下（大量timeout）长时间运行测试一下，以尽量保证变更不会引起其他问题

foreverneverer · 2021-10-13T09:44:40Z

请使用mvn spotless:apply 格式化你的代码

cauchy1988 · 2021-10-13T09:48:32Z

请使用mvn spotless:apply 格式化你的代码

ok

cauchy1988 · 2021-10-13T09:54:52Z

spotless:apply

感觉没有效果，是执行别的maven命令嘛

foreverneverer · 2021-10-13T10:41:08Z

spotless:apply

感觉没有效果，是执行别的maven命令嘛

ci环境可能存在问题，你先再多测试测试这个PR吧

foreverneverer · 2021-10-22T03:29:41Z

[WARN] /home/runner/work/pegasus-java-client/pegasus-java-client/src/main/java/com/xiaomi/infra/pegasus/client/PegasusClientInterface.java:73: Javadoc comment at column 0 has parse error. Details: no viable alternative at input '   *' while parsing JAVADOC_TAG [AtclauseOrder]
Audit done.
Warning:  src/main/java/com/xiaomi/infra/pegasus/client/PegasusClientInterface.java:[73] (javadoc) AtclauseOrder: Javadoc comment at column 0 has parse error. Details: no viable alternative at input '   *' while parsing JAVADOC_TAG

Java Doc格式需要修改参考：https://github.com/XiaoMi/pegasus-java-client/pull/170/files#diff-4306d39d8e3a0d08bf4387c0d6941a057f93908c4348aaa241f9f06291f90d7aR72

cauchy1988 · 2021-10-22T11:32:42Z

[WARN] /home/runner/work/pegasus-java-client/pegasus-java-client/src/main/java/com/xiaomi/infra/pegasus/client/PegasusClientInterface.java:73: Javadoc comment at column 0 has parse error. Details: no viable alternative at input '   *' while parsing JAVADOC_TAG [AtclauseOrder]
Audit done.
Warning:  src/main/java/com/xiaomi/infra/pegasus/client/PegasusClientInterface.java:[73] (javadoc) AtclauseOrder: Javadoc comment at column 0 has parse error. Details: no viable alternative at input '   *' while parsing JAVADOC_TAG

Java Doc格式需要修改参考：https://github.com/XiaoMi/pegasus-java-client/pull/170/files#diff-4306d39d8e3a0d08bf4387c0d6941a057f93908c4348aaa241f9f06291f90d7aR72

done

foreverneverer · 2021-10-26T02:11:28Z

src/main/java/com/xiaomi/infra/pegasus/client/PegasusClientInterface.java

@@ -70,7 +70,7 @@ public PegasusTableInterface openTable(String tableName, int backupRequestDelayM
   * @param tableOptions control the table feature, such as open backup-request, compress and etc,
   *     see {@link TableOptions}
   * @return


删除或者添加注释

levy5307

Thanks for your contribution! @cauchy1988

fix extreme deadlock

e275bf5

foreverneverer changed the title ~~fix extreme deadlock~~ fix: gc task may encounter deadlock Oct 13, 2021

fix: gc task may encounter deadlock

67e52e8

cauchy1988 force-pushed the fix_extreme_deadlock branch from 6119fbc to 67e52e8 Compare October 13, 2021 10:08

olivertang added 2 commits October 15, 2021 11:41

fix: gc task may encounter deadlock

9e4759a

fix testzk

8de60d6

fix java doc

3f9c345

foreverneverer previously approved these changes Oct 26, 2021

View reviewed changes

foreverneverer reviewed Oct 26, 2021

View reviewed changes

foreverneverer self-requested a review October 26, 2021 02:11

fix: gc task may encounter deadlock

9082405

cauchy1988 dismissed foreverneverer’s stale review via 9082405 October 26, 2021 02:17

foreverneverer approved these changes Oct 26, 2021

View reviewed changes

foreverneverer added the manual-test label Oct 26, 2021

levy5307 approved these changes Oct 26, 2021

View reviewed changes

levy5307 merged commit e2cc860 into XiaoMi:master Oct 26, 2021

Smityz mentioned this pull request Dec 13, 2021

fix extreme deadlock #169

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: gc task may encounter deadlock #168

fix: gc task may encounter deadlock #168

cauchy1988 commented Oct 12, 2021

foreverneverer commented Oct 13, 2021 •

edited

Loading

foreverneverer commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

foreverneverer commented Oct 13, 2021

foreverneverer commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

foreverneverer commented Oct 13, 2021

foreverneverer commented Oct 22, 2021

cauchy1988 commented Oct 22, 2021

foreverneverer Oct 26, 2021

cauchy1988 Oct 26, 2021

levy5307 left a comment

fix: gc task may encounter deadlock #168

fix: gc task may encounter deadlock #168

Conversation

cauchy1988 commented Oct 12, 2021

foreverneverer commented Oct 13, 2021 • edited Loading

foreverneverer commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

foreverneverer commented Oct 13, 2021

foreverneverer commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

cauchy1988 commented Oct 13, 2021

foreverneverer commented Oct 13, 2021

foreverneverer commented Oct 22, 2021

cauchy1988 commented Oct 22, 2021

foreverneverer Oct 26, 2021

Choose a reason for hiding this comment

cauchy1988 Oct 26, 2021

Choose a reason for hiding this comment

levy5307 left a comment

Choose a reason for hiding this comment

foreverneverer commented Oct 13, 2021 •

edited

Loading