-
Notifications
You must be signed in to change notification settings - Fork 14
On duty manual
PaddlePaddle 代码库merge操作,会触发跑CE模型。与前一次的评价指标(如精确度、时长等)比较,超过阈值会邮件告警。 这样可以尽可能早地发现PaddlePaddle框架中精度、性能相关的问题。
目前CE模型中集成了12个模型。每个模型中都监测了一些kpi指标。 如果某些指标的数据比上次差了,并且超过了阈值。就会发送邮件告警。
发件人:[email protected]
主题:[TeamCity, FAILED]
Build Paddle :: Continuous Evaluation #XXX
收件人:[email protected]
值班人点开邮件内容,点击如下红框中”#530”链接
-
如果出现下面信息:task: xxx,passed: False, 说明可能是此次代码修改有问题。
-
按照告警邮件内容,联系相应的开发者进行定位
-
如果是其它问题,比如抛异常或者CE服务down了, 联系CE同学处理。
开发者收到通知后,排查是否和自己的代码有关。
- 如果有关,修复,并和值班人同步原因和进展)。
- 如果是其它问题,请联系CE同学处理。
- 如果定位到是某个pr的问题,联系作者同时revert pr,
- 如果是某个模型导致的问题, 联系模型负责人同时disable 改模型(例子:https://github.com/PaddlePaddle/paddle-ce-latest-kpis 中 '__' 开头的模型), 模型负责人:
1 . mnist 郭超容 2. object_detection 一帆 3. image_classification 青青 4. ocr_recognition 豪爽 5. icnet 豪爽
-
seq2seq 青晟
-
language_model 超容
-
transformer 郭晟
-
sequence_tagging_for_ner 毅冰
-
text_classification 毅冰
https://github.com/PaddlePaddle/continuous_evaluation/wiki/Duty-Records
- 日期 (格式:YYYYMMDD, h3标题 )
- 值班人
- 出现 N 次 fail
- 问题1
- 问题描述: xxx
- log url: xxx
- issue url
- 问题2
- ...
- 问题1
CE框架代码 https://github.com/PaddlePaddle/continuous_evaluation
CE模型代码: https://github.com/PaddlePaddle/paddle-ce-latest-kpis
CE web: http://18.222.34.7/
CE teamcity: http://18.222.34.7:8080/