This repository has been archived by the owner on Jan 24, 2024. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 14
On duty manual
guochaorong edited this page Sep 7, 2018
·
12 revisions
PaddlePaddle 代码库merge操作,会触发跑CE模型。与前一次的评价指标(如精确度、时长等)比较,超过阈值会邮件告警。 这样可以尽可能早地发现PaddlePaddle框架中精度、性能相关的问题。
目前CE模型中集成了12个模型。每个模型中都监测了一些kpi指标。 如果某些指标的数据比上次差了,并且超过了阈值。就会发送邮件告警。
发件人:[email protected]
主题:[TeamCity, FAILED]
Build Paddle :: Continuous Evaluation #XXX
收件人:[email protected]
值班人点开邮件内容,点击如下红框中”#530”链接
-
如果出现下面信息:task: xxx,passed: False, 说明可能是此次代码修改有问题。
-
按照告警邮件内容,联系相应的开发者进行定位
-
如果是其它问题,比如抛异常或者CE服务down了, 联系CE同学处理。
开发者收到通知后,排查是否和自己的代码有关。
- 如果有关,修复,并和值班人同步原因和进展)。
- 如果是其它问题,请联系CE同学处理。
- 如果定位到是某个pr的问题,联系作者同时revert pr (reviews为: guochaorong和 pr作者)
- 如果是某个模型导致的问题, 联系模型负责人去disable 该模型(https://github.com/PaddlePaddle/paddle-ce-latest-kpis 中 '__' 开头的模型, 是disable的)
模型负责人:
1 . mnist 郭超容
2. object_detection 一帆
3. image_classification 青青
4. ocr_recognition 豪爽
5. icnet 豪爽
1. seq2seq 青晟
2. language_model 超容
3. transformer 郭晟
4. sequence_tagging_for_ner 毅冰
5. text_classification 毅冰
https://github.com/PaddlePaddle/continuous_evaluation/wiki/Duty-Records
- 日期 (格式:YYYYMMDD, h3标题 )
- 值班人
- 出现 N 次 fail
- 问题1
- 问题描述: xxx
- log url: xxx
- issue url
- 问题2
- ...
- 问题1
CE框架代码 https://github.com/PaddlePaddle/continuous_evaluation
CE模型代码: https://github.com/PaddlePaddle/paddle-ce-latest-kpis
CE web: http://18.222.34.7/
CE teamcity: http://18.222.34.7:8080/