Skip to content
This repository has been archived by the owner on Jan 24, 2024. It is now read-only.

On duty manual

guochaorong edited this page Jun 9, 2018 · 12 revisions

背景

PaddlePaddle 代码库merge操作,会触发跑CE模型。与前一次的评价指标(如精确度、时长等)比较,超过阈值会邮件告警。 这样可以尽可能早地发现PaddlePaddle框架中精度、性能相关的问题。

问题排查流程

报警邮件

目前CE模型中集成了12个模型。每个模型中都监测了一些kpi指标。 如果某些指标的数据比上次差了,并且超过了阈值。就会发送邮件告警。

发件人:[email protected]
主题:[TeamCity, FAILED]
Build Paddle :: Continuous Evaluation #XXX
收件人:[email protected]

问题来源定位

值班人点开邮件内容,点击如下红框中”#530”链接

  • 如果出现下面信息:task: xxx,passed: False, 说明可能是此次代码修改有问题。

  • 按照告警邮件内容,联系相应的开发者进行定位

  • 如果是其它问题,比如抛异常或者CE服务down了, 联系CE同学处理。

问题排查

开发者收到通知后,排查是否和自己的代码有关。

  • 如果有关,修复,并和值班人同步原因和进展)。
  • 如果是其它问题,请联系CE同学处理。

值班日志

https://github.com/PaddlePaddle/continuous_evaluation/wiki/Duty-Records

  • 日期 (格式:YYYYMMDD)
  • 值班人
  • 出现 N 次 fail
    • 问题1
      • 问题描述: xxx
      • log url: xxx
      • issue url(paddle框架代码问题)
    • 问题2
      • ...

附录

CE框架代码 https://github.com/PaddlePaddle/continuous_evaluation

CE模型代码: https://github.com/PaddlePaddle/paddle-ce-latest-kpis

CE web: http://18.222.34.7/

CE teamcity: http://18.222.34.7:8080/

Clone this wiki locally