Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

nebula-operator : graphd cyclic restart #108

Closed
dockerxu123 opened this issue Jan 24, 2022 · 35 comments
Closed

nebula-operator : graphd cyclic restart #108

dockerxu123 opened this issue Jan 24, 2022 · 35 comments

Comments

@dockerxu123
Copy link

k8s 安装nebula-operator成功以后 helm方式安装cluster 后pod 为nebula-graphd不断重启。求助

image
image

@dockerxu123
Copy link
Author

版本0.9.0

@dockerxu123
Copy link
Author

我想关掉尽快检查试试 readinessProbe: {} 这个字段应该怎么写正确

@wey-gu
Copy link
Contributor

wey-gu commented Jan 24, 2022

只有 graphD 的话猜测是 vesoft-inc/nebula#3278 造成的,node hostOS 是 cgroupv2 的吧?

可以看看 graphD log 里是不是有这个issue一样的报错?

cgroupv2 问题已经在master 解决了,之后的 2.6.2和 3.x 都不会有这个问题。

@dockerxu123
Copy link
Author

对的 cgroupv2 应该怎么解决 哈哈 几天了这个问题 哈哈

@dockerxu123
Copy link
Author

image

@wey-gu
Copy link
Contributor

wey-gu commented Jan 24, 2022

sorry 哈,不知道您测试的话有没有条件自己的 cherry-pick 这个 vesoft-inc/nebula#3419 然后build containe image 哈?

着急的话可以先用 2.5(这个版本要在配置里把内存水位设置为1.0,否则在容器环境会有另一个问题),那时候还没有引入这个不支持 cgroup2 的问题😭。

能等的话可以等一下 2.6.2(hotfix)、3.0 (新版本)的发布哈。

@dockerxu123
Copy link
Author

好的 期待你们更新版本 哈哈

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 24, 2022

你发的这个网址 vesoft-inc/nebula#3419 访问404 有其它的? 我自己编译一下这个镜像

@dockerxu123
Copy link
Author

我把单独的这个镜像退回2.5.0 还是会重启

@wey-gu
Copy link
Contributor

wey-gu commented Jan 24, 2022

sorry,是这个 vesoft-inc/nebula#3419

应该是不能单独退一个,2.5.0 不兼容 其他版本的 meta/storage 哈。

@dockerxu123
Copy link
Author

那重新拉取master分支 镜像版本是2.6.1 nebula-operator 版本0.9.0 这个问题可以解决不

@wey-gu
Copy link
Contributor

wey-gu commented Jan 24, 2022

那重新拉取master分支 镜像版本是2.6.1 nebula-operator 版本0.9.0 这个问题可以解决不

这个问题就是 2.6.1 上的😭

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 24, 2022 via email

@wey-gu
Copy link
Contributor

wey-gu commented Jan 24, 2022

那我现在把 master分支拉下来   我重新编译这3个镜像,是不是就可以解决问题了

master 现在其实是 3.x 的 release candidate, operator 现在应该还没适配 3.x 😭,否则 其实 docker hub 上 nightly 的 tag 就是每天的 master build。

cc @veezhang @MegaByte875 现在的master 是不是 operator 不支持? 现在(node host os 是 cgroupv2)有更好的办法么?

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 25, 2022 via email

@dockerxu123
Copy link
Author

例如 目前哪个版本比较稳定 适合生产环境使用 例如 operator版本nebula-graphd版本应该怎么适配, 我们目前在调研阶段

@MegaByte875
Copy link
Contributor

neubla-operartor 0.8.0 support nebula 2.5.0, nebual-operator 0.9.0 support nebula v2.5.0 & v2.6.0,@dockerxu123 You can try
nebula-operator 0.9.0 with nebula 2.5.0 @wey-gu We do not support master now

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 25, 2022 via email

@MegaByte875
Copy link
Contributor

--system_memory_high_watermark_ratio=1 @wey-gu I think the parameter can't resolve the problem, graphd should support cgroupv2.

@wey-gu
Copy link
Contributor

wey-gu commented Jan 25, 2022

--system_memory_high_watermark_ratio=1 @wey-gu I think the parameter can't resolve the problem, graphd should support cgroupv2.

This system_memory_high_watermark_ratio was just a reminding on another issue to avoid(there are issues on container ram calculation), not fixing the issue for cgroupv2, but this cgroupv2 dependency was introduced from 2.6+ if I understand it correctly.

the file src/common/memory/MemoryUtils.cpp that brought the issue was not introduced in 2.5, thus cgroupv2 wont block graphD from booting up.(see ref)

ref:

@wey-gu
Copy link
Contributor

wey-gu commented Jan 25, 2022

换了 还是一样的 nebula-operator 0.9.0 with nebula 2.5.0

2.5.0 还是 graphD 起不来,而 metaD,storageD 是正常的?
能看到日志么?

kubectl get events --sort-by=.metadata.creationTimestamp
kubectl logs <nebula-graphd-pod-id>
kubectl logs --previous <nebula-graphd-pod-id>
kubectl get <nebula-graphd-pod-id>-o yaml
还有 log 对应的 volume 里有东西么?

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 25, 2022 via email

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 25, 2022 via email

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 25, 2022 via email

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 26, 2022 via email

@wey-gu
Copy link
Contributor

wey-gu commented Jan 26, 2022

非常奇怪,可能 2.5.0 graphD 也使用了 cgroupv1 的 sysfs 做内存使用分析,造成了一样的问题。

不支持跨版本的 graphD 和 metaD storageD 组合哈,2.0.1 的镜像可能要配合当时的 operator 版本,应该是 0.8.0 之前的版本,如果要部署 2.0.1 可以清理掉所有东西(包括CRD那些东西),全弄 2.0.1。

辛苦啦~~~谢谢反馈

另外建议等 2.6.2 哈,估计很快啦~~

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 26, 2022 via email

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 26, 2022 via email

@wey-gu
Copy link
Contributor

wey-gu commented Jan 26, 2022

快了,有了之后我过来ping您,如果没有特别的意外可能一两天

@wey-gu
Copy link
Contributor

wey-gu commented Jan 27, 2022

2.6.2 已经发布了,docker hub 上已经有image了哈 :)

@dockerxu123
Copy link
Author

还是会重启哦 我nebula-operator 0.9.0 nebula-graphd 2.6.2 pod还是会自动重启
image
image

@wey-gu
Copy link
Contributor

wey-gu commented Jan 29, 2022

奇怪,请问能看到 graphd-0 里边 log volume 里的文件么?说什么,再就是 graphd-0 自身 pod/container 有log么?

@dockerxu123
Copy link
Author

dockerxu123 commented Jan 29, 2022 via email

@wey-gu
Copy link
Contributor

wey-gu commented Jan 31, 2022

我 k8s 不算熟悉,可以,我的微信 ID 是 sivvei。或者你来 slack 找我也行。

@wey-gu
Copy link
Contributor

wey-gu commented Feb 7, 2022

talked offline that @dockerxu123 figured out by himself that it's caused by the config:
kubernetesClusterDomain: "cluster.local", which should have been configured accordingly.

@wey-gu wey-gu closed this as completed Feb 7, 2022
@wey-gu wey-gu changed the title nebula-operator 安装后graphd-0不断重启 nebula-operator : graphd cyclic restart Feb 7, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants