Storage World

Thinking will not overcome fear but action will.

Scrub 导致 OSD DOWN问题分析

夏天的尾巴

环境信息: ceph 版本 0.94.5, centos 6.7 前阵子在测试环境发现一个OSD每次进行scrub,都会挂掉, core信息如下: osd/osd_types.cc:4103: FAILED assert (clone_size.cout(clone)) ceph version 0.94.5: (SnapSet::get_clone_bytes(snapid_...

Monitor容量一直增长问题

我的周一,闷热~~

最近遇到Monitor容量一直增长,直到达到设定的上线,自动退出,有时候Monitor还需要重 建。 我们先是从Monitor代码层面去研究,是否有未合并的BUG(我们使用的是0.94.5版 本),没有发现有跟压缩相关的问题单,在ceph社区群里询问,有成都的同行在jewel 10.2.10也遇到过类似问题,后来总结出是Leveldb的问题,对于Leveldb不熟,走读代码, 修改B...

一次严重的librbd客户端不可用

我的周一,安静~~

前阵子,一个OSD线程的max_open_files达到设置的最大值,导致在simple message通信的accept线程退出,OSD不在监听任何,任何客户端重连都会失败,可复现代码如下: void *Accepter::entry() { int errors = 0; struct pollfd pfd; pfd.fd = listen_sd; pfd.eve...

OSD利用率高,集群却一切正常

周一晚上,大雨漂泊~~

现象 监控系统发现有三个OSD连续一分钟内利用率超过80% 检查集群状态 ceph -s一切正常,osd没有下线上线, monitor工作正常 检查PG分布,各个主机中PG分布 PG分布也正常,主机中PG数量差不多,关键是OSD告警的三台主机其PG总数在平均水平之下 查看PG分布是用了如下链接的脚本: http://www.zphj1987.com/2015/10/04/%E6...

搭建过程中遇到的问题

我的周日下午~~

问题一 安装jekyll依赖的ruby版本问题 我用VM搭建了Centos虚拟机,目前为止都是为了管理我的GIT REPO,昨天在搭建过程中,BY博客中了解到可以使用jekyll和 jekyll bundler快速的调试博客, 安装过程中提示需要安装Ruby,我安装了一个Ruby 2.2的,安装方式如下: yum -y install gdbm-devel libdb4-devel l...

我的开篇博客

我的周六一天~~

开张了 很久之前就想开通一个属于自己的博客,可以自己发布,管理,专注于写自己的技术和经验~ 从2012年4月份到今天,已经过了六个年头了,很少写博客,之前多是黏贴拷贝别人的知识到CSDN博客,很少写一些自己技术专长的知识~ 我自己主攻方向是分布式存储和数据库,会写一些自己学习和理解的知识,平时也做ceph运维相关的工作,也会写一些工作中遇到的BUG,供参考~