服务器raid5坏盘-换盘-修复阵列过程

07-19 1135阅读

目录

  • 背景
  • 原因分析
  • 解决步骤
    • 名词解释
    • 进入raid管理界面
    • 换回旧4号,进行import
    • 再次更换4号盘
    • 总结

      背景

      服务器除尘之后文件服务器部分文件不能访问了,部分文件夹内容为空,起初以为是新配置的权限的问题,排查之后发现不仅仅是权限问题

      服务器raid5坏盘-换盘-修复阵列过程

      jumpserver访问服务器发现部分文件显示“???”

      服务器raid5坏盘-换盘-修复阵列过程

      此时想到可能是服务器硬件故障了,随即查看

      服务器显示内容:

      服务器raid5坏盘-换盘-修复阵列过程

      服务器灯2号黄灯闪烁,5号8号灯不亮,显然不是好的预兆

      服务器raid5坏盘-换盘-修复阵列过程

      原因分析

      1、文件夹为空可能是阵列出现了问题

      2、没有权限访问应该是修改了Samba的配置文件

      初步分析

      文件夹为空:这通常与存储介质(如硬盘)上的数据丢失或不可访问有关。在RAID环境中,这可能是由于某个或多个物理磁盘(PD)故障或RAID配置问题导致的。

      无权限访问:虽然最初怀疑是Samba配置问题,但考虑到是在除尘后出现的,这更可能是由硬件或RAID阵列状态变化导致的文件系统权限或所有权问题。

      解决步骤

      名词解释

      首先对raid界面的几个名词了解一下

      diskgroup:磁盘组,这里相当于是阵列,例如配置了一个raid5,就是一个磁盘组

      vd(virtual disk):虚拟磁盘,虚拟磁盘可以不使用阵列的全部容量,也就是说一个磁盘组可以分为多个vd

      pd(physical disk):物理磁盘

      hs:hotspare 热备

      mgmt:管理

      进入raid管理界面

      CTRl+r 进入raid

      VD mgmt:2号和4号missing,8号不见了

      服务器raid5坏盘-换盘-修复阵列过程

      PD mgmt:2号和4号 Foreign

      服务器raid5坏盘-换盘-修复阵列过程

      解释一下这里的foreign,RAID控制器识别到的一个不属于其当前配置或管理域的存储配置。这可能是从另一个系统迁移过来的硬盘,或者是在没有正确初始化或导入到当前系统的情况下插入的硬盘。

      Foreign View界面:多了一个阵列DISk Group 2,显示4号 Online

      这里也可以说明4号不属于当前配置或管理域的存储配置,应该是从另一个系统迁移过来的硬盘(前两天刚刚把4号盘换了,但是仅仅换了,而没有配置,和显示的情况一致)

      服务器raid5坏盘-换盘-修复阵列过程

      换回旧4号,进行import

      上面说4号是之前换掉的(这里称它为新4号,为了和替换掉的旧4号区分),所以又把之前认为坏掉的旧4号取回来(当时旧4号状态灯不亮了,所以认为它坏掉了,直接找了一块不用的盘放了进去,从上面的可以看出来, 新4号之前在其他raid中进行过配置),放了进去

      在VD 界面,F2

      服务器raid5坏盘-换盘-修复阵列过程

      服务器raid5坏盘-换盘-修复阵列过程

      import之后,没有foreign view了,也就是没有外来盘了

      2号online,4号offline服务器raid5坏盘-换盘-修复阵列过程

      1. Online(在线):

        ○ 硬盘或RAID卷是活动的,并且可以被系统访问。

        ○ 数据可以从该硬盘或RAID卷中读取,也可以写入其中(如果它是可写的)。

        ○ 通常,当系统启动时,所有健康的硬盘和RAID卷都会自动变为在线状态。

      2. Offline(离线):

        ○ 硬盘或RAID卷当前不可用或不可访问。

        ○ 这可能是由于多种原因,例如硬盘故障、RAID控制器问题、配置错误或管理员手动将其设置为离线。

        ○ 当硬盘或RAID卷处于离线状态时,不能从其中读取或写入数据。

        ○ 在某些情况下,管理员可能会选择将硬盘或RAID卷设置为离线,以便进行维护、更换或重新配置。

        这里显然不是我故意把4号设置成offline的

      再看一下PD Mgmt界面,没有4号,仍旧没有8号(一会儿再解决8号问题)

      服务器raid5坏盘-换盘-修复阵列过程

      旧4号这里就是坏掉了,取下旧4号,这里是热插拔,4号位置显示Missing

      服务器raid5坏盘-换盘-修复阵列过程

      再次更换4号盘

      这里使用了一块没有做过raid的盘放到了4号位置,直接rebuild了

      服务器raid5坏盘-换盘-修复阵列过程

      到这里,阵列再重建了,8号暂时不解决,等阵列彻底修复之后,再进行一下备份,再解决8号和2号问题.

      总结

      Foreign View:当RAID控制器识别到不属于其当前配置或管理域的硬盘时,会显示为Foreign。这通常意味着硬盘来自另一个RAID配置或系统。

      Import:当将旧4号硬盘换回并成功导入后,Foreign View消失,这表明RAID控制器现在能够识别并管理这块硬盘。

      在RAID阵列中,当一个或多个磁盘发生故障或丢失时,确实需要进行重建以恢复数据的冗余和完整性。

      最后再说一下整体分析过程和解决步骤

      1、确认RAID级别和配置。

      2、替换故障磁盘

      3、等待重建完成:

      RAID重建是一个耗时的过程,具体取决于RAID级别、磁盘容量、RAID控制器性能以及替换磁盘的写入速度。要耐心等待重建完成。

      4、备份数据:

      在阵列重建完成后,强烈建议立即备份所有数据。虽然RAID提供了数据冗余,但备份仍然是最可靠的数据保护方式。

      5、解决其他丢失的磁盘:

      这里还有8号和2号磁盘存在问题。在解决了4号磁盘的问题后,按照类似的步骤来处理这些磁盘。但是,如果RAID阵列中的多个磁盘同时发生故障,可能会导致数据丢失的风险增加。

      6、检查硬件和连接:

      确保所有磁盘都正确连接在RAID控制器上,并且没有物理损坏或连接问题。有时,磁盘丢失可能是由于电缆松动、连接器脏污或硬件故障引起的。

      7、检查RAID控制器和驱动程序

      切记,在进行任何可能影响数据完整性的操作之前,始终确保有可靠的数据备份。这将是在出现问题时恢复数据的最后一道防线。

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]