灌水区
1753854 成员
7669 在线
108808 解答
新建帖子

一次3par故障的分享

 
yanghuanheng
见习投稿人

一次3par故障的分享

近期在某公司进行了一次3partroubleshooting,感触颇多,特与大家分享。

客户环境:23par V400remote copy,均配置了AO

故障现象:源端2VV进行扩容,在remote copy进行同步时候,目标端空间不足,导致源端存储连接主机time out,客户虚拟机环境主机重启。

故障分析:

  • remote copy groups里的VV进行扩容的时候,必须停止remote copy 同步。扩容完成后重新同步时,停止期间的数据变化量将占据snapshots 空间。

Snapshot data logical disks provide the storage space for snapshots or virtual copies. The snapshot space contains copies of user data that changed since the previous snapshot of the volume was created.

客户对所需空间考虑不足,导致耗尽目标端存储空间,无法再为快照VV分配相应的逻辑块,remote copy失败。

 

  • 当目标端存储无法为snapshot 分配空间时,源端变动数据无法复制至目标端,为保证数据一致性,源端将保留即时点快照。如果创建快照进程耗时过长,remote copy 限制读写的时间也将较长,这将导致某些主机端IO time out,从而导致了主机端的重启。

Remote Copy functions as if the virtual volumes in a volume group are related and therefore ensures that the data in the virtual volumes within a volume group maintain write consistency.

  • When you start or stop Remote Copy operations, Remote Copy starts and stops operations

for the whole volume group.

  • When you (or an automated process) create a point-in-time snapshot of virtual volumes in a

volume group, Remote Copy blocks writes to all volumes in the group in order to ensure a

consistent point-in-time virtual copy of the whole volume group.

 

3、客户在空间的使用中,也包含一些疑问,通过查询相关手册,我们也有了合理的解释。

3.1 在存储已分配的空间中,发现很多Unused空间,这部分空间无法使用。

体现在LD层面就是一些LD分配空间很大,但使用率很低

520 ESXi_OA_02.usr.1           -         5 normal           0/1   675840    93056 C,V     0  ---     N    Y

521 ESXi_OA_02.usr.3           -         5 normal           1/0   110592    69376 C,V     0  ---     N    Y

522 ESXi_OA_02.usr.4           -         5 normal           1/0   675840     6016 C,V     0  ---     N    Y

产生原因:

单个卷创建操作导致创建了多个相同的虚拟卷时,则支持这些卷的基础逻辑磁盘将由卷组共享。 如果随后删除了该卷组的几个成员,则基础逻辑磁盘的空间可能无法有效使用。 由卷组共享的一个或多个逻辑磁盘可能仅有一小部分区域会映射到现有虚拟卷中。 但是,在创建新的逻辑磁盘时,其未使用的区域对系统不可用。

CPG 提供逻辑磁盘容量的共享池,以供从该池提取空间的所有虚拟卷使用。 如果删除从 CPG 提取的卷,或者这些卷的副本空间增加然后缩小,则 CPG 池中的基本逻辑磁盘的空间使用效率可能会变低。

解决办法:

%compactcpg <cpg_name>

%compactld <ld_name>

 

3.2 客户配置了AO,在其AO配置中,已包含了compact_cpg的进程,不起作用。

The startao command has a -compact auto option that runs compactcpg only if one or more of the following conditions are met (otherwise, compactcpg is not run):

  1. There is unused space in the CPG and the current allocated space is above the warning limit.
  2. The unused space in the CPG is more than a certain fraction (25 percent) of the CPG space. This is the total unused space across user, snapshot, and admin space.
  3. The space available to grow the CPG (i.e., free chunklets for the CPG) is less than four times the CPG growth increment. This can be examined by comparing the LDFree output of showspace -cpg with showcpg -sdg.