HP-UX scsi reset error 발생시 조치 방법
IT,PC,모바일,스마트폰 정보와 팁 그리고 제품리뷰와 생활정보
HP-UX scsi reset error 발생시 조치 방법
2011. 4. 13. 17:48
1.증상
Syslog, dmesg, event log에서 다음과 유사한 error message 발생
SCSI: Abort Tag -- lbolt: 137759155, dev: 1f00d000, io_id: aa694f
SCSI: Request Timeout -- lbolt: 137759155, dev: 1f00d000
lbp->state: 4020
lbp->offset: 0
lbp->uPhysScript: 580000
SCSI: Async write error -- dev: b 31 0x00d000, errno: 16, resid: 8192,
blkno: 4933304, sectno: 9866608, offset: 756736000, bcount: 8192.
Mar 8 09:39:32 kaieagle vmunix: LVM: Performed a switch for Lun ID = 0 (pv = 0x0000000040327000), from raw device 0x1f080200 (with priority: 0, and current flags: 0x40) to raw device 0x1f091200 (with priority: 1, and current flags: 0x0).
Mar 8 09:39:32 kaieagle vmunix: LVM: Performed a switch for Lun ID = 0 (pv = 0x0000000040355000), from raw device 0x1f091300 (with priority: 0, and current flags: 0x40) to raw device 0x1f080300 (with priority: 1, and current flags: 0x0).
Mar 8 09:39:32 kaieagle vmunix: LVM: vg[36]: pvnum=0 (dev_t=0x1f080300) is POWERFAILED
Mar 8 09:39:32 kaieagle vmunix: LVM: vg[35]: pvnum=0 (dev_t=0x1f091200) is POWERFAILED
Mar 8 09:39:32 kaieagle vmunix: LVM: vg[34]: pvnum=0 (dev_t=0x1f091100) is POWERFAILED
2.발생원인.
해당 device에 I/O가 30초내에 응답이 없을 때 발생함.
Default I/O값은 30초입니다.pvdisplay 명령어로 확인가능합니다.
[root@:/] pvdisplay /dev/dsk/c4t2d0
IO Timeout default
위와같이 I/O가 Timeout 값을 넘어서 응답이 없는 경우는 여러경우가 있을 수 있습니다.
1)H/W 적으로 문제가 있는 경우.(Disk, Cable, HBA, Terminater 등)
2)관련 pathch가 되어있지 않는 경우.(Fibre, SCSI, Lvm patch)
3)실제 시스템의 I/O traffic이 heavy busy한 경우.
3.조치방법.
1)먼저 에러가 발생한 device를 찾아낸다.
SCSI: Request Timeout -- lbolt: 137759155, dev: 1f00d000
dev: 1f00d000 에서 처음 00 두자리는 cX에 해당. 가운데 d 한자리는 tY에 해당,
마지막 한자리 0은 dY에 해당합니다. 모든 수는 hex값입니다.
따라서 이경우 device file은 c0t13d0입니다.
2)pvchange command로 I/O timeout 값을변경합니다.
[root@:/] pvchange -t 300 /dev/dsk/c4t0d0 = Max 300초로 변경한 경우.
3)해당 device가 H/W적으로 문제가 없는지 확인한다.
해당 device에 대해 ioscan, diskinfo, vgdisplay, lvdisplay등의 명령실행,
해당 device가 array인 경우는 반드시 array log를 확인하여야 한다.(logprint, armlog 등)
물리적인 연결상태를 확인한다.
4)관련 patch가 되어있는지 확인한다.
Fibre Channel Mass Storage Driver Patch, Fibre Channel cumulative patch,
Tachyon TL Fibre Channel Driver Patch
SCSI IO Subsystem Cumulative Patch, LVM Cumulative patch
PM/VM/UFS/async/scsi/io/DMAPI/JFS/perf patch, ioscan performance gain for SCSI Subsystem
PCI cumulative patch LVM Cumulative PVLinks patch, LVM commands cumulative patch 등.
(patch는 O/S version에 따라 달라질수 있습니다.)
5)해당 device의 평상시 Disk I/O performance를 check한다.(glance, zamboni등)
I/O traffic이 heavy 한경우 channel 분산이 적절하게 되어있는지 확인한다.
출처 : itrc
출처 : itrc
Skin By KEBIBLOG Ver 1.0 Copyright ⓒ KEBI BLOG. All rights reserved.