태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

HP-UX scsi reset error 발생시 조치 방법

IT/Unix|2011. 4. 13. 17:48





1.증상 
Syslog, dmesg, event log에서 다음과 유사한 error message 발생 

SCSI: Abort Tag -- lbolt: 137759155, dev: 1f00d000, io_id: aa694f 

SCSI: Request Timeout -- lbolt: 137759155, dev: 1f00d000 
                lbp->state: 4020 
                lbp->offset: 0 
                lbp->uPhysScript: 580000 

SCSI: Async write error -- dev: b 31 0x00d000, errno: 16, resid: 8192, 
        blkno: 4933304, sectno: 9866608, offset: 756736000, bcount: 8192. 

Mar  8 09:39:32 kaieagle vmunix: LVM: Performed a switch for Lun ID = 0 (pv = 0x0000000040327000), from raw device 0x1f080200 (with priority: 0, and current flags: 0x40) to raw device 0x1f091200 (with priority: 1, and current flags: 0x0). 
Mar  8 09:39:32 kaieagle vmunix: LVM: Performed a switch for Lun ID = 0 (pv = 0x0000000040355000), from raw device 0x1f091300 (with priority: 0, and current flags: 0x40) to raw device 0x1f080300 (with priority: 1, and current flags: 0x0). 
Mar  8 09:39:32 kaieagle vmunix: LVM: vg[36]: pvnum=0 (dev_t=0x1f080300) is POWERFAILED 
Mar  8 09:39:32 kaieagle vmunix: LVM: vg[35]: pvnum=0 (dev_t=0x1f091200) is POWERFAILED 
Mar  8 09:39:32 kaieagle vmunix: LVM: vg[34]: pvnum=0 (dev_t=0x1f091100) is POWERFAILED 



2.발생원인. 
해당 device에 I/O가 30초내에 응답이 없을 때 발생함. 

Default I/O값은 30초입니다.pvdisplay 명령어로 확인가능합니다. 
[root@:/] pvdisplay /dev/dsk/c4t2d0 
IO Timeout                  default 

위와같이 I/O가 Timeout 값을 넘어서 응답이 없는 경우는 여러경우가 있을 수 있습니다. 

1)H/W 적으로 문제가 있는 경우.(Disk, Cable, HBA, Terminater 등) 

2)관련 pathch가 되어있지 않는 경우.(Fibre, SCSI, Lvm patch) 

3)실제 시스템의 I/O traffic이 heavy busy한 경우. 



3.조치방법. 

1)먼저 에러가 발생한 device를 찾아낸다. 
SCSI: Request Timeout -- lbolt: 137759155, dev: 1f00d000 
dev: 1f00d000 에서 처음 00 두자리는 cX에 해당. 가운데 d 한자리는 tY에 해당, 
마지막 한자리 0은 dY에 해당합니다. 모든 수는 hex값입니다. 
따라서 이경우 device file은 c0t13d0입니다. 

2)pvchange command로  I/O timeout 값을변경합니다. 
[root@:/] pvchange -t 300 /dev/dsk/c4t0d0 = Max 300초로 변경한 경우. 

3)해당 device가 H/W적으로 문제가 없는지 확인한다. 
  해당 device에 대해 ioscan, diskinfo, vgdisplay, lvdisplay등의 명령실행, 
해당 device가 array인 경우는 반드시 array log를 확인하여야 한다.(logprint, armlog 등) 
물리적인 연결상태를 확인한다. 

4)관련 patch가 되어있는지 확인한다. 
 Fibre Channel Mass Storage Driver Patch, Fibre Channel cumulative patch, 
Tachyon TL Fibre Channel Driver Patch 
SCSI IO Subsystem Cumulative Patch,  LVM Cumulative patch 
PM/VM/UFS/async/scsi/io/DMAPI/JFS/perf patch, ioscan performance gain for SCSI Subsystem 
 PCI cumulative patch LVM Cumulative PVLinks patch, LVM commands cumulative patch 등. 
(patch는 O/S version에 따라 달라질수 있습니다.) 

5)해당 device의 평상시 Disk I/O performance를 check한다.(glance, zamboni등) 
  I/O traffic이 heavy 한경우 channel 분산이 적절하게 되어있는지 확인한다. 

출처 : itrc 

댓글()