[Linux] Re: ibm main frame R35 & R45

---------

New Message Reply About this list Date view Thread view Subject view Author view

From: Murat Koc (murat.koc@frontsite.com.tr)
Date: Wed 16 Oct 2002 - 12:19:48 EEST


> Selamlar,

Selam,

> Sevgili Murat, bu makinalardan birine dokunma firsatim olmadi fakat
> tanitimlarinda, vs. anlatildigi kadar taniyorum. Bence cok *nadir*
> durumlar haric hemen hic kimsenin ihtiyaci olmaz. Ustelik burada "bu makina
> hakkinda ne dusunuyorsunuz, almaya deger mi acaba?" seklinde bir soru
> soruluyorsa, kesinlikle alinmaz derim. Allah askina, boyle bir makina ile
> yapilabilecekleri sen biliyorsun. Bunlari yapmayi planlayan biri gelip
> de burada alsam mi acaba der mi ???

Sevgili Baris, evet bu son sorunda haklisin. Himm cok nadir durumlar cok
degisken olabiliyor ama bugun TR daki butun bankalarda nerede ise s390
lar olmasi lazim, kamu kurumlarinda ... extreme bir ornek olarak British
Airways de 12 tane var :)
 
> SPOF'a gelince, konuya ben bu sekilde yaklasmamistim ama fikrimi
> soyleyeyim :). Ola ki makinadaki gigabit etherneti, vs. kullanmayi uygun
> gordun ve bu alete gelen kablolardan birinin koptugunu dusunelim (olmaz
> deme lutfen :). Bu da bir SPOF degil mi. Veya switchlerin bozuldu, bu
> makinayi koydugun yerde cok ciddi elektirik poblemleri yasamaya
> basladin. Uzerine ucak dustu, vs. vs. :). Sonuc olarak tek (single) bir
> aletin varsa failure oldugu zaman da bu single point of failure olmaz
> mi?

Once makinada bildiginiz anlamda gigabit ethernet seklinde bir yapi yok.
OSA denilen bir yapi var bunu ister ethernet, ister gigabit ethernet
ister ivir zivir olarak tanimlayabiliyorsun ve kullanabiliyorsun. OSA
(Open System Adaptor) Sonra himm bu makinaya gelen kablolardan birinin
kopmasi makinaya ait olan bir SPOF degildir. Switchlerinin yedek sistemi
olur, routing lerinin yedekleri olur olur da olur yani. Bunlarin makina
ile alakasi yoktur. Basina ucak dustu filan dersen bu sefer de disaster
recovery sistemlerden bahsetmeye baslarsin. Eger ama uzak mesafeli
disaster recovery lerden bahsediyorsan da cok cok buyuk bir kurumsundur.
Yani makinanin SPOF olmasi ile butun system in SPOF olmasini ayirmak
lazim. Ben makinadaki SPOF dan bahsediyorum yani system olarak makinayi
aliyorum.
 
Sonuc olarak tek(single) bir aletin varsa failure oldugu zaman da bu
single point of failure olmaz.

Single point of failure un ne oldugunu aciklayayim. Aslinda single of
failure analiz yapalim o zaman daha rahat olarak anlasilir. Aslinda bu
uzun surer ama temel olarak SPOF olayinda bilesenlerin fail olmasi
durumu gozonune alinir. Butun sistemin degil. daha dogrusu bu
bilesenlerin fail olmasi durumunda buna bagli olarak sistemin fail
olmasi dusunulur. Basina ucak dusmesi buna girmez yani. O zaman yerin
50metre altina yaparsin onu da dusunecegim dersen ...

Simdi elinde bir sistem var senin ve sen bunun SPOF analizini yapmak
istiyorsun. Burada isin icine cok sey girer network baglantisindan,
servislere, yazilimlardan, disklere aklina gelebilecek olan sistemdeki
herseyi buna katmalisin dosenmis kablolara kadar ... Ornek olarak disk
sistemi icin olan SPOF a bakarsak

    * Power supply
    * Fan and cooling
    * Internal/external cabling
    * SCSI path from host machine to device
    * Internal system bus
* Write-cache:
          o Non-volatile SIMMs or battery backup serve to address power
failure
o Mirrored SIMMs to address SIMM failure
    * Read-cache: non-volatile SIMMs optional
    * Battery power for the device to store cache to disk in case of
power failure
    * Controller
    * Micro code
    * Disk-internal storage processors
    * RAID internal storage maps
    * Disk spindles
* Spindle mechanism

umarim anlatabilmisimdir ne demek istedigimi. SPOF da analiz
yapildiginda iki tane temel formul kullanilir. Bunlardan biri risk
degeridir su sekilde hesaplanir.

r=S*O*D

Bunlari aciklamadan once de bilinmesi gereken uc deger var

MTBF (Mean Time Between Failures), bir bilesende iki failure arasindaki
zaman, genellikle saat olarak verilir ve ureticilerde genelde bu zamani
verirler. Ornegin bir seagate cheetah 36LP FC disk icin bu sure
1.200.000 saattir.

MTTN (Mean Time To Notification), sanirim acik ama bir bilesende failure
olusunca bunun uygun kisi tarafidna dogrulanmasi arasindaki sure.

MTTR (Mean Tine To Recover), failure olan bilesenin duzeltilmesi suresi.

Simdi formule geri donersek

S= Severity, bir failure sonucunda etkilenecek olan butun bilesenlerin
toplam bilesen sayisina bolunmesi sonucu olusan rakam tahmin
edebileceginiz uzere 0-1 arasi bir rakam.

O= Occurrence probability, simdi sizin elinizde sahip oldugunuz
bilesenlerin MTBF leri var. simdi siz bunlar icin haftalik oranlamalar
yapabilirsiniz iste bu degerleri bir haftadaki saat suresine bolerek
olasiligini alirsiniz olma olasiligini yani.

D= Detection ability, burada minimum ve maximum iki tane kabul
edilebilir detect etme zamani belirliyorsunuz. Daha sonrada ornegin
minimum olana 1 maksimum olana 10 degerini veriyorsunuz ve sizin MTTN
degerlerinizi bu araya gore olceklendiriyorsunuz.

hah simdi risk degerini ve bir bilesenin ne kadar kritik oldugunu buna
gore belirleyebilirsiniz.

risk degeri icin

r=S*O*D

kritiklik icin ise

C=S*O

formulleri kullanilir.

Ornek yukarda dedigim seagate disk icin konusalim.

Bu disk icin

MTBF = 1.200.000 saat
MTTN = 5 dakika
MTTR = 10 dakika

sistemde diyelim ki bu disk raid li bir sistem bu da disklerden biri
diskte sorun oldugu zaman etkilenecek bilesen sayisi diyelim 5,
sistemdeki butun bilsene sayisi diyelim 100 bu durumda

S= 5/100 = 0,05

bir haftada 7*24 = 168 saat var bu surede failure olma olasiligi
O=168/1200000= 0,00014

diyelim ki minimum detection time olarak 1 dakika maksimum olarak ise 10
dakika belirledik. Bu durumda 5 dakika icin 5 degerini verebiliriz.
D=5

simdi bu verilere gore bu diskin risk degeri

r=0,05*0,00014*5 = 0.00035 yani 100000 de 35 lik bir risk tasiyor.

bu diskin ne sistemde ne kadar kritik olduguna bakacak olursak ise

C=0,05*0,00014 = 0.000007 yani milyonda 7 lik bir kritikligi var demek.
Bunu sadece disk icin verdim. Simdi tutar bunu ornegin power supply icin
elektrik kabolsu icin network kablosu icin ivir zivir icin yaparsin. Bu
durumda biri cikar %60 simdi burada SPOF dan bahsedilecekse bu durumda
bu %60 olandan bahsedilir. gidip de diskten bahsedilmez.

Umarim yanlis bilgi vermemisimdir ve anlatmak istedigimi
anlatabilmisimdir.

> Ister ferrari kullan ister sahin araba bozuldugu zaman yaninda
> hemen degistirebilecegin bir araba yoksa arabanin bozulmasi ile
> kalirsin. Su tarihden beri ferrarilere hicbirsey olmuyor. Soyle kotu
> kosullarda bile canavar gibi calisir da desen bu bole degil midir ?
> (kotu bir benzetme oldu ama hadi neyse :)... Ama hemen hemen her cozumde
> bu tur sIkIntilari yasaman mumkundur dersen anlayabilirim...

ama kotu bir benzetme olmus hakkaten :)) saka saka burada ferrari yi
degistirmekten degil. Ferrari nin parcalarini degistirmek bahsedersek
SPOF dan bahsedebiliriz. Eger bir ferrari lerden cluster yaparsak o
zaman her bir node u ferrari olarak dusunur ve buna gore ferrari
degistirmemiz gerekir dedigimizde SPOF bileseni olarak ferrari
diyebiliriz. Yoksa ferrari nin lastigi ve dinamosu ivir zivirindan
bahsedilir.

Aslinda yukarda seagate icin verdigim ornegin burada ferrari icin
tekrarlayabiliriz. Ornegin lastik ve dinamosu icin hesaplamalari yaparak
bunlarin hagilerinin daha yuksek risk icerdigini belirleyebiliriz.

Degerlere bakalim dinamo ve lastik icin Tabii tahmini rakam yapiyorum.

dinamo:

MTBF = 45000 saat
MTTN = 10 dakika
MTTR = 60 dakika

lastik = 15000 saat
MTTN = 1 dakika
MTTR = 15 dakika

Sistemde 2000 bilesen var diyelim. dinamo ucunca kaci etkilenir? ya
lastik te dinamo icinde hepsi etkilenir diyeyim ben butun sistem kalir
cunku.
simdi r ve C leri hesaplayalim. O i gunluk olarak hesaplayacagim.

minimum detection time = 1 dakika maksimum 10 dakika olsun

dinamo:

S= 2000/2000 = 1
0= 24/45000 = 0,00054
D= 10

r = 1*0,00054*10 = 0,0054 yani 10000 de 54

lastik:

S= 2000/2000 = 1
O= 24/15000 = 0,0016
D= 1

r= 1*0,0016*1 = 0,0016 yani 10000 de 16

ne kadar kritik olduklarin bakacak olursak

dinamo:

C=1*0,00054 = 100000 de 54

lastik:

C = 1*0.0016 = 10000 de 16

yani lastik dinamo dan 3 kat daha kritik, bu yuzden stepne var iste
arabalarda :)) hani single point of failure i kaldirmak icin :)

Tabii bu rakamlar oylesine yapilmis olan rakamlar ama olayin mantigini
anlatmak icin yazdim boyle, isteyen oturup detayli arastirmasini yapar
ayri.

 

-- 
-----------------------------------------------------------------------------
Murat Koc				     mail: murat.koc@frontsite.com.tr	
Manager and IT Consultant                        

frontsite Bilgi Teknolojisi A.S. tel: +90 212 222 68 63-42 fax: +90 212 222 68 35 -----------------------------------------------------------------------------

-- Attached file included as plaintext by Ecartis -- -- File: signature.asc -- Desc: This is a digitally signed message part

-----BEGIN PGP SIGNATURE----- Version: GnuPG v1.0.7 (GNU/Linux)

iQIXAwUAPa0vM0rXxj6PxL+iFAKBTQf/Wb34UV5oQnID1qxnFPZhLxOEXFL8rLwj g6gJiPXQeYOC/9RlKByHVIDVaD5zGaV8dW3cXsNJO2BHlYNrj0bMbWlFMTW/rIQo MKnVPYd7jl6YFGXP2hTuKkFDEAuCXucoPYRA1FK9z70htCkxZyt3EadbJGP65HfO qsNLnK1kiBBUoFfiYLwt/8je1OeukVVIvY4vrlP4SJTfadr7PZsl98S6IVe4xxEf oOOlMrmMEW9NXsqDoPZS0CuwQQuJZhhF4iOUn32O8PHRLmE0NuOVkK1B1QaVm7bB UNz8pdk3cOkRXpnbyoVSa4jZTEqYHuB7FRtMdmTvZUowPeCP5iEBVAgAvE5DqnXs ZoZHoiMBnYkNctrzrffKuqGCgFSGAs9dKmZ9M4uc/fzU4bD2653/yECexJgFDYCt uy4r9jmKFCoS/g031v1wvMFe+/jTL5HK2/j9TNx5+K/4GgZFHadcpuFpwEYm6RAN slVS9uRK2v3vwX37e+uEY+wPN/nFLMAY/XsPIrnytYEw/wZGssZGSDEtoEsUzgeB 0EBlaxeMIce7mck40f0P9cVbpR0H0fDyqS2IR6MLmoszjycW2Xh1CJmAapZZNpMg 6UiKtXFcYojhbelCMH6vy9dcOwqXqCwf4YAriAqlj08dyghCsnqiaDF1YLvpQxPR 3KXOABJsCoprsQ== =6Bxe -----END PGP SIGNATURE-----

----------------------------------------------------------------------- Liste üyeliğiniz ile ilgili her türlü işlem için http://liste.linux.org.tr adresindeki web arayüzünü kullanabilirsiniz.

Listeden çıkmak için: 'linux-request@linux.org.tr' adresine, "Konu" kısmında "unsubscribe" yazan bir e-posta gönderiniz. -----------------------------------------------------------------------


New Message Reply About this list Date view Thread view Subject view Author view

---------

Bu arsiv hypermail 2b29 tarafindan uretilmistir.