JanWiersma.com

Mestvork&knuppels uit de stal… de ‘cloud’ is down!

mob_26_redneck_motivators-s320x240-98571-580Gisteren ging een deel van de Amazon AWS dienst verlening plat. Amazon melde het volgende:

“A networking event early this morning triggered a large amount of re-mirroring of EBS volumes in US-EAST-1,” Amazon said in a status update just before 9 am Pacific time. “This re-mirroring created a shortage of capacity in one of the US-EAST-1 Availability Zones, which impacted new EBS volume creation as well as the pace with which we could re-mirror and recover affected EBS volumes. Additionally, one of our internal control planes for EBS has become inundated such that it’s difficult to create new EBS volumes and EBS backed instances.

De verstoring kwam kort gezegd neer op de uitval van 1 van de Amerikaanse beschikbaarheids zones. De overige zones draaide wel gewoon door. Als gevolg hier van waren ook enkele andere ‘cloud’ services (voornamelijk SAAS), die boven op AWS gebouwd zijn, uitgevallen. Een lijst hier van werd gepubliceerd op http://ec2disabled.com/

Al snel zagen we dat de cloud tegenstanders de mestvorken en knuppels uit de stal hadden gehaald… want ‘de cloud’ had eindelijk zijn ware aard laten zien… en had gefaald.

Dit gebeurde al eerder, zoals mijn DatacenterPulse collega Tim Crawford in zijn blog aanhaalt:

    • Oct 14, 2009   Microsoft Sidekick Data Loss
    • Jun 29, 2009   Rackspace Data Center Outage
    • May 14, 2009  Google Outage
    • Mar 21, 2009   Carbonite Storage Failure

Ook bij deze uitval stonden mensen op de barricade te schreeuwen dat cloud niet betrouwbaar was. Voor leveranciers (en ICT-ers) waar voor de cloud ontwikkeling een bedreiging is (reëel of niet..), is dit een uitstekende gelegenheid om weer wat FUD rond te strooien. Deze tactiek haalde ik al eerder aan in mijn blog: Controle en Vertrouwen; sleutels voor cloud. Hierbij gaf ik ook aan dat het vertrouwen gemakkelijk geschaad word:

Het vertrouwen in cloud computing is iets wat gemakkelijk te schenden is. Het traditionele datacenter leeft redelijk ‘onder de radar’ als het gaat om uitval. Meestal raakt uitval daar slechts enkele applicaties of een deel van de business. Deze uitval kan wel degelijk een grote impact hebben op de productiviteit van een organisatie maar het zal nooit de mate van negatieve publiciteit krijgen die cloud providers ontvangen.

Een vliegtuig crash komt wel in het nieuws, maar de 1000-en auto ongelukken die zelfde dag meestal niet.

Opvallend was echter ook dat een aantal andere cloud services, waar van bekend is dat ze op AWS draaien, gewoon in de lucht waren. Grootste voorbeelden waren Netflix en Twilio.

Referentie architectuur…

In voorgaande blogs gaf ik ook al aan, dat cloud adoptie en migratie draait om de adoptie van een referentie architectuur van iemand ander. Je gaat aan de slag op een IAAS of PAAS omgeving die door iemand anders ontworpen en gebouwd is. Dit men hun visie en gedachte goed. Je moet je dus aan hun regels houden;

Het begrijpen van de referentie architectuur en ontwerp principes van je cloud leverancier is bijzonder belangrijk. Zowel bij IAAS, als bij PAAS geld dat je applicatie of omgeving ontworpen moet zijn voor deel-systeem uitval. Zoals in de PAAS serie aangegeven:  ‘Cloud applications assume failure.’ Soms word dit ondervangen door de aangeboden frameworks, maar je moet dan wel begrijpen hoe deze werken.

Organisaties die niet geraakt werden door de AWS uitval begrepen de architectuur optimaal en hadden hun diensten bij ontwerp en bouw al verdeeld over meerdere geografische beschikbaarheids zones, zoals NetFlix in een presentatie (slide 32-35) eerder liet zien:

netflix-fail

Verder zijn er diverse andere mogelijkheden om redundantie in te bouwen in een AWS omgeving. Zie diverse blogs met tips:

Systeem uitval is een dagelijkse realiteit. Rond cloud computing word vaak geroepen dat ‘cloud omgevingen niet kunnen uitvallen’. De realiteit is echter dat cloud infrastructuren ook kunnen uitvallen. Het verschil tussen cloud en traditionele infrastructuur is echter dat cloud nieuwe (technologische) mogelijkheden biedt voor redundantie en het herstarten van de dienstverlening als deze uitval plaats vind.

We moeten dus blijkbaar nog wel leren om gaan met deze nieuwe vormen van beschikbaarheid en disaster recovery (DR) 🙂

Share

Brand! – Tijd voor de echte IT leiders om op te staan…

CIO’s en IT managers beleven moeilijke tijden; In voorbije tijden hadden ze ruime budgeten. Ze werden gezien als de grote business aanjagers. Daarnaast werden vele op handen gedragen door de eind gebruikers, die met verwondering keken naar deze computer tovenaars en de magie die ze met ICT konden maken uit die kleine PC toverdoosjes. Als ze daar niet van onder de indruk waren, namen we ze mee in het datacenter, waar tientallen servers stonden te zoemen of nog beter; een mainframe. Een bezoek aan deze lampjes en lawaai omgeving… en je werd met groot gezag behandeld. Ja, we konden die eind gebruiker redelijk wat op de mouw spelden en ons IT koninkrijk flink uitbouwen.

De importantie van ICT is de afgelopen jaren behoorlijk toegenomen en we kunnen eigenlijk niet meer zonder. Zowel privé als zakelijk. Dit heeft er voor gezorgd dat ICT kennis een belangrijke basis vormt in het hedendaagse onderwijs. Dat zorgt weer voor veel beter opgeleide en onderlegde eindgebruikers en organisatie eigenaren. Technologische ontwikkelingen hebben ICT ook nog eens toegankelijker gemaakt en nu komen al die jonge managers in eens met hun iPads en Macbooks de organisatie binnen.

De afgelopen twee jaar is ook de hand een beetje op de knip gegaan rond de ICT uitgaven. De economische crisis heeft gezorgd voor de nodig focus op inkomsten en uitgave, en ook die van ICT.

Binnen de ICT afdeling worstelen we met het feit dat al die technologie die we de afgelopen jaren naar binnen hebben gereden, eigenlijk best wel complex geworden is. Zeker het zelf integreren, op alle niveaus van de ICT stack, zorgt voor zo veel relaties dat we als ICT-er soms door de bomen het bos niet meer zien. ‘Even’ iets toevoegen aan deze complexe omgeving is er dus ook niet bij, met lange levertijden tot gevolg. Al deze complexiteit en het in de luchthouden er van kost ook nog eens een hoop geld, waar door er steeds minder overblijft voor innovatie. (Daar worden we zelf ook chagrijnig van, want als ICT-er speel je toch het liefst met de nieuwste speeltjes.)

fire1992Je zou dus maar in de schoenen staan van de CIO of IT manager; onder vuur door de business (met hun budget beperkingen en iPads) en in de knel binnen je eigen afdeling. Je kasteel staat toch aardig in brand.

Als IT-er geniet je echter ook aanzien als IT brandweerman, zoals door mijn DatacenterPulse collega Mark Thiele recent beschreef:

The hero culture is alive and well in IT. They’re sometimes known as the “Firefighters”. These are the heroes who come in at all hours of the day and night to put water on the latest IT fire.  In many organizations a “good” fire fighter is admired and appreciated more than a good developer or other IT contributor.  Why shouldn’t they be admired, they come in at 2:00 AM on Sunday and resolve a major failure that was interrupting the business. What’s not to like?

In de organisaties waar ik de afgelopen tijd over de vloer mocht komen op strategisch niveau, zie ik dit staaltje ‘brandweermanschap’ vol op in actie. Onder (politieke) druk word gewerkt aan actie-actie-actie! plannen om tegemoet te komen aan de budget beperking, continuïteit verhoging en complexiteit reductie. De focus is volledig op de brand en de bestrijding er van. Zolang het vuur maar uit gaat… zeg maar…

In de afgelopen jaren als vrijwillig brandweer man heb ik het nodige mogen leren over brand bestrijding;

Vanuit de Veiligheids Regio Utrecht gaan we regelmatig op training. Zo leren we tijdens realistisch oefenen in Zweden dat bij brand we deze niet meteen uit maken, maar het vuur gebruiken om zicht te hebben en slachtoffers te zoeken. Ook leer je technieken rond ventilatie en het verdrijven van rook en rook gassen; deze verbeteren de overlevings kans voor slachtoffers en geven beter zicht op gevaren voor de brandweerman.

Af en toe is het dus goed om een stapje terug te nemen en het vuur als je voordeel te gebruiken. Bij echt grote branden neemt de brandweer soms een andere stap, ter bescherming van eigen mensen en de omgeving; ze laten een object gecontroleerd uitbranden en schermen omliggende objecten af.

feniks3

Het af laten branden hoeft niet altijd als iets negatiefs gezien te worden. Op de plaats van het oude kan weer iets moois verrijzen. De ‘Phoenix from the flames’ gedachte; vanuit de vernietiging door het vuur, komt nieuw leven.

Deze ‘creative destruction’ was onderwerp van een recente Gartner blog waar in opgeroepen werd tot het vernietigen van een aantal bestaande IT processen en denkbeelden zodat er ruimte komt voor nieuwe:

  • IT’s Strategic Role: which requires destroying the perception and reality of IT supporting generic business strategies and operations in order to create new sources of strategic relevance based on competitive advantage.
  • IT Organization: where you face the need to destroy technically oriented silos that tie up resources and reduce flexibility in order to create greater opportunity and dynamism.
  • IT Personnel Skills: where you need to destroy habits that delegate current operations to existing staff while supporting new projects and technologies with outsourced or contracted resources.
  • IT Processes: presents the opportunity to destroy restrictive processes, governance arrangements and management techniques that seek to protect IT from the business. These processes need to be replaced with agile approaches that concentrate on productivity and throughput.
  • IT Metrics: destroy operational and project metrics that only demonstrate that IT is doing its job and not wasting the company’s money in favor of metrics that demonstrate real business impact.

Soms is het aflaten branden dus nodig om nieuwe zaken mogelijk te maken. Dit alles is uiteraard erg bedreigend voor veel mensen die op dit moment binnen de ICT afdeling werken. Deze bedreigen zet zich vaak om in de eerder beschreven FUD en ‘protectionisme’.

Voor een CIO moet deze potentiele weerstand tegen de veranderingen duidelijk zijn. Op deze manier kan hij inschatten wat de motieven zijn achter de adviezen die hij krijgt van de eigen organisatie en leveranciers. Zeker nu het IT kasteel toch al onder vuur ligt, zijn er juist kansen voor de echt noodzakelijke veranderingen.

Hierbij ligt het gevaar op de loer om vooral oude spullen uit het afgebrande kasteel te willen hergebruiken. Ervaring leert echter dat een aangetast fundament, een slecht fundament is. Zeker als het nieuwe object een totaal andere verschijnings vorm heeft dan de oude, en dus niet echt op het oude fundament past. (Denk: applicatie migratie naar de cloud)

ICT-ers moeten zich vooral afvragen om welke manier zijn de business echt kunnen ondersteunen en meerwaarde kunnen genereren. Dit is een breder perspectief dan het ontwikkelen en in de luchthouden van hun OS of database. Discussies over welk ‘schroefje en moertje’ men nu moet gebruiken, zijn vaak marginaal relevant voor de business en leveren meestal geen echte meerwaarde of strategisch voordeel voor een organisatie.

Als CIO is het zaak je niet te veel te laten leiden door de vuurtjes hier en daar en te zorgen dat je afstand neemt. Dit zorgt voor overzicht. Laat je daarnaast niet verleiden tot allemaal korte termijn acties, maar houd focus op de lange termijn. Het hele proces naar de IT van de toekomst is geen gemakkelijke route en vereist standvastigheid en lef. Maar goed… we wilde vroeger toch allemaal die ‘echte stoere brandweerman’ zijn… Tijd voor de CIO of IT manager om zijn helden status bij de business waar te maken.

wt4d9cbcadd56a9

<credits: het ‘burning platform’ met dank aan Marcel en de keukentafel sessies>

Share

Controle en Vertrouwen; sleutels voor cloud

Als we naar cloud computing kijken komen er al snel een flink aantal voordelen, maar ook barrières voorbij:

  • Beveiliging;
  • Volwassenheid;
  • Governance;
    • Data integriteit
    • Monitoring
    • Audit
    • Identiteit en toegang
    • Financiële controls
  • Compliance;
    • PCI
    • SAS70
    • Etc..

Al deze barrières draaien in basis om ‘vertrouwen’ en ‘controle’. Soms is dit vertrouwen en controle vanuit de overheid die via wetgeving iets of iemand wil beschermen (wet) en soms door de overheid aangewezen instanties zoals de Nederlandse Bank, die de banken sector dient te controleren. Hierbij hebben we het dan vaak over compliance regels.

De meeste barrières voor cloud adoptie worden echter opgeworpen door leveranciers die hun markt aangevallen zien en… je eigen ICT afdeling;

De ICT-er en vertrouwen

De vertrouwen en controle issue tussen de IT organisatie en de eindgebruiker is al langer interessant. Neem bijvoorbeeld de desktop; Al enige jaren vertrouwt de IT organisatie zijn eindgebruiker niet en timmert daarom op alle mogelijke manier de desktop dicht. Zo voorkomen we dat die ‘domme’ eindgebruiker iets stuk maakt en het is nog veiliger ook. Deze manier van handelen gaat echter voorbij aan het feit dat de eindgebruiker misschien helemaal niet geholpen is in zijn dagelijks werk, met die ontzettend dicht getimmerde desktop.

1781.stripBij mijn IT security collega’s gaat dit alles vaak nog een stapje verder. Ik krijg af en toe het gevoel dat zij die eind gebruiker vooral lastig vinden. Soms lijkt de IT afdeling en zeker de security collega’s hier mee aan de macht te zijn in de organisatie. Er is dan een behoorlijke scheef groei ontstaan in het idee dat ICT de business zou moeten ondersteunen. In die situatie is security een dooddoener  geworden voor nieuwe ontwikkeling en innovatie. Deze macht gaat volledig voorbij aan het feit dat de business de eigenaar is van de informatie en deze zelf zou moeten kunnen beslissen wat er mee gebeurd. De IT afdeling en security mensen hebben daar in slechts een advies functie, en dienen de risico’s in kaart te brengen met suggesties voor maatregelen.

Ondertussen veranderd de eindgebruiker vanuit generatie en bijbehorende cultuur. De generatie die nu de werkvloer betreed en die nu naar de top van organisaties door stromen gaan anders met technologie om dan de babyboomers die tot nu toe aan de macht zijn.

dilbert-ipadsmallDaarnaast hebben we ook een technologische evolutie door gemaakt die het gebruik van ICT heeft vergemakkelijkt. Zo kan opa van 86 ook makkelijk met de iPad werken.

Het is goed voor te stellen dat de ICT-er en zijn afdeling dit alles met lede ogen aanzien; mondige gebruikers die binnen komen met hun eigen iPad en zelf IT resources regelen zoals Google Apps, of overstappen naar SalesForce als hun interne CRM niet bevalt. Dit alles tast de controle aan die de ICT-ers jaren lang hebben gehad.

De truc voor leveranciers en ICT-ers om cloud buiten de deur te houden is het creëren van Fear, Uncertainty and Doubt (FUD) rond het gebruik van cloud computing. Elke aanleiding word gebruikt om desinformatie te verspreiden en het hoofdstuk beveiliging leent zich goed voor het verspreiden van angst. Zo waren sommige er als de kippen bij om een koppeling te leggen tussen de Wikileaks (cabels) en gebruik van cloud computing. Dit terwijl het lekken van deze stukken gebeurde vanuit een intern US Army netwerk via een CD.

De cloud is ook bedreigend voor ICT-ers, omdat sommige denken dat hun werk wel eens zou kunnen verdwijnen als bedrijven al hun ICT naar een public cloud provider zouden verplaatsen.

Ook de private (in huis) cloud levert dit soort zorgen op. De zware mate van automatisering van ICT processen die hierbij gebruikt wordt geeft ICT-ers het gevoel dat ze er geen controle meer over hebben. Het niet langer handmatig uitvoeren van acties op een systeem en moeten vertrouwen op de acties van het systeem zelf beangstigd blijkbaar. Daarnaast zien sommige daar mee ook werk, en mogelijk banen, verdwijnen.

Ook de veranderende verhouding tussen ontwikkeling en beheer (DevOps) levert spanning op. Het afbreken van de silo’s binnen de IT-afdeling is een veranderingsproces dat tot de nodige verzet zal leiden.

Samenvattend kunnen we stellen dat de mentaliteit van de IT-afdeling en het wantrouwen van de technologie, een belemmering vormen voor de adoptie van (public) cloud computing.

Veiliger?

Over de vraag of cloud computing veiliger is kun je tientallen blogs vinden die deze vraag positief en negatief beantwoorden. De juiste vraag is echter ‘veiliger als wat?’.  Christian Reilly en Chris Hoff merkte recent op:

As Chris Hoff has inferred many times via his Rational Survivability blog and specifically in his excellent presentation entitled “Cloudifornication”, the question of “is the cloud more secure?” can only be answered by the question “more secure than what?“. In a parallel universe, the question “is it better or worse than my current environment?” can only be answered with “how bad is your current environment?”. Quid Pro Quo.

Een aantal van de public cloud providers is in het bezit van een ISO 27001, SAS 70 Type II en PCI DSS (zoals Amazon). Dit dan vaak boven op kwaliteits certificaten als een ISO 9001. Zouden de traditionele ICT omgevingen en afdelingen vandaag de dag deze audits ook zonder kleerscheuren overleven? De vraag is dus: ‘hoe goed of slecht is het op dit moment gesteld met je eigen ICT omgeving?’ Pas als hier een eerlijk antwoord op volgt, kun je een vergelijking trekken met de mogelijkheden in de cloud voor je eigen ICT en de gevaren.

Los van alle technologische mogelijkheden en de berg certificaten blijft het vooral een kwestie van psychologische barrières zoals recent onderzoek door IDC en VMware op merkte:

The topic (security) has both technology and organization/compliance facets, as technical factors define the security and safety level of data stored in the cloud; at the same time, even in those cases where the third-party datacenter is certified and proofed, and all compliances are cleared, there is still a clear psychological barrier in knowing that data and applications reside physically “somewhere else.”

Beter beschikbaar?

In de lijn van de veiliger discussie ligt ook de ‘beter beschikbaar’ discussie voor cloud computing. Hier vinden we ook de nodige FUD. Recent kondigde Google aan dat ze al het ‘gepland onderhoud’ uit hun SLA schrapte omdat ze deze onderhouds periodes niet meer nodig hebben. Hier mee komt ‘zero-downtime’ akelig dichtbij en dat doet natuurlijk de nodige stof op waaien.

De daar op volgende discussie kwamen al snel op betrouwbaarheid en vertrouwen, waar mee we weer een psychologisch element te pakken hebben.

Het vertrouwen in cloud computing is iets wat gemakkelijk te schenden is. Het traditionele datacenter leeft redelijk ‘onder de radar’ als het gaat om uitval. Meestal raakt uitval daar slechts enkele applicaties of een deel van de business. Deze uitval kan wel degelijk een grote impact hebben op de productiviteit van een organisatie maar het zal nooit de mate van negatieve publiciteit krijgen die cloud providers ontvangen. Een aardige analogie in de blog van Christian Reilly maakt duidelijk waarom:

The number of US highway deaths in a typical six month period – around 21,000 – roughly equals all commercial jet fatalities worldwide since the dawn of jet aviation over four decades ago. In fact, fewer people have died in commercial airplane accidents in America over the past 60 years than are killed in US automobile accidents in any typical three-month time period. (Source : Boeing Corporation)

 

It’s very infrequent to hear of a road crash (the traditional data center) make national news, but in the event of a commercial jet crash (the cloud) then it’s guaranteed to make headlines. Perhaps this is simply due to the number of people affected on board the airliner at a single time during the incident ?

Hiermee is het vertrouwen van mensen in een cloud computing provider gemakkelijker beschadigd. Het is dus belangrijk om objectieve gegevens te hebben over de beschikbaarheid van een cloud provider en de bijbehorende SLA’s.

Een goede onafhankelijke bron hier voor is bijvoorbeeld CloudHarmony.

Kom op met die controle!

ICT en de business dienen gezamenlijk op te trekken als het gaat om de adoptie van cloud computing. Dit is nodig vanuit financiële en compliance overwegingen. De ICT-er dient hierbij de organisatie te helpen om het maximale uit het cloud potentieel te halen en een gezonde balans te bewaken tussen interne en externe diensten. Het geven van een carte blanche voor het gebruik van cloud computing kan leiden tot hogere kosten en distributie van data buiten de eigen organisatie, die vanuit veiligheid en compliance ongewenst is.

Om deze balans tussen interne ICT en public cloud te bewaken en bewaren, komen er steeds meer cloud management platformen op de markt zoals enStratus en ServiceMesh. Deze platformen leveren governance voor hybrid cloud computing en slaan hier mee een brug tussen intern en externe resources.

Het gaat hierbij om mogelijkheden van centrale inkoop en administratie van cloud computing services, ongeacht de leverancier. Binnen het ‘portaal’ wat hierbij komt kijken, kan men het gebruik van public en private cloud computing services coördineren, evalueren, autoriseren en beheren. Ook zaken als single sign-on en het vastleggen en monitoren van handelingen is onderdeel van deze cloud management platformen.

CSA-Assertion-GraphicZoals Chris Hoff in zijn meeste recente presentatie aan gaf is de sleutel integratie. Zodra cloud leveranciers API’s ondersteunen zoals die door de Cloud Security Alliance (CSA) word ontwikkeld, maakt dit het makkelijker om audits uit te voeren op de omgeving van deze leveranciers.

The goal of CloudAudit is to provide a common interface and namespace that allows cloud computing providers to automate the Audit, Assertion, Assessment, and Assurance (A6) of their infrastructure (IaaS), platform (PaaS), and application (SaaS) environments and allow authorized consumers of their services to do likewise via an open, extensible and secure interface and methodology.

In de komende tijd zullen we de focus van ‘het is niet veilig en betrouwbaar’ zien verschuiven naar dit soort governance vraagstukken en de technologische en organisatorische oplossingen hier voor.

Hierbij is de cultuur in de organisatie en de mentaliteit van de IT-afdeling zeer belangrijk. ICT-ers moeten weer begrijpen dat hun missie is de organisatie optimaal te ondersteunen met ICT en dat cloud computing daar een onderdeel van is. Of ze nu willen of niet. Leidinggevende (zoals CIO/CTO) dienen zich bewust te zijn van deze weerstand en deze actief te adresseren.

Security professionals dienen vooral te redeneren vanuit risico en op basis hier van de organisatie te adviseren over de mogelijkheden om de risico’s af te dekken of te accepteren. Ze gaan hier mee van ‘nee’ naar ‘ja, maar…’.

Als we gezamenlijk dit spelletje niet spelen, zal de business en IT-afdeling steeds verder uit elkaar groeien.

Meer:

Share