راهنمای جامع ITIL

ITIL Event Management

مدیریت رویدادها در (ITIL (ITIL Event Management

در هر روز هزاران رویداد در سراسر زیرساخت فناوری اطلاعات شما رخ می‌دهد. چرا؟ در حقیقت، رویداد یک تغییر در وضعیت یک سرویس IT یا آیتم پیکربندی (CI) است که برای مدیریت آن بسیار اهمیت دارد. برای مثال تغییر سرور از حالت آنلاین به حالت غیرفعال می‌تواند یک رویداد باشد، یا تکمیل اسکریپت نگهداری سرور بصورت منظم نیز یک رویداد در نظر گرفته می‌شود؛ دانستن این موارد ارزشمند و مفید بوده و حتی ممکن است اقداماتی باشند که شما می‌خواهید به عنوان نتیجه انجام دهید.

اهداف مدیریت رویداد عبارتند از: تشخیص رویدادها، تجزیه و تحلیل آنها و تعیین اقدامات کنترلی درست. با تحقق این اهداف، فرآیند رویداد یک بستر قوی برای تضمین سرویس، گزارش‌گیری و بهبود سرویس فراهم خواهد کرد.

آنچه اهمیت دارد دانستن این نکته است که مانیتورینگ و مدیریت رویداد با یکدیگر تفاوت دارند. درحقیقت، مانیتورینگ یک جزء از مدیریت رویداد بوده و به همین علت یک روش مفید برای شناسایی رویدادها می‌باشد. از سوی دیگر، مدیریت رخداد با استخراج مفهوم رویدادها به فناوری اطلاعات کمک می‌کند تا اقدامات لازم را در مواقع لزوم انجام دهند.

دامنه و مزایای مدیریت رویداد

مدیریت رویداد می‌تواند در هر یک از جنبه های مدیریت سرویس که نیازمند کنترل بوده و می‌تواند خودکارسازی شود (از شبکه ها، سرورها و برنامه های کاربردی تا تمام شرایط محیطی مانند تشخیص آتش و دود و امنیت و تشخیص نفوذ) مورد استفاده قرار گیرد.

از آنجایی که مدیریت رویداد می تواند در هر جنبه از مدیریت سرویس‌ها در سازمان فناوری اطلاعات شما اعمال شود، مزایای گسترده ای نیز دارد. به طور کلی، مدیریت موثر رویدادها می‌تواند:

  • فراهم ساختن پایه و بستری قوی برای خودکارسازی اجزاء عملیات فناوری اطلاعات
  • بهبود زمان تشخیص و پاسخ به رخدادها، تغییرات، استثناها و ... .
  • کاهش زمان وقفه به عنوان نتیجه ای از موارد بالا

در مدیریت رویداد، موفق بودن به معنای داشتن قابلیت تشخیص، برقراری ارتباط و انجام اقدامات مناسب برای هر رویداد (یا تغییر در حالت) بوده که برای مدیریت سرویس‌های فناوری اطلاعات و CI هایی که از آنها پشتیبانی می کند، بسیار اهمیت دارد.

جریان فرآیند مدیریت رویداد (Event Management Process Flow)

 itil-event-management-process-flow

چه تفاوتی بین رویداد و رخداد وجود دارد؟

سوال خوبی است و پاسخ آن نیز ساده است. رخدادها وقفه های پیش بینی نشده یا کاهش کیفیت سرویس فناوری اطلاعات هستند. هنگامیکه رخدادی بوجود می آید، به معنای ان است که موردی اشتباه است. اما در مقابل رویدادها تغییراتی هستند که در وضعیت سرویس‌ها، CI ها یا تقریبا هر چیز مهم در زیرساخت IT شما رخ می‌دهند.

آیا رخداد می‌تواند یک رویداد باشد؟ پاسخ مثبت است. همه رخدادها نوعی رویداد هستند زیرا قطعی سرویس یا کاهش کیفیت سرویس نوعی تغییر در وضعیت سرویس محسوب می‌شوند. اما همه رویدادها، رخداد نیستند، زیرا افزایش بازدهی، ورود کاربر به سیستم یا تکمیل خودکار سرویس پشتیبان، نشان دهنده تغییر وضعیت سرویس بوده اما منجر به ایجاد وقفه یا کاهش کیفیت سرویس نمی‌شود.

سه نوع رویداد توسط ITIL تعریف شده است. این رویدادها عبارتند از:

  • 1.اطلاعات. این رویدادها معمولا به هیچ پاسخی نیاز ندارند، زیرا آنها بروز رسانی های اولیه یا داده هایی هستند که برای کمک به گزارشگیری تولید می‌شوند. لاگ‌ها و گزارش‌ها نمونه هایی از این موارد هستند.
  • 2.هشدار. هشدارها نشان دهنده فعالیت‌های خارج از محدوده نرمال هستند (مانند رسیدن به مقدار آستانه). هشدار به معنای آن است که شما باید شرایط را نظارت کرده تا اطمینان حاصل کنید شرایط بدتر نخواهند شد و یا اقدامات لازم را برای جلوگیری از بدتر شدن آنها انجام دهید. یک مثال از این نوع رویداد حالتی است که ظرفیت سرور به 75٪ برسد یا یک تراکنش استاندارد 15٪ بیشتر از حالت نرمال طول بکشد.
  • 3.استثنا. رویدادهای استثنا نشان می‌دهند که چه چیزی اشتباه است. سرویس‌ها (و کسب و کاری که آنها پشتبانی می‌کنند) نیز ممکن است تاثیر منفی بپذیرند. Down شدن سرور یا شبکه مثالی از این نوع رویداد هستند.

چه فعالیت‌های دیگری می‌تواند به عنوان رویداد درنظر گرفته شود و یک فرآیند مدیریت رویداد را آغاز کند؟ تعداد کمی فعالیت وجود دارد، از استثناها و فرآیندهای خودکار گرفته تا تغییر وضعیت‌های ساده در یک سرور یا پایگاه داده. محدودیتی در برابر آن وجود ندارد.

در نهایت وظیفه فناوری اطلاعات طراحی انواع فعالیتهایی است که به عنوان رویدادهای اطلاعاتی، رویدادهای هشدار دهنده و رویدادهای استثنا در نظر گرفته می‌شوند. رویدادهای "هشدار" عموما رویدادهایی هستند که ممکن است به نظارت دقیق‌تر یا حتی مداخله ای برای کمک به شما در جلوگیری از وقوع استثناها نیاز داشته باشند. "استثنا" به معنای آن است که چیزی به معنای واقعی اشتباه بوده و به اقدام فوری نیاز دارد.

فعالیت‌های کلیدی مدیریت رویداد

شما میبایست در طول فاز طراحی سرویس‌های IT انواع رویدادهایی که باید تولید شوند و نیز چگونگی تولید آنها را برای هر نوع آیتم پیکربندی (CI) که در ارائه سرویس وجود دارند را تعریف کنید. چرخه حیات رویداد به شرح زیر است:

  • 1.وقوع رویداد (Event Occurrence)

رویدادها در تمام سال و بصورت 24 ساعته رخ می‌دهند. در مدیریت رویداد ITIL، موضوع کلیدی تعریف انواع رویدادهایی است که برای عملیات شما و اطمینان از داشتن یک سیستم برای تشخیص آنها، بسیار مهم است.

  • 2.اعلان رویداد (Event Notification)

اعلان‌ها معمولا توسط ابزارها یا CIها ارسال می‌شوند. اعلان‌هایی که در این مرحله هستند، اطلاع می‌دهند یک رویداد اتفاق افتاده و همچنان تاثیر و مفهوم آنها مورد تجزیه و تحلیل قرار نگرفته است.

  • 3.تشخیص رویداد (Event Detection)

در این مرحله یک سیستم مانیتورینگ، عامل خودکار (automated agent) یا راه حل مدیریت سیستم‌ها، اعلان‌ها را دریافت کرده و مفهوم هر رویداد را مشخص می‌کند.

  • 4.ثبت رویداد (Event Logged)

همزمان با هر اقدامی که انجام می‌شود، یک رکورد برای رویداد ساخته می‌شود. اینکار ممکن است توسط راه حل مدیریت سیستم‌ها و یا توسط سخت افزار/ سرویس/ برنامه های مجزا که باعث وقوع این رویداد می‌شوند، انجام شود.

  • 5.آنالیز و فیلتر رویداد (Event Filtering and Correlation)

آیا می‌توان رویداد را نادیده گرفت یا باید به سیستم مدیریت رویداد منتقل شود؟ در اغلب موارد، رویدادهای اطلاعاتی نادیده گرفته می‌شوند درصورتیکه هشدارها و استثناها اغلب نیازمند اقدامات اضافی هستند. بنابراین اولین قدم در این فرآیند، فیلترینگ و آنالیز سطح یک نامیده شده که به سادگی رویدادهایی را که باید نادیده گرفته شوند، فیلتر می‌کند.

در سطح دوم فیلترینگ و آنالیز، یک موتور تحلیل گر از قوانین کسب و کار از پیش تعریف شده برای تعیین اهمیت رویدادهای هشدار و استثنا استفاده می‌کند و در خصوص گام های درست بعدی تصمیم گیری می‌کند.

  • 6.پاسخ رویداد / اقدام بعدی

به یاد داشته باشید که همه رویدادها (و پاسخ‌ها) باید ثبت شوند. علاوه بر این، موتور تحلیل گر ممکن است براساس نوع و شدت رویداد ،تعیین کند که آیا مناسب است این رویداد به یک تیم یا فرد ارجاع داده شود یا در شرایط وقوع هشدارها و استثناهای شدیدتر، حتی به صورت خودکار یک رخداد، مشکل یا تغییر ایجاد می‌کند.

  • 7.بستن رویداد (Closing the Event)

اگر رویدادی که منجر به وقوع رخداد، مشکل و یا تغییر می‌شود، ایجاد شود، در چنین حالتی میبایست رویداد از طریق فرآیندهای مربوطه بسته شود. در واقع پس از اطمینان از این که رویداد به درستی ثبت شده است و همچنین اقدام بعدی نیز انجام شده و شامل یک لینک به رخداد، مشکل یا درخواست تغییر می‌باشد، رویداد می‌تواند در سیستم مدیریت رویداد بسته شود.

همچون بسیاری از فرآیندهای ITIL، مدیریت رویداد نیز در یک محیط ایزوله و جداگانه فعالیت نمی‌کند. مادامی که مدیریت رویداد با مدیریت رخداد، مشکل و تغییر (برای مقابله با استثناها) در ارتباط است، با موارد نیز در ارتباط خواهد بود:

  • مدیریت ظرفیت و دسترس پذیری برای درک اهمیت رویدادها، مقادیر آستانه و ... .
  • مدیریت دارایی برای مدیریت وضعیت دارایی ها
  • مدیریت پیکربندی برای مدیریت وضعیت CI ها

اندازه گیری اثربخشی

چند شاخص کلیدی عملکرد (KPI) وجود دارند که به شما کمک می‌کند میزان کارایی و اثربخشی فرآیند مدیریت رویداد را اندازه گیری کنید. این شاخص‌ها عبارتند از:

  • CI هایی که بیشتر رویدادها را تولید می‌کنند.
  • تعداد رویدادهای گزارش شده توسط ابزارهای مانیتورینگ و تحلیل های آماری بر اساس دسته بندی رویدادها
  • درصد کل رویدادهایی که به رخداد تبدیل شده اند ( یا منجر به تغییر شده اند) و بطور خاص، تعداد این رخدادها که از طریق سیستم‌های خودکار شما گزارش شده اند.

توصیه‌های کلیدی

ابتدا اطمینان حاصل کنید که یک مطالعه کامل در مورد انواع رویدادهایی که در محیط IT شما اتفاق می افتد، انجام داده اید. اطلاع داشته باشید که سیستم‌ها چه رویدادهایی را در کجا ثبت می‌کنند و مفهوم رویدادها چیست.

اینکار شناخت و تعریف انواع رویدادهایی که به توجه بیشتر نیاز دارند را بسیار ساده می‌کند (چه این رویدادها بر اثر مداخله انسانی و چه بر اثر جریان های کاری خودکار برای کنترل تغییرات یا افزایش رخدادها بوجود آمده باشند).

از آنجایی که برای یک فرد زنده (یا حتی تیمی از افراد) نظارت و مدیریت هر یک از رویدادها توسط همه سیستم ها امکان پذیر نیست،، هدف شما باید اینگونه باشد که یک مجموعه ساده و کارآمد از جریان های کاری برای خودکار سازی کارهای ساده ایجاد کنید و در زمان وقوع رویدادهای مهمی که سرویس‌ها را تهدید می‌کنند (یا رویدادهایی که نیازمند کمک انسانی هستند)، تیم خود را آگاه سازید.

در نهایت، اطمینان حاصل کنید که لاگ های رویداد شما سطح مناسبی از جزئیات را در بر می‌گیرد، برای مثال جزئیاتی در خصوص اینکه چه اتفاقی افتاده است، چه زمانی اتفاق افتاده است، چگونه کنترل و اداره شده است، به چه کسی ارجاع داده شده است و هرگونه جزئیات مربوط به ارتباطاتی که با سایر افراد یا سیستم‌ها جهت پشتیبانی از هرگونه اقدام صورت گرفته است. شما همچنین می خواهید رویدادهایی که SLA ها یا OLA های شما را نقض می کنند را ذخیره کرده تا از این طریق بتوانید گزارش‌های دقیق ارائه کرده و سازگاری خود را حفظ کنید.