لوگو دانا پرداز
49258000 - 021

راهنمای ITIL

مدیریت رویداد (ITIL Event Management) چیست؟

ITIL Service Strategy

معرفی مفهوم ITIL

مرجع آنلاین ITIL

مدیریت رویداد (ITIL Event Management) چیست؟

در هر روز هزاران رویداد در سراسر زیرساخت فناوری اطلاعات شما رخ می‌دهد. چرا؟ در حقیقت، رویداد یک تغییر در وضعیت یک سرویس IT یا آیتم پیکربندی (CI) است که برای مدیریت آن بسیار اهمیت دارد. برای مثال تغییر سرور از حالت آنلاین به حالت غیرفعال می‌تواند یک رویداد باشد، یا تکمیل اسکریپت نگهداری سرور بصورت منظم نیز یک رویداد در نظر گرفته می‌شود؛ دانستن این موارد ارزشمند و مفید بوده و حتی ممکن است اقداماتی باشند که شما می‌خواهید به عنوان نتیجه انجام دهید.

 

معنی رویداد چیست؟

در ITIL 4 یک رویداد به عنوان «هر تغییر حالتی که برای مدیریت یک سرویس یا سایر موارد پیکربندی (CI) اهمیت دارد» تعریف می شود. یک رویداد را می توان به عنوان هر رخداد قابل تشخیصی که برای مدیریت خدمات فناوری اطلاعات یا زیرساخت فناوری اطلاعات اهمیت دارد تعریف کرد. یک رویداد می تواند توسط سخت افزار، نرم افزار، برنامه ها یا فعالیت های انسانی ایجاد شود و می تواند عادی یا غیرعادی باشد.

به عنوان مثال، فرض کنید شما چندین دیتا سنتر را نظارت و مدیریت می کنید. یکی از چیزهایی که باید تحت نظر داشته باشید دمای داخلی در دیتا سنتر است. اگر دما بیش از حد بالا برود، ممکن است تجهیزات دچار مشکل شوند.

به منظور پایش مستمر دما، از ابزاری تحت عنوان ترموستات استفاده می شود. پس از نصب، باید ترموستات را پیکربندی کنید تا دقیقا بداند چه دمایی را زیر نظر داشته باشد. برای مثال، این ترموستات باید طوری تنظیم شود که دمای دیتا سنتر همیشه 21 درجه سانتی گراد باشد.

اکنون که ترموستات بر روی 21 درجه سانتی گراد تنظیم شده است، این احتمال که دما یک درجه بالا یا پایین تر برود طبیعی است زیرا این تغییرات اختلالی در عملکرد دیتا سنتر ایجاد نمی کند. اگر دما به 22 درجه برسد، ابزار نظارتی (در اینجا ترموستات) یک هشدار ارسال می کند. ابزار مانیتورینگ در واکنش به این هشدار، سیستم تهویه مطبوع را روشن می کند تا دمای تجهیزات مجددا به بازه قابل قبول برسد.

در این مثال، شما از طریق نظارت و شناسایی به موقع، از وقوع یک رخداد جلوگیری کردید. اگر دمای دیتا سنتر به 23 درجه یا بالاتر برسد، به علت اینکه از آستانه تعیین شده فراتر رفته است، ابزار نظارت پیامی را به ابزار مدیریت رخداد شما ارسال می کند.

بر اساس نوع پیام، ابزار مدیریت رخداد شما می تواند نوع حادثه و اولویت را تشخیص دهد و سپس به طور خودکار یک تیکت رخداد ایجاد و آن را به مسئولین مناسب ارسال کند.

اهداف مدیریت رویداد در ITIL عبارتند از: تشخیص رویدادها، تجزیه و تحلیل آنها و تعیین اقدامات کنترلی درست. با تحقق این اهداف، فرآیند رویداد یک بستر قوی برای تضمین سرویس، گزارش‌گیری و بهبود سرویس فراهم خواهد کرد.

آنچه اهمیت دارد دانستن این نکته است که مانیتورینگ و مدیریت رویداد در ITIL با یکدیگر تفاوت دارند. درحقیقت، مانیتورینگ یک جزء از مدیریت رویداد در ITIL بوده و به همین علت یک روش مفید برای شناسایی رویدادها می‌باشد. از سوی دیگر، مدیریت رخداد با استخراج مفهوم رویدادها به فناوری اطلاعات کمک می‌کند تا اقدامات لازم را در مواقع لزوم انجام دهند.

در ادامه با سه نوع رویداد معمول در ITIL که با عنوان رویداد اطلاعاتی، هشدار دهنده و استثنایی شناخته می شود آشنا می شویم.

 

رویداد اطلاعاتی چیست؟

رویداد اطلاعاتی در ITIL 4 رویدادی است که توسط ابزار یا سیستم نظارتی شناسایی می شود و نیازی به اقدام یا مداخله ندارد. در واقع این نوع رویداد صرفا برای اهداف اطلاعاتی ثبت می شود.

رویدادهای اطلاعاتی برای جمع آوری و ذخیره داده های مربوط به عملکرد و در دسترس بودن خدمات فناوری اطلاعات، زیرساخت ها و برنامه ها استفاده می شود. این رویدادها می تواند شامل شروع به کار و خاموش شدن سیستم، تغییر در وضعیت سیستم، فعالیت های ورود و خروج کاربر و سایر رویدادهای خودکار مربوط به سیستم باشد.

هدف از جمع آوری و تجزیه و تحلیل رویدادهای اطلاعات به دست آوردن بینشی در مورد سلامت کلی و عملکرد محیط فناوری اطلاعات است. از این داده ها می توان برای شناسایی روندها و الگوها، پیش بینی تقاضای آینده و حمایت از برنامه ریزی ظرفیت و تلاش های مربوط به بهینه سازی استفاده کرد.

علاوه بر این، رویدادهای اطلاعاتی به دلیل اینکه اطلاعات زمینه ای ارزشمندی را برای حمایت از بررسی رخداد و مشکل ارائه می دهند، می توانند برای پشتیبانی از فعالیت های عیب یابی و حل مشکل مورد استفاده قرار بگیرند.

 

رویداد هشدار دهنده چیست؟

یک رویداد هشدار در ITIL 4 رویدادی است که نشان می دهد یک مشکل موجود یا بالقوه شناسایی شده است که به توجه یا مداخله نیاز دارد.

یک رویداد هشدار ممکن است نشانه ای از مشکلی باشد که در حال حاضر بر عملکرد یا در دسترس بودن سرویس های فناوری اطلاعات، زیرساخت ها یا برنامه ها تاثیر می گذارد. این رویداد همچنین ممکن است نشانه ای از یک مشکل قریب الوقوع باشد که باید به طور پیشگیرانه برای جلوگیری از اختلالات سرویس مورد توجه قرار بگیرد.

نمونه هایی از رویدادهای هشدار عبارتند از به آستانه بحرانی رسیدن استفاده از CPU، کمبود فضای یک هارد دیسک، اشباع شدن شبکه یا عدم پاسخگویی سرور. این رویدادها معمولا توسط ابزارها یا سیستم های نظارت شناسایی می شوند و برای بررسی و اقدام بیشتر به تیم عملیات فناوری اطلاعات ارسال می شود.

هدف از رویدادهای هشدار دهنده، ارائه هشدار اولیه در مورد مشکلات یا مسائل احتمالی است که به تیم های عملیات فناوری اطلاعات این امکان را می دهد تا اقدامات پیشگیرانه را برای جلوگیری از اختلالات خدمات و به حداقل رساندن تاثیر حوادث انجام دهند.

رویدادهای هشدار می توانند پاسخ های خودکار مانند ایجاد تیکت های حادثه را ایجاد کنند و یا می توانند برای آگاه سازی کارمندان عملیات فناوری اطلاعات در خصوص نیاز به توجه و اقدام فوری استفاده شوند.

 

رویداد استثنایی چیست؟

یک رویداد استثنایی در ITIL 4 رویدادی است که به توجه و مداخله فوری کارمندان عملیات فناوری اطلاعات نیاز دارد.

رویدادهای استثنایی معمولا نشان دهنده مشکلات یا مسائل مهمی هستند که بر عملکرد یا در دسترس بودن خدمات فناوری اطلاعا، زیرساخت ها و برنامه تاثیرگذارند و به اقدام فوری برای بازگرداندن وضعیت عملیات سرویس به حالت عادی نیاز دارند.

خرابی سرور، قطع شدن شبکه، نقض امنیت، خرابی داده ها و سایر رخدادهای مهم نمونه هایی از رویدادهای استثنایی هستند که به توجه فوری کارمندان عملیات فناوری اطلاعات نیاز دارند.

هدف از رویدادهای استثنایی ارائه مکانیزمی برای کارمندان عملیات فناوری اطلاعات است تا به موقع و موثر رخدادهای مهم را اولویت بندی کنند و به آنها پاسخ بدهند. رویدادهای استثنایی شروع کننده فرایند مدیریت رخداد هستند. این فرایند شامل فعالیت هایی مانند تشخیص رخداد، ثبت گزارش، طبقه بندی، اولویت بندی و حل مشکل است.

رویدادهای استثنایی همچنین باعث فعال شدن فرایند مدیریت تداوم خدمات می شود که بر بازگرداندن وضعیت عملیات سرویس به حالت عادی در سریع ترین زمان ممکن و به حداقل رساندن تاثیر رخدادها بر عملیات کسب و کار تمرکز دارد.

 

دامنه و مزایای مدیریت رویداد در ITIL

مدیریت رویداد در ITIL می‌تواند در هر یک از جنبه های مدیریت سرویس که نیازمند کنترل بوده و می‌تواند خودکارسازی شود (از شبکه ها، سرورها و برنامه های کاربردی تا تمام شرایط محیطی مانند تشخیص آتش و دود و امنیت و تشخیص نفوذ) مورد استفاده قرار گیرد.

از آنجایی که مدیریت رویداد در ITIL می تواند در هر جنبه از مدیریت سرویس‌ها در سازمان فناوری اطلاعات شما اعمال شود، مزایای گسترده ای نیز دارد. به طور کلی، مدیریت موثر رویدادها می‌تواند:

  • فراهم ساختن پایه و بستری قوی برای خودکارسازی اجزاء عملیات فناوری اطلاعات
  • بهبود زمان تشخیص و پاسخ به رخدادها، تغییرات، استثناها و … .
  • کاهش زمان وقفه به عنوان نتیجه ای از موارد بالا

در مدیریت رویداد در ITIL، موفق بودن به معنای داشتن قابلیت تشخیص، برقراری ارتباط و انجام اقدامات مناسب برای هر رویداد (یا تغییر در حالت) بوده که برای مدیریت سرویس‌های فناوری اطلاعات و CI هایی که از آنها پشتیبانی می کند، بسیار اهمیت دارد.

 

جریان فرآیند مدیریت رویداد (Event Management Process Flow)

 

جریان فرآیند مدیریت رویداد

 

چه تفاوتی بین رویداد و رخداد وجود دارد؟

سوال خوبی است و پاسخ آن نیز ساده است. رخدادها وقفه های پیش بینی نشده یا کاهش کیفیت سرویس فناوری اطلاعات هستند. هنگامیکه رخدادی بوجود می آید، به معنای ان است که موردی اشتباه است. اما در مقابل رویدادها تغییراتی هستند که در وضعیت سرویس‌ها، CI ها یا تقریبا هر چیز مهم در زیرساخت IT شما رخ می‌دهند.

آیا رخداد می‌تواند یک رویداد باشد؟ پاسخ مثبت است. همه رخدادها نوعی رویداد هستند زیرا قطعی سرویس یا کاهش کیفیت سرویس نوعی تغییر در وضعیت سرویس محسوب می‌شوند. اما همه رویدادها، رخداد نیستند، زیرا افزایش بازدهی، ورود کاربر به سیستم یا تکمیل خودکار سرویس پشتیبان، نشان دهنده تغییر وضعیت سرویس بوده اما منجر به ایجاد وقفه یا کاهش کیفیت سرویس نمی‌شود.

سه نوع رویداد توسط ITIL تعریف شده است. این رویدادها عبارتند از:

  1. اطلاعات. این رویدادها معمولا به هیچ پاسخی نیاز ندارند، زیرا آنها بروز رسانی های اولیه یا داده هایی هستند که برای کمک به گزارشگیری تولید می‌شوند. لاگ‌ها و گزارش‌ها نمونه هایی از این موارد هستند.
  2. هشدار. هشدارها نشان دهنده فعالیت‌های خارج از محدوده نرمال هستند (مانند رسیدن به مقدار آستانه). هشدار به معنای آن است که شما باید شرایط را نظارت کرده تا اطمینان حاصل کنید شرایط بدتر نخواهند شد و یا اقدامات لازم را برای جلوگیری از بدتر شدن آنها انجام دهید. یک مثال از این نوع رویداد حالتی است که ظرفیت سرور به 75٪ برسد یا یک تراکنش استاندارد 15٪ بیشتر از حالت نرمال طول بکشد.
  3. استثنا. رویدادهای استثنا نشان می‌دهند که چه چیزی اشتباه است. سرویس‌ها (و کسب و کاری که آنها پشتبانی می‌کنند) نیز ممکن است تاثیر منفی بپذیرند. Down شدن سرور یا شبکه مثالی از این نوع رویداد هستند.

چه فعالیت‌های دیگری می‌تواند به عنوان رویداد درنظر گرفته شود و یک فرآیند مدیریت رویداد را آغاز کند؟ تعداد کمی فعالیت وجود دارد، از استثناها و فرآیندهای خودکار گرفته تا تغییر وضعیت‌های ساده در یک سرور یا پایگاه داده. محدودیتی در برابر آن وجود ندارد.

در نهایت وظیفه فناوری اطلاعات طراحی انواع فعالیتهایی است که به عنوان رویدادهای اطلاعاتی، رویدادهای هشدار دهنده و رویدادهای استثنا در نظر گرفته می‌شوند. رویدادهای “هشدار” عموما رویدادهایی هستند که ممکن است به نظارت دقیق‌تر یا حتی مداخله ای برای کمک به شما در جلوگیری از وقوع استثناها نیاز داشته باشند. “استثنا” به معنای آن است که چیزی به معنای واقعی اشتباه بوده و به اقدام فوری نیاز دارد.

 

فعالیت‌های کلیدی مدیریت رویداد در ITIL

شما میبایست در طول فاز طراحی سرویس‌های IT انواع رویدادهایی که باید تولید شوند و نیز چگونگی تولید آنها را برای هر نوع آیتم پیکربندی (CI) که در ارائه سرویس وجود دارند را تعریف کنید. چرخه حیات رویداد به شرح زیر است:

 

۱. وقوع رویداد (Event Occurrence)

رویدادها در تمام سال و بصورت 24 ساعته رخ می‌دهند. در مدیریت رویداد ITIL، موضوع کلیدی تعریف انواع رویدادهایی است که برای عملیات شما و اطمینان از داشتن یک سیستم برای تشخیص آنها، بسیار مهم است.

 

۲. اعلان رویداد (Event Notification)

اعلان‌ها معمولا توسط ابزارها یا CIها ارسال می‌شوند. اعلان‌هایی که در این مرحله هستند، اطلاع می‌دهند یک رویداد اتفاق افتاده و همچنان تاثیر و مفهوم آنها مورد تجزیه و تحلیل قرار نگرفته است.

۳. تشخیص رویداد (Event Detection)

در این مرحله یک سیستم مانیتورینگ، عامل خودکار (automated agent) یا راه حل مدیریت سیستم‌ها، اعلان‌ها را دریافت کرده و مفهوم هر رویداد را مشخص می‌کند.

 

۴. ثبت رویداد (Event Logged)

همزمان با هر اقدامی که انجام می‌شود، یک رکورد برای رویداد ساخته می‌شود. اینکار ممکن است توسط راه حل مدیریت سیستم‌ها و یا توسط سخت افزار/ سرویس/ برنامه های مجزا که باعث وقوع این رویداد می‌شوند، انجام شود.

 

۵. آنالیز و فیلتر رویداد (Event Filtering and Correlation)

آیا می‌توان رویداد را نادیده گرفت یا باید به سیستم مدیریت رویداد منتقل شود؟ در اغلب موارد، رویدادهای اطلاعاتی نادیده گرفته می‌شوند درصورتیکه هشدارها و استثناها اغلب نیازمند اقدامات اضافی هستند. بنابراین اولین قدم در این فرآیند، فیلترینگ و آنالیز سطح یک نامیده شده که به سادگی رویدادهایی را که باید نادیده گرفته شوند، فیلتر می‌کند.

در سطح دوم فیلترینگ و آنالیز، یک موتور تحلیل گر از قوانین کسب و کار از پیش تعریف شده برای تعیین اهمیت رویدادهای هشدار و استثنا استفاده می‌کند و در خصوص گام های درست بعدی تصمیم گیری می‌کند.

۶. پاسخ رویداد / اقدام بعدی

به یاد داشته باشید که همه رویدادها (و پاسخ‌ها) باید ثبت شوند. علاوه بر این، موتور تحلیل گر ممکن است براساس نوع و شدت رویداد ،تعیین کند که آیا مناسب است این رویداد به یک تیم یا فرد ارجاع داده شود یا در شرایط وقوع هشدارها و استثناهای شدیدتر، حتی به صورت خودکار یک رخداد، مشکل یا تغییر ایجاد می‌کند.

 

۷. بستن رویداد (Closing the Event)

اگر رویدادی که منجر به وقوع رخداد، مشکل و یا تغییر می‌شود، ایجاد شود، در چنین حالتی میبایست رویداد از طریق فرآیندهای مربوطه بسته شود. در واقع پس از اطمینان از این که رویداد به درستی ثبت شده است و همچنین اقدام بعدی نیز انجام شده و شامل یک لینک به رخداد، مشکل یا درخواست تغییر می‌باشد، رویداد می‌تواند در سیستم مدیریت رویداد بسته شود.
همچون بسیاری از فرآیندهای ITIL، مدیریت رویداد نیز در یک محیط ایزوله و جداگانه فعالیت نمی‌کند. مادامی که مدیریت رویداد با مدیریت رخداد، مشکل و تغییر (برای مقابله با استثناها) در ارتباط است، با موارد نیز در ارتباط خواهد بود:

  • مدیریت ظرفیت و دسترس پذیری برای درک اهمیت رویدادها، مقادیر آستانه و … .
  • مدیریت دارایی برای مدیریت وضعیت دارایی ها
  • مدیریت پیکربندی برای مدیریت وضعیت CI ها

 

اندازه گیری اثربخشی

چند شاخص کلیدی عملکرد (KPI) وجود دارند که به شما کمک می‌کند میزان کارایی و اثربخشی فرآیند مدیریت رویداد را اندازه گیری کنید. این شاخص‌ها عبارتند از:

  • CI هایی که بیشتر رویدادها را تولید می‌کنند.
  • تعداد رویدادهای گزارش شده توسط ابزارهای مانیتورینگ و تحلیل های آماری بر اساس دسته بندی رویدادها
  • درصد کل رویدادهایی که به رخداد تبدیل شده اند ( یا منجر به تغییر شده اند) و بطور خاص، تعداد این رخدادها که از طریق سیستم‌های خودکار شما گزارش شده اند.

 

توصیه‌های کلیدی

ابتدا اطمینان حاصل کنید که یک مطالعه کامل در مورد انواع رویدادهایی که در محیط IT شما اتفاق می افتد، انجام داده اید. اطلاع داشته باشید که سیستم‌ها چه رویدادهایی را در کجا ثبت می‌کنند و مفهوم رویدادها چیست.

اینکار شناخت و تعریف انواع رویدادهایی که به توجه بیشتر نیاز دارند را بسیار ساده می‌کند (چه این رویدادها بر اثر مداخله انسانی و چه بر اثر جریان های کاری خودکار برای کنترل تغییرات یا افزایش رخدادها بوجود آمده باشند).

از آنجایی که برای یک فرد زنده (یا حتی تیمی از افراد) نظارت و مدیریت هر یک از رویدادها توسط همه سیستم ها امکان پذیر نیست،، هدف شما باید اینگونه باشد که یک مجموعه ساده و کارآمد از جریان های کاری برای خودکار سازی کارهای ساده ایجاد کنید و در زمان وقوع رویدادهای مهمی که سرویس‌ها را تهدید می‌کنند (یا رویدادهایی که نیازمند کمک انسانی هستند)، تیم خود را آگاه سازید.

در نهایت، اطمینان حاصل کنید که لاگ های رویداد شما سطح مناسبی از جزئیات را در بر می‌گیرد، برای مثال جزئیاتی در خصوص اینکه چه اتفاقی افتاده است، چه زمانی اتفاق افتاده است، چگونه کنترل و اداره شده است، به چه کسی ارجاع داده شده است و هرگونه جزئیات مربوط به ارتباطاتی که با سایر افراد یا سیستم‌ها جهت پشتیبانی از هرگونه اقدام صورت گرفته است. شما همچنین می خواهید رویدادهایی که SLA ها یا OLA های شما را نقض می کنند را ذخیره کرده تا از این طریق بتوانید گزارش‌های دقیق ارائه کرده و سازگاری خود را حفظ کنید.

 

پیمایش به بالا