استفاده متا از هوش مصنوعی برای مدیریت حوادث

عصر ایران پنج شنبه 01 آذر 1403 - 06:06

شرکت متا با استفاده از مدل‌های زبانی بزرگ (LLMs) توانست فرآیندهای مدیریت حوادثش را بهبود دهد و به نتایجی قابل توجه در دقت و کارایی دست یابد. متا ابزارهای مدیریت حادثه پیشرفته‌ای طراحی کرده است که به مهندسان آنکال کمک می‌کند به سه پرسش کلیدی پاسخ دهند: چه مشکلی پیش آمده است؟ چرا این اتفاق افتاد؟ چگونه می‌توان این مشکل را حل کرد؟

شرکت متا با استفاده از مدل‌های زبانی بزرگ (LLMs) توانست فرآیندهای مدیریت حوادثش را بهبود دهد و به نتایجی قابل توجه در دقت و کارایی دست یابد. بر اساس گزارشی که در وبلاگ مهندسی متا منتشر شد، این شرکت با دقت 42 درصدی علت اصلی حوادث را در میان پایگاه کد گسترده خود شناسایی کرد. این دستاورد نه‌تنها توان بالقوه هوش مصنوعی مولد را نشان می‌دهد، بلکه به سازمان‌های دیگر، راهکاری برای ادغام فناوری‌های مشابه در فرآیندهای مهندسی می‌دهد.

مدیریت حوادث در مقیاس متا

به گزارش تجارت نیوز، عملیات مهندسی متا که در مقیاسی بسیار بزرگ انجام می‌شود، شامل هزاران تغییر روزانه در کد است. بیشتر این کدها هم در مخزن کد عظیم و یکپارچه‌ای صورت می‌گیرد. در چنین شرایطی، شناسایی و بررسی اختلالات یا حوادث، چالشی بزرگ می‌شود و ابزارها و فرآیندهای سنتی برای غربال‌کردن این حجم از تغییرات کافی نیست.

برای حل این مشکل، متا ابزارهای مدیریت حادثه پیشرفته‌ای طراحی کرده است که به مهندسان آنکال کمک می‌کند به سه پرسش کلیدی پاسخ دهند: چه مشکلی پیش آمده است؟ چرا این اتفاق افتاد؟ چگونه می‌توان این مشکل را حل کرد؟ هوش مصنوعی مولد با توانایی تحلیل و اولویت‌بندی داده‌های گسترده، ابزار مؤثری برای بهبود این فرآیندها ارائه و زمان شناسایی و رفع مشکل را کاهش می‌دهد.

نقش مدل‌های زبانی در مدیریت حوادث

متا از مدل‌های زبانی بزرگ برای تسریع در تجزیه و تحلیل علت اصلی حوادث (RCA) بهره برد. این سیستم با شناسایی محتمل‌ترین علت‌های یک مشکل در آغاز تحقیقات، به مهندسان کمک می‌کند تا زمان‌شان با جستجوی تغییرات نامربوط هدر ندهند. این رویکرد در دو مرحله انجام می‌شود: بازیابی مبتنی بر قواعد و رتبه‌بندی با کمک LLM.

در مرحله بازیابی، سیستم با استفاده از قواعدی نظیر مالکیت کد، ساختار دایرکتوری و گراف‌های کد زمان اجرا، موجب محدودشدن دامنه جستجو می‌شود. سپس مدل زبانی، تغییرات را بر اساس میزان ارتباطشان رتبه‌بندی و به مهندسان در تمرکز روی محتمل‌ترین دلایل کمک می‌کند.

این ابزار هوش مصنوعی به‌طور یکپارچه در فرآیندهای موجود متا ادغام شده است. مهندسان همچنان تحقیقات خود را مثل گذشته ادامه می‌دهند، اما اکنون یک لیست اولویت‌بندی شده از دلایل احتمالی هم در اختیار دارند. این سیستم دستیاری برای تصمیمات سریع‌تر و آگاهانه‌تر است و قرار نیست جایگزین مهندسان باشد.

تنظیم مدل Llama 2 برای تحلیل علت اصلی

یکی از نوآوری‌های کلیدی در این رویکرد متا، تنظیم دقیق مدل Llama 2، به‌ویژه نسخه 7 میلیارد پارامتری آن، برای تحلیل علت اصلی است. این مدل با داده‌های تاریخی حوادث گذشته آموزش دیده تا الگوها و شرایطی که تغییرات خاصی در کد موجب مشکلات شده است را شناسایی کند.

فرآیند تنظیم دقیق مدل در دو مرحله انجام شد. در مرحله اول، آموزش پیشرفته مستمر (CPT) مدل با پایگاه دانش داخلی متا که شامل ویکی‌ها، مخازن کد و مستندات سؤالات و پاسخ‌ها است، آشنا شد. این مرحله به مدل درک گسترده‌ای از سیستم‌های متا داد. در مرحله دوم، تنظیم دقیق نظارتی (SFT)، مدل با مجموعه داده‌هایی که مخصوص تحلیل علت اصلی طراحی شده بود، آموزش دید. این داده‌ها نمونه‌هایی از تحقیقات با اطلاعات محدود بودد تا شرایط واقعی را شبیه‌سازی کند.

این فرآیند به مدل این امکان را داد تا لیست‌های رتبه‌بندی‌شده‌ای از علل احتمالی تولید و با استفاده از احتمالات، احتمال هر تغییر را در بروز مشکل ارزیابی کند. ترکیب این توانایی با داده‌های تاریخی، منجر به دقت 42 درصدی در شناسایی علت اصلی حوادث شد.

اهمیت دقت 42 درصدی در مدیریت حوادث

شاید دقت 42 درصدی در نگاه اول کم به نظر برسد، اما در مقیاس متا که روزانه هزاران تغییر در کد ایجاد می‌شود، حتی اتوماسیون جزئی در شناسایی علل اصلی هم می‌تواند کارایی را به‌طور چشمگیری افزایش دهد. در نزدیک به نیمی از موارد، مهندسان می‌توانند تحقیقات خود را با پاسخ صحیح شروع کنند و زمان رفع مشکل را از ساعت‌ها به ثانیه‌ها کاهش دهند.

در سازمان‌های کوچک‌تر که پایگاه کد کم‌حجم‌تری دارد، ابزارهای مشابه مبتنی بر هوش مصنوعی ممکن است نرخ موفقیت بالاتری داشته باشد. حتی اگر این سیستم همیشه درست عمل نکند، باز هم با کمک به مهندسان برای تأیید یا رد سریع علل احتمالی، زمان و تلاش آن‌ها را به‌طور قابل‌توجهی کاهش می‌دهد.

گام بعدی: عوامل هوش مصنوعی در مدیریت حوادث

موفقیت متا در تنظیم دقیق مدل‌های زبانی نشان می‌دهد که عوامل هوش مصنوعی می‌تواند نقش بیشتری در مدیریت حوادث ایفا کند. این عوامل می‌تواند وظایف اضافی نظیر جمع‌آوری اطلاعات از منابع مختلف، پیگیری راهنماها، اندازه‌گیری تاثیر و حتی انجام اقدامات اولیه برای کاهش اثرات را بر عهده بگیرد. با پیشرفت در مدل‌های زبانی بزرگ، احتمالا این عوامل قادر خواهد بود بخش‌های بیشتری از فرآیند مدیریت حادثه را پوشش و بار کاری مهندسان را کاهش دهد.

درس‌هایی برای دیگر سازمان‌ها

رویکرد متا با اولویت‌بندی علت‌های احتمالی و محدودکردن دامنه جستجو، به سازمان‌ها کمک می‌کند تا زمان تحقیقات را کاهش و کارایی کلی را افزایش دهند. هرچند بیشتر شرکت‌ها منابع متا برای تنظیم دقیق مدل‌ها را ندارند، ابزارهای دیگری مثل Parity تلاش می‌کند تا این مزیت‌ها را در دسترس تیم‌های کوچک‌تر نیز قرار دهد.

برای مثال،Parity از عوامل هوش مصنوعی استفاده می‌کند تا به طور خودکار مشکلات ناشی از هشدارهای ابزارهای نظارتی مثل PagerDuty یا DataDog را بررسی کند. این عامل اطلاعات لازم را جمع‌آوری، علل احتمالی را شناسایی می‌کند و یافته‌های خود را پیش از آغاز تحقیقات به مهندسان ارائه می‌دهد. این رویکرد هم یاعث کاهش زمان رفع مشکل می‌شود.

آینده هوش مصنوعی در مدیریت حوادث

استفاده از هوش مصنوعی در مدیریت حوادث هنوز در مراحل اولیه قرار دارد، اما پتانسیلش بسیار زیاد است. با بهبود توانایی‌های مدل‌های زبانی بزرگ، انتظار می‌رود که در بسیاری از جنبه‌های مدیریت حادثه از عملکرد انسانی پیشی بگیرد. علاوه بر اختلالات سنتی، هوش مصنوعی می‌تواند نقش مهمی در پاسخ به حوادث امنیت سایبری نیز ایفا و به تحلیلگران امنیتی در شناسایی و پیشگیری از تهدیدات احتمالی کمک کند.

بیشتر بخوانید:

فراخوان برنامه تابستانه دانشمندان جوان در سال ۲۰۲۵