اصول اولیه در خطایابیِ کاهش کارایی شبکه (Network Performance Troubleshooting)

خیلی اوقات مشکلات Performance نرم‌افزارها به ضعف یا مشکلات در شبکه نسبت داده می‌شوند و اتفاقاً Troubleshooting این دسته از مشکلات یکی از طاقت‌فرساترین کارها است. عموماً هم، کاربر یا توسعه‌دهنده‌ی Application از کند بودن همه‌چیز گلایه دارند و خب دیواری کوتاه‌تر از شبکه وجود ندارد.

Network Performance Troubleshooting
تصویر از Redmond Magazine

البته که در بسیاری از موارد نیز گره حل این مشکلات در شبکه می‌باشد، از طراحی و تتظیمات اشتباه گرفته، تا نیاز به بهینه‌سازی های اولیه. خیلی اوقات نیز عدم وجود پیش‌بینی و برنامه‌ریزی از نیاز و ظرفیت شبکه (Capacity Planning/Management) باعث بروز چنین مشکلاتی در طول زمان می‌گردد.

چهت بررسی این دسته از مشکلات و اندازه‌گیری Performance، در کنار KPI های مرتبط با نرم‌افزار، روش‌ها و ابزارهای متعددی نیز از دیدگاه شبکه وجود دارد مانند RTT بین دو node توسط ping time، تغییرات مسیر بین دو Node، میزان تغییرات زمان دریافت بسته‌ها (Jitter)، میزان گذردهی شبکه (Throughput) و یا موارد اولیه مانند مقدار زمانی که طول میکشد تا یک اتفاق خاص صورت پذیرد. یکی دیگه از ابزارهای مهم در این زمینه نیز Capture کردن ترافیک و بررسی بسته ها در لایه‌های مختلف هست (توسط ابزارهایی مانند tcpdump، Wireshark و …)

اما در کنار تمام این ابزارهای ذکر شده و استفاده از آن‌ها توأم با بروز بودن مستندسازی شبکه، نکته‌ی مهم دیگر مستندسازی و ثبت اندازه‌گیری‌ها حین Troubleshooting می‌باشد که می‌تواند شامل درج ابزار استفاده شده، screenshot گرفتن، ذخیره‌کردن Logها، و ثبت محل اندازه‌گیری و … باشد.

در این مطلب، یک نمونه سناریو Network Performance Troubleshooting و متدولوژی استفاده شده در دنیای واقعی بیان شده است که مطالعه آن پیشنهاد می‌شود.

مشکل مرگبار Clock در برخی تجهیزات سیسکو!

دو روز قبل شرکت سیسکو اخطاری مبنی بر مشکلی در Clock برخی از تجهیزات منتشر کرد که باعث سردرگمی و مشکلات فراروانی برای مشتریان سیسکو شده است.

مشکل Clock سیسکو

طبق این اطلاعیه، Clock برخی تحهیزات شرکت سیسکو مشکلی دارد که به مرور زمان کیفیت کارایی آن پایین آمده و نهایتاً بعد از حدود ۱۸ ماه، کلاً فعالیت آن متوقف می‌شود. پس از این توقف، تجهیز نیز دیگر قادر به هیچ فعالیتی نبوده، و حتی boot نخواهد شد. این مورد به هیچ‌وجه قابل حل نیست مگر با تعویض تجهیز.
طبق اظهار سیسکو، این قطعه توسط یک شرکت ثالث تولیده شده و در تجهیزات شرکت‌های دیگر نیز استفاده شده ‌است.

همانطور که در ابتدای مطلب اشاره شد، این مشکل باعث بحث‌های متعددی شده که برخی از این گفتگوها را می‌توان در اینجا دنبال کرد. در برخی خبررسانی‌ها این اتفاق به یک بمب ساعتی تشبیه شده است.

البته همانطور که مشخص است، در خارج از کشور عمده‌ی مشتریان امکان تعویض رایگان این تجهیزات را دارند، و احتمالاً در طراحی اغلب شبکه ها Redundancy بصورتی دیده شده است که امکان جایگزینی بدون مشکل و قطعی تجهیز وجود دارد. اما بحثی که در برخی شرکت‌های بزرگ قبلاً شروع شده بود و حالا بیشتر سر زبان است، بحث Vendor Lock-in هست برای شبکه‌هایی که تماماً از تجهیزات یک شرکت استفاده می‌کنند و در چنین مواقعی ممکن است دچار مشکلات متعدد گردند.

مهم‌ترین تحهیزات تحت تاثیر این مشکل ISR4300، برخی مدل‌های Nexus 9000 و بعضی از مدل‌های ASA هستند. لیست کامل این تجهیزات را می‌توانید در این لینک مشاهده کنید.

اگر این مشکل تجهیزات شما را نیز تحت تاثیر قرار می‌دهد، لطفاً تجربه و راه حلی که برای آن درنظر گرفتید را در قسمت نظرات به اشتراک بگذارید.