SMART چیست و چگونه کار میکند؟
همه مشکلاتی که در ادامه آمده می تواند نشان دهنده خطری در هارد دیسک شما باشد، اما چطور می توانیم به قطعیت در این مورد برسیم و چه بخشی در سیستم های کامپیوتری موظف به بررسی و اعلام این خطرهاست؟
- صدای کلیک در هارد دیسک یا هر صدای ناهنجار دیگری که از هارد موقع کار شنیده می شود
- داغ کردن غیر عادی هارد دیسک هنگام کار
- کند شدن ناگهانی سیستم
- خرابی فایل های روی هارد بدوه هیچ دلیلی
- کرش کردن، هنگی و نمایش صفحه آبی درست در زمان باز کردن فایل ها یا کار کردن با آنها
گفتگوی TechTalk: بررسی دلایل خرابی هارد
آنچه در این تک تاک بررسی می شود:
- طریقه نگهداری از هارد دیسک
- دلایل خرابی هارد دیسک
- تاثیر دما بر هارد
- SMART چیست و چه اهمیتی دارد
S.M.A.R.T یا همان اسمارت مخفف Self-Monitoring Analysis and Reporting Technology است و اولین بار توسط شرکت IBM ابداع شد. هدف از به وجود آوردن این سیستم، مانیتور وضعیت دیسک با استفاده از روشها و دستگاههای مختلف (سنسورها) است.
SMART فاکتورهای از پیش تعریف شده ای دارد که سلامت هارد شما را بر اساس مقادیری که این فاکتورها به خودشان تخصیص می دهند، میزان سلامتی دستگاه را آنالیز و بررسی می کند، فاکتورهایی مانند وجود بد سکتور در هارد، دمای هارد دیسک، میزان خطاهای نوشتنی و خواندنی Read error / Write error و غیره.
مشخص است که هر کدام از این ویژگی ها یا فاکتورها دارای مقادیر پیش فرضی هستند، علاوه بر این مقادیر پیش فرض و اولیه، این فاکتورها دارای مقادیر بیشینه یا آستانه تحمل هم هستند.
اشتباهی که در این مورد رایج است این است که از آن به عنوان Smart Fail یاد میشود در صورتی که این ابزار، SMART است و معمولا با فشردن کلید F1 از آن رد شده و توجهی به آن نمیشود.
پیغام خطای هارد دیسک
در واقع زمانی که SMART فعال میشود و شروع به پیغام دادن میکند، یعنی دیگر هارد دیسک شما در شرایط مطلوبی نیست. یعنی بدسکتورها به حدی رسیدهاند که ممکن است اطلاعات از بین برود.
ابزار SMART قابل Clear شدن است که البته ابزارهای گران قیمتی لازم است و فروشندگان متقلب معمولا از منبعی این هاردها را تهیه میکنند که هاردها را Clear شده به آنها تحویل دهند.
شما حتی با دانستن این نکات در هنگام خرید هارد دیسک، می توانید با داشتن اطلاعات درست از میزان عمر هارد دیسک، دسته دوم بودن آن یا وجود بدسکتور در آن اطمینان پیدا کنید. برای اطلاعات بیشتر علاوه بر خرید مطمئن از فروشگاه تجهیزات شبکه توسعه شبکه آداکو خرید سرور hp، می توانید مقاله “چه هاردی بخریم، نکاتی در مورد خرید هارد اینترنال” را مطالعه کنید.
علت نمایش خطای smart hard disk error
بر اساس توضیحات بالا، مشخص است که اگر مقادیر تخصیص داده شده به فاکتورهایی که ابزار S.M.A.R.T بررسی می کند از حد آستانه بیشتر شود، پرچم این ابزار بالا میرود. پارامترهایی که ابزار اسمارت در هارد دیسک بررسی می کند بسیار متنوع و متعدد است و بر اساس شرکت سازنده آن می تواند شامل ده ها فاکتور برای بررسی و نظارت اسمارت باشد. اما فاکتورهایی که در همه برندها مشترک هستند قاعدتا باید مهمتر باشند.
مانیتور و نظارت دائمی بر سیستم شما با SMART
اگر بخواهیم تعریفی آکادمیک از SMART ارائه دهیم این طور بیان میکنیم که سیستم مانیتورینگی است که در هارد درایو (HDD)، درایوهای حالت جامد (SSD) و درایوهای eMMC وجود دارد و عملکرد اصلی آن کشف و گزارش شاخصها و فاکتورهای مختلف با هدف پیشبینی خرابیهای سخت افزاری است. وقتی S.M.A.R.T بر اساس نرم افزاری که بر روی سیستم اجرا شده خرابی احتمالی هارددیسک را در آیندهای نزدیک پیش بینی میکند، کاربر از وضعیت آگاه شده پس میتواند اقدامات لازم برای جلوگیری از Data Loss یا از بین رفتن اطلاعات را انجام و درایو خراب را جایگزین و یکپارچگی دادهها را حفظ کند.
SMART در هارددیسک چیست؟
به طور کلی تمام هارددیسکهای جدید از قابلیت S.M.A.R.T بهره میبرند. اما این سیستم، استاندارد کاملی نیست. بنابراین مشخص کردن فاکتورهای مختلف و تعیین مقدارهای کمینه و بیشینه برای آنها، از تولیدکنندهای به تولیدکنندهای دیگر متفاوت است. در این مقاله بیشتر بحث ما در زمینه هارد دیسکهای ATA و IDE و Serial ATA است چون طرز کار هارد دیسک های SCSI کمی متفاوت است. در حالی که این میزان تغییر دما می تواند طبیعی و روتین باشد.
مقادیر مورد استفاده در SMART هارد دیسک
وضعیت هارددیسک توسط بسیاری از سنسورها دائما مورد بررسی قرار می گیرد. مقدارهای اندازهگیری شده توسط الگوریتمهایی پردازش و به فاکتورهای مورد بررسی تخصیص داده می شوند.
فاکتورهایی که عموما در S.M.A.R.T مورد نظارت هستند شامل موارد زیر است:
(Identifier (byte
ID در حقیقت یک شماره و کد است که به هر کدام از فاکتورها تخصیص داده می شود، به عنوان مثال ID با عدد ۰۵ و کد ۰x05 با تعریف Reallocated Sectors Count دارای مقادیر کمینه و بیشینه ای است که به شما بروز بدسکتور در هارد را نمایش میدهد و شما باید به فکر رفع مشکل بدسکتور هارد دیسک باشید.
(Data (6 bytes
دیتا همان مقداریست که بیشینه و کمینه بودنش وضعیت هارد شما را مشخص می کند.
(Threshold (byte
محدودیت مقدار خرابی برای فاکتور تعیین شده است.
(Value (byte
مقدار عددی این فاکتور معیار “سلامت” هارددیسک است. در هارددیسک های جدید این عدد مقدار بالایی دارد. (بیشینه علمی برای مثال ۱۰۰، ۲۰۰ یا ۲۵۳ است) و این عدد در طول عمر دیسک کاهش پیدا میکند.
(Worst (byte
بدترین مقداری که فاکتورهای مختلف می توانند به خود تخصیص بدهند.
Status flags
نمایش دهنده وضعیت فاکتور است، مانند پرچم سبز در زمان سلامت و قرمز در زمان وجود مشکل.
مقدار یک فاکتور، وقتی به محدوده خطر وارد می شود، که بزرگتر یا مساوری با مقدار آستانه باشد. در صورتی که هر کدام از فاکتورها به این مرز رسیده باشند، ابزار SMART گزارش خرابی هارد دیسک را نمایش می دهد. اگر این مشکل قبل از بالا آمدن ویندوز اتفاق افتاده باشد، در بایوس مادربوردهای جدید قبل از بوت شدن سیستم قابلیت SMART به صورت اخطاری به کاربر نمایش داده میشود. اگر آستانه فعال سازی برای ویژگی با صفر برابر باشد بدین معناست هیچ فاکتوری در وضعیت اخطار قرار ندارد.
برخی از مطالب مرتبط:
تفاوت dimm و udimm ، همه چیز در مورد رم های سرور
تکنولوژی Intelligent System Tuning در سرورهای نسل ۱۰ اچ پی
Das storage چیست؛ بررسی انواع مزایا و معایب آن
مشکلاتی که در S.M.A.R.T وجود دارد
در تشخیص مقداری که هر یک از فاکتورها دارند، خطاها و اشتباهاتی هم وجود دارد، ابزار اسمارت همیشه هم ری اکشن درستی در مقابل مقادیری که از آستانه رد شده اند نشان نمی دهد. چند مورد از این خطاها را ببینیم:
۱. Incorrect Threshold
به دلیل تعریف نادرست آستانه خطا، مشکلات زیادی با S.M.A.R.T داریم: Attribute امکانی برای رسیدن به آستانه تعریف شده ندارد. در بیشتر موارد ویژگیها قبل از رسیدن به نقطه تعریف شده Failed میشوند. در چنین وضعیتی پیشبینی خطا توسط SMART با شکست مواجه میشود.
آستانه خطا که باعث فعال شدن اسمارت می شود در بسیاری از مواقع روی همه هارد دیسک ها به صورت یکسان تعریف نشده است، مثلا روی یک برند با عدد ۱۰۰ و روی یک برند با عدد ۱۲۰ تنظیم شده است، از طرفی روی اسمارت با حد آستانه ۱۵۰. حال فرض کنیم که روی هارد ما تعدادی بد سکتور وجود داشته باشد اما چون هنوز به آستانه مورد نظر اسمارت نرسیده است، خطایی دریافت نمیشود. تعداد بد سکتورها به حدی زیاد می شود که به هارد آسیب جدی میزند و دیگر راهی جز بکاپ گیری(در صورت امکان) و خرید یک هارد دیگر نخواهید داشت. در واقع زمانی اسمارت به شما خطای هارد دیسک را نمایش می دهد که علائم بد سکتور شدن هارد را می بینید و کار از کار گذشته است.
مثال
یک مثال دیگر برای این وضعیت عمر هارد دیسک هاست، بعضی از تولید کنندگان هارد دیسک ها عمر هارد دیسک تولید شده خود را بیش از ۶۰ یا ۷۰ سال اعلام و روی قطعه درج می کنند، فاکتوری هم که در خود هارد ثبت می شود با همین عدد ۶۰ یا ۷۰ مقدار داده می شود. در این حالت عملا هارد دیسک شما به اسمارت می گوید من عمری ۷۰ ساله دارم. در حالیکه عمر معمول هاردها در دفترچه های راهنما حرف دیگری می زند، در دفترچه راهنما می خوانیم که عمر مفید هارد ۵ سال است.
حال ابزار اسمارت بعد از قرارگیری هارد روی سیستم شما، فاکتور عمر هارد را بررسی کرده و حتی بعد از گذشت ۵ سال هم خطا یا هشداری را در مورد عمر مفید هارد دیسک بروز نمی دهد.
بعضی از مقادیر آستانه نیز برای بعضی فاکتورها صفر در نظر گرفته شده اند. مقادیر زیر صفر برای هیچ یک ازفاکتورها معنی ندارد، پس هرگز هم به مقدار آستانه نخواهند رسید و باز هم اسمارت دچار اختلال در بازخورد می شود.
۲. روش ارزیابی اشتباه سلامت هارددیسک
برای بررسی سلامت هارد دیسک قبل از آنکه اسمارت به آنها خطایی بدهد، از نرم افزارهای متنوعی می توان استفاده کرد. بسیاری از شرکت های تولید کننده هارد دیسک نرم افزارهای مخصوص به برند خودشان را برای چک سلامتی هارد دیسک ها به شما پیشنهاد میکنند. معمولا این نرم افزارها وضعیت هارد را بهتر از واقعیتشان نمایش میدهند و این باعث سردرگمی ابزارها و خود کاربر میشود. برای مشاهده اطلاعات و بازخوردی که اسمارت به شما می دهد باید نرم افزار مناسبی داشته باشید، نرم افزاری که بتواند به خوبی با اسمارت ارتباط برقرار کند و دیتا آن را به درستی برای شما ترجمه کند.
۳. اختلال در سنسورهای دما در هارد دیسک ها
بدون استفاده از نرم افزار، ممکن است کاربر متوجه دمای بالا در هارددیسک نشود. همان طور که میدانیم پردازندهها و کارتهای گرافیکی برای حفاظت از خود در برابر درجه حرارت بالا سیستم را خاموش میکنند اما هارددیسکها چنین قابلیتی ندارند. از این بدتر زمانی است که بدانیم هارددیسکها در برابر دمای بالا بسیار آسیبپذیر هستند. بیشتر تولیدکنندگان هارددیسک دمای مناسب کارکرد را بین ۵۰-۵۵ درجه سانتیگراد اعلام میکنند.
اغلب بایوسها بررسی ولتاژ، سرعت فن، دمای CPU و … را انجام میدهند اما نظارت بر دمای هارددیسک جزو امکانات بایوس نیست. در بایوس قسمتی تعریف نشده تا اگر دمای هارددیسک بالا رفت هشداری ارسال شود. بنابراین دیسکهای سخت میتوانند در یک محیط بسیار گرم کار کنند.
باید به این نکته توجه داشته باشید بسیاری از سنسورهای دمای هارددیسک دقیق نیستند. (گاهی اوقات تفاوت بین دمای شناسایی شده و دمای واقعی بین ۸ الی ۱۰ درجه سانتیگراد متفاوت است). برای اندازهگیری دمای هارددیسک پیشنهاد میشود از یک دستگاه خارجی مثل دماسنج مادون قرمز استفاده کنید.
توصیه میکنیم درجه حرارت هارددیسک را در زمانهای بیکاری و در شرایطی که به صورت طولانی در حال کار هستند مورد بررسی قرار دهید.
۴. غیر فعال شدن اسمارت با نصب اشتباه درایورها
درایورهای زیادی برای کنترلر هارددیسکها وجود دارد که ممکن است ما به اشتباه آنها را نصب کنیم. با انجام این کار و نصب درایور اشتباه قابلیت S.M.A.R.T را غیرفعال میکنیم. معمولا این درایورها به صورت کاملا مستقل از نرم افزار هارددیسک وجود دارند. اما برای دریافت اطلاعات مکانیزمی شبیه به یکدیگر دارند. توصیه میشود صحت و جزئیات اطلاعات مورد بررسی قرار گیرد.
معمولا درایور هارددیسکها تعداد محدودی از دستورات را پشتیبانی کرده و به همین دلیل بعضی از ویژگیها در تمام موارد کار نمیکند. توصیه میکنیم اگر تولید کننده هارددیسک برای محصول خود پچ یا فریمور ارائه کرده حتما بروزرسانی Firmware را انجام دهید. این موارد وضعیت هارددیسک شما را بهبود میبخشد. اگر درایور هارددیسکی به صورت RAID و یا غیر RAID باشد خیلی مهم است که از درایور درست استفاده کنید. استفاده از سایر موارد باعث محدود شدن قابلیتها شده و اغلب دما و وضعیت سلامت هارددیسک درست نمایش داده نخواهد شد.
تشخیص بدسکتور هارد
برای اغلب کاربران بد سکتور کلماتی ناشناخته است. بد سکتورها چطور ایجاد میشوند و چگونه میتوانیم آنها را از بین ببریم؟ وقتی از نرم افزارهایی مانند Scandisk Windows استفاده میکنید و هیچ بدسکتوری نمایش داده نمیشود دچار سردرگمی میشوید. SMART در حین انجام عملیات معمولی به صورت دائمی سطح دیسک را تحلیل میکند.
به همین دلیل است که فرمان فرمت DOS در اکثر هارددیسکها بد سکتورها را نشان نمیدهد. مگر در شرایطی که فضای اضافی پر باشد.
تخصیص مجدد سکتورها ممکن است بدون خطا یا با بعضی خطاها همراه باشد (هارددیسک های جدید نسبت به هارددیسک های قدیمی خیلی بهتر شدهاند) رویه تخصیص مجدد ممکن است باعث بیثباتی در سیستم شود.
چه پارامترهای جدی و مهمی در اسمارت وجود دارد؟
اطلاعاتی که اسمارت از هارد دیسک ها به دست می آورد در همه هاردها یکسان نیست، حتی تعداد و نام فاکتورها هم می تواند در برندهای مختلف متفاوت باشد. اما این پنج پارامتر، فاکتورهایی بسیار مهمی هستند که باید آنها را جدی بگیرید، تغییر مقدار در این پارامترها بسیار مهم است و ممکن است بروز خطری را به شما اعلام کند:
تشخیص بدسکتور هارد با ویژگی Reallocated_Sector_Count
این پارامتر بسیار مهم است، چرا که Reallocated_Sector_Count نمایش دهنده تعداد سکتورهای جابجا شده یا همان بد سکتورهاست، اگر مقدار آن از صفر جابجا شود، خطر خرابی هارد و از دست رفتن اطلاعات، شما را تهدید می کند. وجود تعدادی بد سکتور طبیعی است اما تعداد بالای آن نگران کننده است.
- مقدار عادی ویژگی Reallocated_Sector_Count: صفر
- اهمیت ویژگی Reallocated_Sector_Count: بسیار جدی
- مقدار هشدار دهنده ویژگی Reallocated_Sector_Count: مقدار غیر صفر
Reported_Uncorrectable_Errors
این فاکتور نشان دهنده خطاهای غیر قابل اصلاح و بازیابی هارد را به شما نمایش می دهد. با بروز چنین خطایی حتما هارد پشتیبان را وارد عمل کنید.
- مقدار عادی این فاکتور: صفر
- اهمیت این فاکتور: بسیار جدی
- مقدار هشدار دهنده برای این فاکتور: مقدار غیر صفر
این خطا هم اگر مثل خطاهای بدسکتور به تعداد بالایی برسد، خطر جدی هارد شما را تهدید میکند. برای رفع آن ابتدا کابل هارد دیسک خود را تست کنید اگر با تعویض آن به نتیجه نرسیدید تعویض فوری هارد دیسک را در نظر بگیرید.
- مقدار عادی این فاکتور: صفر
- اهمیت این فاکتور: بسیار جدی
- مقدار هشدار دهنده برای این فاکتور: مقدار غیر صفر
Current_Pending_Sector_Count
این فاکتور نمایش دهنده سکتورهای ضعیف است، که در حال تبدیل به سکتورهای سالم هستند، این مقدار باید به صفر میل کند. اگر مقدار این فاکتور از صفر عبور کرد و زیاد شد یعنی بد سکتورها در حال افزایش هستند. این هشدار، هشدار مهمی است.
- مقدار عادی این فاکتور: صفر
- اهمیت این فاکتور: بسیار جدی
- مقدار هشدار دهنده برای این فاکتور: مقدار غیر صفر
در سرورهای hp علاوه بر امکانات نرم افزاری شما می توانید به چراغ های LED موجود روی سرور هم توجه کنید، این چراغ ها به شما اطلاعات خوبی در زمینه مشکلات هارد دیسک ها می دهند، برای مطالعه بیشتر این مقاله را مطالعه کنید؛ بررسی وضعیت چراغ LEDهای هارد در سرور اچ پی
برای رفع مشکل هارد دیسک کدام برنامه مناسب است ؟
خرابی هارددیسکها بدون هیچ نشانه قبلی معمولا غیرممکن است مگر اینکه هارد ضربه فیزیکی ببیند. در نظر داشته باشید سقوط هارددیسک از دستان شما و ضربه فیزیکی توسط قابلیت S.M.A.R.T قابل پیشبینی نیست! البته در این شرایط میتوانیم بعضی از قسمتهایی را که دچار بدسکتور شدهاند را بازیابی کنیم اما ممکن است تعداد این بدسکتورها به آرامی گسترش پیدا کرده و یا درجه حرارت هارددیسک بالا برود که تمام این موارد سبب میشود که دیگر به آن هارد اعتماد نکنیم.
با همه این توضیحات بهتر هست هر چند ماه یکبار سیستم خود را با نرم افزارهای موجود که شما را در پیدا کردن مشکلات هارد دیسک قبل از نمایش ارور ۳۰۱ هارد دیسک کمک می کنند، اسکن و بررسی کنید.
انتخاب برنامه رفع مشکل هارد دیسک
نرم افزار رفع ایراد هارد دیسک Hard Disk Sentinel نرم افزار مفیدی برای بررسی و شناسایی مشکلات هارد دیسک شماست. این نرم افزار تقریبا بهترین نرم افزار تست هارد دیسک در حال حاضر است.
بهترین نوع تشخیص، سال تولید و زمان دسترسی سکتور است. با برنامه Sentinel قسمتی وجود دارد که میتوان Allocation Time سکتور را چک کنید. اگر این زمان بالای ۱۰۰ یا ۱۵۰ میلی ثانیه باشد، هارد مورد نظر قطعا مورد اطمینان نیست. یعنی این هارد دیسک دست دوم است.
اگر فروشنده ابزار SMART را Clear نکرده باشد، میتوان به وسیله گزارشی که ارایه میدهد، تعداد دفعات روشن و خاموش شدن هارد، تعداد ساعات کارکرد هارد، و در صورت وجود آسیب، تخمین اینکه این هارد چه مدت زمان دیگری کار میکند را مشاهده کرد. علاوه بر این گزارش ماژولهای مختلف هارد دیسک و وضعیت Allocation در سکتورهای هارد را هم برای شما فراهم میکند.
نرم افزار دیگری که در زمینه رفع ایراد هارد دیسک وجود دارد CrystalDiskInfo است که امکانات خوبی برای بررسی هارد دیسک های شما دارد.
رفع مشکل smart status bad
با همه صحبت های انجام شده بعد از دیدن خطای S.M.A.R.T چه کاری برای تعمیر و رفع آن می توان کرد؟ اولین چیزی که در این موقعیت به ذهن می رسد، تعویض سریع هارد و بکاپ گیری از هارد قبلی است. سه راه برای این کار وجود دارد که در ادامه توضیح میدهیم.
غیر فعال کردن S.M.A.R.T از طریق بایوس
اگر می خواهید علاوه بر اینکه خطای اسمارت را مشاهده کرده اید، همچنان به استفاده از هارد دیسک خود ادامه بدهید، کافیست وارد بایوس مادر بورد خود شوید و اسمارت را disable کنید. برای این کار سیستم را ریست کنید و دکمه F2 را بفشارید. بعد از ورود به محیط ستاپ بایوس وارد بخش advanced شوید، SMART setting را انتخاب کنید، SMART selt test را انتخاب کنید و آن را disable کنید.
این کار اصلا توصیه نمی شود. بهتر است مشکل را ریشه ای حل کنید و صورت مسئله را پاک نکنید.
بکاپ گیری از اطلاعات و جایگزینی هارد جدید
برای این کار پس از مشاهده خطای ارور هارد ۳۰۱، یا ارور smart failure predicted on hard disk دکمه F1 را روی کیبورد خودتان فشار دهید.
ریکاوری اطلاعات هارد آسیب دیده
دقت کنید بکاپ گیری از اطلاعات و ریکاوری آن نیاز به داشتن اطلاعات کافی در این زمینه دارد، در غیر این صورت ممکن است باعث بروز خطاهای جبران ناپذیر در این زمینه شوید. در صورت نیاز به بررسی دقیق و تخصصی هارد دیسک با کلیک روی لینک سرویس خدمات ریکاوری اطلاعات از متخصصین توسعه شبکه آداک کمک بگیرید.