Clustering یا خوشه بندی چیست؟
خوشــه بندی بــه دلیل توانــایی و قابلیتهــای بــالایی کــه در تلخیص اطلاعات و دسته بندی آنها دارد مورد توجه محققان و پژوهشگران علوم مختلـف قرار گرفته است. در مهندسی از خوشـه بندی بـرای فشرده سـازی تصـویر، فشرده سـازی صـوت، تشـخیص گوینده ی گفتار، تشخیص چهره ی افراد، بازیـابی عکـس، تحلیـل سـیگنال رادار، شناسـایی پارازیت، تقسیم بندی و تحلیل تصاویر مـاهواره ای و تصـاویر پزشـکی اسـتفاده می کننـد.در پزشکی از خوشه بندی برای شناسایی پروتئین هـا، ژن هـا، عوامـل بیمـاری زا، میکروب هـا و بــرای شناســایی راههــای درمــان بیماریهــا و تهیــه ی دارو اســتفاده می کننــد.
زمانیکه با طیف وسیعی ازداده ها مواجه هستیم و این داده ها دارای الگو و ساختار مشخصی نیستند ،برای تحلیل و آنالیز ،میتوان آنها را با درنظر گرفتن معیارهایی ،دسته بندی نمود. در نهایت ،داده های موجود در یک خوشه یا گروه بیشترین میزان شباهت را باهم دارند و بیشترین تفاوت را با دیگر گروهها. به عنوان مثال می توان داده ها را برحسب میزان فاصله آنها از یکدیگر دسته بندی کرد.
شکل فوق بیانگر این موضوع است که NEO-K-Means می تواند به درستی به شناسایی نقاط دورافتاده بپردازد همچنین ساختار خوشه ای مشابه را نیز در خوشه بندی داده ها بیابد. نقاط سبز همپوشانی بین خوشه ها را نشان می دهدو نقاط سیاه نشانه نقاط دورافتاده (پرت).
گاهی مواقع دو اصطلاح طبقه بندی و خوشه بندی بجای یکدیگر به کار برده می شود، در صورتیکه دومفهوم جداگانه هستند. در خوشه بندی هیچ الگو و ساختار مشخصی وجود ندارد و بر اساس معیار تعیین شده داده ها از هم تفکیک می شوند، اما در طبقه بندی ،هر داده به یک طبقه یا کلاس از پیش تعریف شده تخصیص مییابد.
طبقه بندی (Classification) یکی از روشهای یادگیری با نظارت است. در این روش دادهها کلاس بندی شده هستند و معیار روشنی برای دسته بندی وجود دارد.
خوشه بندی یا clustring یک روش یادگیری بدون نظارت است. در این روش طبقه بندی به صورت خودکار انجام میشود.
یادگیری بانظارت و بدون نظارت ،از زیر مجموعه های یادگیری ماشینی محسوب می شوند.
در یادگیری با نظارت از ابتدا دستهها مشخص هستند و هر یک از داده های موجود با توجه به مشخصه ای که دارند به دستهای خاص نسبت داده می شوند، اما در یادگیری بدون نظارت هیچ اطلاعاتی بجز دادههای آموزشی در اختیار یاد گیرنده قرار داده نمیشود و این یادگیرنده است که بایستی در دادهها به دنبال ساختاری خاص بگردد و بدین صورت داده ها از هم تفکیک میشوند.
برای درک بهتر مطالب فوق میتوانید به این لینک رجوع کنید
در واقع خوشه بندی دادههای فاقد کلاس، به کلاسهای مشخصی تقسیم میشوند. در این روش میتوان دادههایی را که به سایر دادهها شباهت ندارند را به عنوان نویز حذف نمود.
در طبقهبندی با استفاده یک سری اطلاعات اولیه، دادهها به دستههای معلومی نسبت داده میشوند.
در خوشهبندی، دادهها با توجه به الگوریتم انتخاب شده به خوشههایی نسبت داده میشوند.
منابع :
http://ceit.aut.ac.ir/%7Eshiry/lecture/machine-learning/tutorial/clustering/Introduction.htm
2. تعریف خوشه بندی با مثالی ساده
http://hidatamining.mihanblog.com/post/85
3. تحلیل خوشه ای سلسله مراتبی ،استاد راهنما : دکتر منصور رضایی،ارائه دهنده : شرمین رحمانی، ٢١اردیبهشت 94 (فایل powerpoint)
http://www.kums.ac.ir/kums_content/media/image/2015/05/56825_orig.pptx
***ارتباط خوشه بندی با "داده کاوی و کشف دانش" :Data Mining and Knowledge Discovery