خوشه بندی (Clustering)

Clustering یا خوشه بندی چیست؟

خوشــه بندی بــه دلیل توانــایی و قابلیتهــای بــالایی کــه در تلخیص اطلاعات و دسته بندی آنها دارد مورد توجه محققان و پژوهشگران علوم مختلـف قرار گرفته است. در مهندسی از خوشـه بندی بـرای فشرده سـازی تصـویر، فشرده سـازی صـوت، تشـخیص گوینده ی گفتار، تشخیص چهره ی افراد، بازیـابی عکـس، تحلیـل سـیگنال رادار، شناسـایی پارازیت، تقسیم بندی و تحلیل تصاویر مـاهواره ای و تصـاویر پزشـکی اسـتفاده می کننـد.در پزشکی از خوشه بندی برای شناسایی پروتئین هـا، ژن هـا، عوامـل بیمـاری زا، میکروب هـا و بــرای شناســایی راههــای درمــان بیماریهــا و تهیــه ی دارو اســتفاده می کننــد.

زمانیکه با طیف وسیعی ازداده ها مواجه هستیم و این داده ها دارای الگو و ساختار مشخصی نیستند ،برای تحلیل و آنالیز ،میتوان آنها را با درنظر گرفتن معیارهایی ،دسته بندی نمود. در نهایت ،داده های موجود در یک خوشه یا گروه بیشترین میزان شباهت را باهم دارند و بیشترین تفاوت را با دیگر گروهها. به عنوان مثال می توان داده ها را برحسب میزان فاصله آنها از یکدیگر دسته بندی کرد.

شکل فوق بیانگر این موضوع است که NEO-K-Means می تواند به درستی به شناسایی نقاط دورافتاده بپردازد همچنین ساختار خوشه ای مشابه را نیز در خوشه بندی داده ها بیابد. نقاط سبز همپوشانی بین خوشه ها را نشان می دهدو نقاط سیاه نشانه نقاط دورافتاده (پرت).

گاهی مواقع دو اصطلاح طبقه بندی و خوشه بندی بجای یکدیگر به کار برده می شود، در صورتیکه دومفهوم جداگانه هستند. در خوشه بندی هیچ الگو و ساختار مشخصی وجود ندارد و بر اساس معیار تعیین شده داده ها از هم تفکیک می شوند، اما در طبقه بندی ،هر داده به یک طبقه یا کلاس از پیش تعریف شده تخصیص مییابد.

طبقه بندی (Classification) یکی از روش‌های یادگیری با نظارت است. در این روش داده‌ها کلاس بندی شده هستند و معیار روشنی برای دسته بندی وجود دارد.

خوشه بندی یا clustring یک روش یادگیری بدون نظارت است. در این روش طبقه بندی به صورت خودکار انجام می‌شود.

یادگیری بانظارت و بدون نظارت ،از زیر مجموعه های یادگیری ماشینی محسوب می شوند.

در یادگیری با نظارت از ابتدا دسته‌ها مشخص هستند و هر یک از داده های موجود با توجه به مشخصه ای که دارند به دسته‌ای خاص نسبت داده می شوند، اما در یادگیری بدون نظارت هیچ اطلاعاتی بجز داده‌های آموزشی در اختیار یاد گیرنده قرار داده نمیشود و این یادگیرنده است که بایستی در داده‌ها به دنبال ساختاری خاص بگردد و بدین صورت داده ها از هم تفکیک میشوند.

برای درک بهتر مطالب فوق میتوانید به این لینک رجوع کنید

در واقع خوشه بندی داده‌های فاقد کلاس، به کلاس‌های مشخصی تقسیم می‌شوند. در این روش می‌توان داده‌هایی را که به سایر داده‌ها شباهت ندارند را به عنوان نویز حذف نمود.

در طبقه‌بندی با استفاده یک سری اطلاعات اولیه داده‌ها به دسته‌های معلومی نسبت داده‌ می‌شوند.

در طبقه‌بندی با استفاده یک سری اطلاعات اولیه، داده‌ها به دسته‌های معلومی نسبت داده‌ می‌شوند.

در خوشه‌بندی داده‌ها با توجه به الگوریتم انتخاب شده به خوشه‌هایی نسبت داده‌ می‌شوند.

در خوشه‌بندی، داده‌ها با توجه به الگوریتم انتخاب شده به خوشه‌هایی نسبت داده‌ می‌شوند.

منابع :

درس یادگیری ماشین،استاد مربوطه: دکتر شیری، گرد آوری شده توسط: امیرحسین حاج احمدی، دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، تاریخ تدوین1385/02/30

http://ceit.aut.ac.ir/%7Eshiry/lecture/machine-learning/tutorial/clustering/Introduction.htm

2. تعریف خوشه بندی با مثالی ساده

http://hidatamining.mihanblog.com/post/85

3. تحلیل خوشه ای سلسله مراتبی ،استاد راهنما : دکتر منصور رضایی،ارائه دهنده : شرمین رحمانی، ٢١اردیبهشت 94 (فایل powerpoint)

http://www.kums.ac.ir/kums_content/media/image/2015/05/56825_orig.pptx

***ارتباط خوشه بندی با "داده کاوی و کشف دانش" :Data Mining and Knowledge Discovery

http://ceit.aut.ac.ir/~shiry/lecture/machine-learning/tutorial/Data%20mining/Data%20Mining%20and%20Knowledge%20Discovery.htm

فاطمه حق جو سه‌شنبه 17 بهمن 1396 ساعت 19:46

VQ: Vector Quantization

VQ: Vector Quantization

درباره من