تحقیق جامع و پروژه مطالعاتی درس یادگیری ماشین در هوش مصنوعی

تحقیق جامع و پروژه مطالعاتی درس یادگیری ماشین در هوش مصنوعی

فرمت فایل : word (قابل ویرایش) تعداد صفحات : 74 صفحه

 

 

 

 

 

 

 

 

 

فهرست مطالب

 

1-     مقدمه. 3

2-    روشهای مبتنی بر استخراج ویژگی.. 5

2-1-  Discrete Fourier Transform (DFT) 6

2-2-  Discrete Wavelet Transform (DWT) 9

2-3-  Principal Component Analysis (PCA) 12

2-3-1-    مفاهیم مقدماتی مورد نیاز در PCA.. 13

2-3-2-    الگوریتم PCA.. 15

2-4-  Factor Analysis (FA) 20

3-    روشهای مبتنی بر انتخاب ویژگی.. 23

3-1-    تعاریف.. 23

3-2-    روشهای مختلف انتخاب ویژگی.. 26

3-2-1-    توابع تولید کننده 26

3-2-2-   تابع ارزیابی.. 27

3-2-3-    دسته بندی و تشریح الگوریتم های مختلف انتخاب ویژگی.. 30

3-2-4-   جمع بندی روشهای انتخاب ویژگی.. 43

4-   فهرست منابع و مراجع. 45


1-    مقدمه

پیشرفتهای بوجود آمده در جمع آوری داده و قابلیتهای ذخیره سازی در طی دهه­های اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم. محققان در زمینه­های مختلف مانند مهندسی، ستاره شناسی، زیست شناسی و اقتصاد هر روز با مشاهدات بیشتر و بیشتری روبرو می­شوند. در مقایسه با بسترهای داده­ای قدیمی و کوچکتر، بسترهای داده­ای امروزی چالشهای جدیدی در تحلیل داده­ها بوجود آورده­اند. روشهای آماری سنتی به دو دلیل امروزه کارائی خود را از دست داده­اند. علت اول افزایش تعداد مشاهدات (observations) است، و علت دوم که از اهمیت بالاتری برخوردار است افزایش تعداد متغیرهای مربوط به یک مشاهده می­باشد.

تعداد متغیرهایی که برای هر مشاهده باید اندازه گیری شود ابعاد داده نامیده می­شود. عبارت "متغیر" (variable) بیشتر در آمار استفاده می­شود در حالی که در علوم کامپیوتر و یادگیری ماشین بیشتر از عبارات "ویژگی" (feature) و یا "صفت" (attribute) استفاده می­گردد.

بسترهای داده­ای که دارای ابعاد زیادی هستند علیرغم فرصتهایی که به وجود می­آورند، چالشهای محاسباتی زیادی را ایجاد می­کنند. یکی از مشکلات داده­های با ابعاد زیاد اینست که در بیشتر مواقع تمام ویژگیهای داده­ها برای یافتن دانشی که در داده­ها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینه­ها کاهش ابعاد داده یکی از مباحث قابل توجه باقی مانده است.

روشهای کاهش ابعاد داده به دو دسته تقسیم می­شوند:

روشهای مبتنی بر استخراج ویژگی: این روشها یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت می­کنند. در واقع با ترکیب مقادیر ویژگیهای موجود، تعداد کمتری ویژگی بوجود می­آورند بطوریکه این ویژگیها دارای تمام (یا بخش اعظمی از) اطلاعات موجود در ویژگیهای اولیه باشند. این روشها به دو دسته­ی خطی و غیر خطی تقسیم می­شوند.روشهای مبتنی بر انتخاب ویژگی: این روشها سعی می­کنند با انتخاب زیرمجموعه­ای از ویژگیهای اولیه، ابعاد داده­ها را کاهش دهند. در پاره­ای از اوقات تحلیلهای داده­ای نظیر طبقه­بندی برروی فضای کاسته شده نسبت به فضای اصلی بهتر عمل می­کند.

در تهیه این گزارش کمتر به اثباتهای ریاضی پرداخته شده و بیشتر به مفاهیم و کاربرد روشها توجه شده است. در فصل دوم از این گزارش، به مطالعه­ی روشهای مبتنی بر استخراج ویژگی پرداخته­ایم. در تهیه­ی مطالب این فصل سعی کرده­ایم با ارائه­ی مثالهای مناسب، خواننده را در درک بهتر مفاهیم مربوطه یاری رسانیم. در این فصل، چهار روش ارائه شده است که همگی از نوع خطی هستند. بدلیل حجم زیاد مطالب، مجالی برای پرداختن به روشهای دیگر خطی و روشهای غیر خطی باقی نماند. امید است در آینده مطالب این فصل توسط اینجانب یا دانشجویان دیگر کاملتر شود.

در فصل سوم روشهای مبتنی بر انتخاب ویژگی ارائه شده است. می­توان گفت در این فصل یک مطالعه­ اجمالی برروی تمامی روشهای انتخاب ویژگی انجام شده است. در تهیه­ی مطالب این فصل، از گزارش "معرفی روشهای مختلف انتخاب ویژگی" توسط صادق سلیمان­پور استفاده شده است که جا دارد در همین­جا از ایشان تشکر نمایم.

 


2-  روشهای مبتنی بر استخراج ویژگی

همانطور که در فصل اول اشاره شد روشهای مبتنی بر استخراج ویژگی، یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت می­دهند. این روشها به دو دسته­ی خطی و غیرخطی تقسیم می­شوند. روشهای خطی که ساده­ترند و فهم آنها راحت­تر است بدنبال یافتن یک زیرفضای تخت عمومی[1] هستند. اما روشهای غیرخطی که مشکلترند و تحلیل آنها سخت­تر است بدنبال یافتن یک زیرفضای تخت محلی[2] می­باشند.

از روشهای خطی می­توان به DFT، DWT، PCA و FA اشاره کرد که آنها را به ترتیب در ادامه­ی همین فصل توضیح خواهیم داد. روشهای دیگر غیرخطی عبارتند از:

Projection Pursuit (PP) : برخلاف روشهای PCA و FA می­تواند اطلاعات بالاتر از مرتبه­ی دوم را ترکیب نماید. بنابراین روش مناسبی است برای بسترهای داده­ای غیر گاوسی.Independent Component Analysis (ICA) : این روش نیز یک نگاشت خطی انجام می­دهد اما بردارهای این نگاشت لزوماً بر یکدیگر عمود نیستند، در حالی که در روشهای دیگر مانند PCA این بردارها بر هم عمودند.Random Projection (PP) : یک روش ساده و در عین حال قدرتمند برای کاهش ابعاد داده است که از ماتریسهای نگاشت تصادفی برای نگاشت داده­ها به یک فضای با ابعاد کمتر استفاده می­کند.

از روشهای غیرخطی نیز می­توان به موارد زیر اشاره کرد:

Principal CurvesSelf Organizing MapsVector QuantizationGenetic and Evolutionary AlgorithmsRegression

مسئله­ی کاهش ابعاد داده را بطور ریاضی می­توان به اینصورت بیان کرد: یک متغیر تصادفی p-بعدی  داریم. می­خواهیم متغیر k-بعدی را به گونه­ای پیدا کنیم که اولاً k ≤ p باشد و ثانیاً s محتویاتی که در x وجود دارد را بر اساس معیاری خاص دارا باشد. روشهای خطی سعی می­کنند هر یک از این k مؤلفه را از ترکیب خطی p مؤلفه­ی اولیه بدست آورند.

 

که Wk×p ماتریس وزنهای نگاشت خطی می­باشد.

در مقاله [3] نگاهی اجمالی به کلیه­ی روشهای کاهش ابعاد داده­ی مبتنی بر استخراج ویژگی شده است. در بخش 2-1 تبدیل فوریه گسسته و در بخش 2-2 تبدیل wavelet گسسته را شرح خواهیم داد. برای تهیه­ی بیشتر مطالبی که در این دو بخش ارائه شده از منبع [4] که یک پایان نامه دکتری در زمینه­ی داده­کاوی برروی سریهای زمانی می­باشد استفاده شده است. در بخش 2-3 روش PCA که بهترین تبدیل خطی به حساب می­آید را بیان خواهیم کرد. برای تهیه­ی این بخش نیز از منبع [5] استفاده کرده­ایم که یک tutorial بسیار عالی می­باشد. در بخش 2-4 روش Factor Analysis را بیان کرده­ایم. مطالب این بخش نیز از سایت اینترنت زیر تهیه شده است.

 

خرید و دانلود تحقیق جامع و پروژه مطالعاتی درس یادگیری ماشین در هوش مصنوعی


نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.