فرمت فایل : word (قابل ویرایش) تعداد صفحات : 74 صفحه
فهرست مطالب
1- مقدمه. 3
2- روشهای مبتنی بر استخراج ویژگی.. 5
2-1- Discrete Fourier Transform (DFT) 6
2-2- Discrete Wavelet Transform (DWT) 9
2-3- Principal Component Analysis (PCA) 12
2-3-1- مفاهیم مقدماتی مورد نیاز در PCA.. 13
2-3-2- الگوریتم PCA.. 15
2-4- Factor Analysis (FA) 20
3- روشهای مبتنی بر انتخاب ویژگی.. 23
3-1- تعاریف.. 23
3-2- روشهای مختلف انتخاب ویژگی.. 26
3-2-1- توابع تولید کننده 26
3-2-2- تابع ارزیابی.. 27
3-2-3- دسته بندی و تشریح الگوریتم های مختلف انتخاب ویژگی.. 30
3-2-4- جمع بندی روشهای انتخاب ویژگی.. 43
4- فهرست منابع و مراجع. 45
1- مقدمه
پیشرفتهای بوجود آمده در جمع آوری داده و قابلیتهای ذخیره سازی در طی دهههای اخیر باعث شده در بسیاری از علوم با حجم بزرگی از اطلاعات روبرو شویم. محققان در زمینههای مختلف مانند مهندسی، ستاره شناسی، زیست شناسی و اقتصاد هر روز با مشاهدات بیشتر و بیشتری روبرو میشوند. در مقایسه با بسترهای دادهای قدیمی و کوچکتر، بسترهای دادهای امروزی چالشهای جدیدی در تحلیل دادهها بوجود آوردهاند. روشهای آماری سنتی به دو دلیل امروزه کارائی خود را از دست دادهاند. علت اول افزایش تعداد مشاهدات (observations) است، و علت دوم که از اهمیت بالاتری برخوردار است افزایش تعداد متغیرهای مربوط به یک مشاهده میباشد.
تعداد متغیرهایی که برای هر مشاهده باید اندازه گیری شود ابعاد داده نامیده میشود. عبارت "متغیر" (variable) بیشتر در آمار استفاده میشود در حالی که در علوم کامپیوتر و یادگیری ماشین بیشتر از عبارات "ویژگی" (feature) و یا "صفت" (attribute) استفاده میگردد.
بسترهای دادهای که دارای ابعاد زیادی هستند علیرغم فرصتهایی که به وجود میآورند، چالشهای محاسباتی زیادی را ایجاد میکنند. یکی از مشکلات دادههای با ابعاد زیاد اینست که در بیشتر مواقع تمام ویژگیهای دادهها برای یافتن دانشی که در دادهها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینهها کاهش ابعاد داده یکی از مباحث قابل توجه باقی مانده است.
روشهای کاهش ابعاد داده به دو دسته تقسیم میشوند:
روشهای مبتنی بر استخراج ویژگی: این روشها یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت میکنند. در واقع با ترکیب مقادیر ویژگیهای موجود، تعداد کمتری ویژگی بوجود میآورند بطوریکه این ویژگیها دارای تمام (یا بخش اعظمی از) اطلاعات موجود در ویژگیهای اولیه باشند. این روشها به دو دستهی خطی و غیر خطی تقسیم میشوند.روشهای مبتنی بر انتخاب ویژگی: این روشها سعی میکنند با انتخاب زیرمجموعهای از ویژگیهای اولیه، ابعاد دادهها را کاهش دهند. در پارهای از اوقات تحلیلهای دادهای نظیر طبقهبندی برروی فضای کاسته شده نسبت به فضای اصلی بهتر عمل میکند.در تهیه این گزارش کمتر به اثباتهای ریاضی پرداخته شده و بیشتر به مفاهیم و کاربرد روشها توجه شده است. در فصل دوم از این گزارش، به مطالعهی روشهای مبتنی بر استخراج ویژگی پرداختهایم. در تهیهی مطالب این فصل سعی کردهایم با ارائهی مثالهای مناسب، خواننده را در درک بهتر مفاهیم مربوطه یاری رسانیم. در این فصل، چهار روش ارائه شده است که همگی از نوع خطی هستند. بدلیل حجم زیاد مطالب، مجالی برای پرداختن به روشهای دیگر خطی و روشهای غیر خطی باقی نماند. امید است در آینده مطالب این فصل توسط اینجانب یا دانشجویان دیگر کاملتر شود.
در فصل سوم روشهای مبتنی بر انتخاب ویژگی ارائه شده است. میتوان گفت در این فصل یک مطالعه اجمالی برروی تمامی روشهای انتخاب ویژگی انجام شده است. در تهیهی مطالب این فصل، از گزارش "معرفی روشهای مختلف انتخاب ویژگی" توسط صادق سلیمانپور استفاده شده است که جا دارد در همینجا از ایشان تشکر نمایم.
2- روشهای مبتنی بر استخراج ویژگی
همانطور که در فصل اول اشاره شد روشهای مبتنی بر استخراج ویژگی، یک فضای چند بعدی را به یک فضای با ابعاد کمتر نگاشت میدهند. این روشها به دو دستهی خطی و غیرخطی تقسیم میشوند. روشهای خطی که سادهترند و فهم آنها راحتتر است بدنبال یافتن یک زیرفضای تخت عمومی[1] هستند. اما روشهای غیرخطی که مشکلترند و تحلیل آنها سختتر است بدنبال یافتن یک زیرفضای تخت محلی[2] میباشند.
از روشهای خطی میتوان به DFT، DWT، PCA و FA اشاره کرد که آنها را به ترتیب در ادامهی همین فصل توضیح خواهیم داد. روشهای دیگر غیرخطی عبارتند از:
Projection Pursuit (PP) : برخلاف روشهای PCA و FA میتواند اطلاعات بالاتر از مرتبهی دوم را ترکیب نماید. بنابراین روش مناسبی است برای بسترهای دادهای غیر گاوسی.Independent Component Analysis (ICA) : این روش نیز یک نگاشت خطی انجام میدهد اما بردارهای این نگاشت لزوماً بر یکدیگر عمود نیستند، در حالی که در روشهای دیگر مانند PCA این بردارها بر هم عمودند.Random Projection (PP) : یک روش ساده و در عین حال قدرتمند برای کاهش ابعاد داده است که از ماتریسهای نگاشت تصادفی برای نگاشت دادهها به یک فضای با ابعاد کمتر استفاده میکند.از روشهای غیرخطی نیز میتوان به موارد زیر اشاره کرد:
Principal CurvesSelf Organizing MapsVector QuantizationGenetic and Evolutionary AlgorithmsRegressionمسئلهی کاهش ابعاد داده را بطور ریاضی میتوان به اینصورت بیان کرد: یک متغیر تصادفی p-بعدی داریم. میخواهیم متغیر k-بعدی را به گونهای پیدا کنیم که اولاً k ≤ p باشد و ثانیاً s محتویاتی که در x وجود دارد را بر اساس معیاری خاص دارا باشد. روشهای خطی سعی میکنند هر یک از این k مؤلفه را از ترکیب خطی p مؤلفهی اولیه بدست آورند.
که Wk×p ماتریس وزنهای نگاشت خطی میباشد.
در مقاله [3] نگاهی اجمالی به کلیهی روشهای کاهش ابعاد دادهی مبتنی بر استخراج ویژگی شده است. در بخش 2-1 تبدیل فوریه گسسته و در بخش 2-2 تبدیل wavelet گسسته را شرح خواهیم داد. برای تهیهی بیشتر مطالبی که در این دو بخش ارائه شده از منبع [4] که یک پایان نامه دکتری در زمینهی دادهکاوی برروی سریهای زمانی میباشد استفاده شده است. در بخش 2-3 روش PCA که بهترین تبدیل خطی به حساب میآید را بیان خواهیم کرد. برای تهیهی این بخش نیز از منبع [5] استفاده کردهایم که یک tutorial بسیار عالی میباشد. در بخش 2-4 روش Factor Analysis را بیان کردهایم. مطالب این بخش نیز از سایت اینترنت زیر تهیه شده است.