14

2-2-6. کاربردهای داده­ کاوی………………………………………………………………………14

2-3. داده­ کاوی در پزشکی……………………………………………………………………………….14

2-4. بیماری تنفسی………………………………………………………………………………………….16

2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17

2-4-2. پنومونی…………………………………………………………………………………………17

2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18

2-5. الگوریتم­های رده­بندی………………………………………………………………………………18

2-5-1. درخت تصمیم………………………………………………………………………………..19

2-5-1-1. CHAID…………………………………………………………………………….

2-5-1-2. ID3……………………………………………………………………………………

2-5-1-3. C5.0…………………………………………………………………………………..

2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21

2-5-3. شبکه­ عصبی………………………………………………………………………………..24

2-5-4. Bagging…………………………………………………………………………………….

2-5-5. AdaBoost…………………………………………………………………………………

2-6. پیشینه تحقیقات در بیماری­های تنفسی……………………………………………………….30

فصل3: داده ­های نامتوازن…………………………………………………………………………………..32

3-1. مقدمه…………………………………………………………………………………………………….33

3-2. روش­های یادگیری در داده­های نامتوازن………………………………………………………33

3-2-1. نمونه­برداری……………………………………………………………………………………33

3-2-1-1. بیش­نمونه­برداری تصادفی…………………………………………………………34

3-2-1-2. زیرنمونه­برداری تصادفی…………………………………………………………..34

3-2-1-3. نمونه­برداری آگاهانه……………………………………………………………….34

3-2-1-3-1. EasyEnsemble…………………………………………………………………..

3-2-1-3-2. ModifiedBagging…………………………………………………………….

3-2-1-4. ترکیب نمونه ­برداری و تولید داده……………………………………………….37

3-2-2. روش­های حساس به هزینه…………………………………………………………………39

3-3. معیارهای ارزیابی رده­بند در داده­ های نامتوازن………………………………………..41

3-4. معیارهای ارزیابی رده­بند در داده­ های نامتوازن و چند رده­ای……………………..44

3-4-1. میانگین­ گیری میکرو………………………………………………………………………..46

3-4-2. میانگین­ گیری ماکرو…………………………………………………………………………46

فصل4: پیش­ پردازش داده ­ها……………………………………………………………………………47

4-1. مقدمه…………………………………………………………………………………………………….48

4-2. جمع­آوری داده­ها…………………………………………………………………………………….48

4-3. ویژگی­های داده­ها……………………………………………………………………………………48

4-4. نحوه توزیع داده­ها براساس ویژگی­ها…………………………………………………………..51

4-4-1. نوع بیماری تنفسی……………………………………………………………………………51

4-4-2. سن……………………………………………………………………………………………….52

4-5. پیش­پردازش­های انجام شده……………………………………………………………………….53

4-5-1. حذف ویژگی­های اضافی………………………………………………………………….53

4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53

4-5-3. یکپارچه­سازی داده………………………………………………………………………….54

4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55

4-5-4-1. تفسیر آزمایش­های انجام شده روی بیماران………………………………….55

4-5-4-2. WBC (White Blood Cell)……………………………………………………………

4-5-4-3. چه چیزهایی باعث کاهش WBC می­شود؟………………………………..56

4-5-4-4. چه چیزهایی باعث افزایش WBC می­شود؟………………………………..56

پایان نامه

4-5-4-5. جدول گسسته ­سازی WBC……………………………………………………..

4-5-4-6. RBC(Red Blood Cell)………………………………………………………..

4-5-4-7. چه چیزهایی باعث کاهش RBC می­شود؟…………………………………57

4-5-4-8. چه چیزهایی باعث افزایش RBC می­شود؟…………………………………58

4-5-4-9. جدول گسسته­ سازی RBC………………………………………………………58

4-5-4-10. Hb (Hemoglobin)………………………………………………………………..

4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین می­شود؟………………………….59

4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین می­شود؟…………………………59

4-5-4-13. جدول گسسته­ سازی هموگلوبین………………………………………………59

4-5-4-14. HCT (Hematocrit)……………………………………………………………..

4-5-4-15. چه چیزهایی باعث کاهش HCT می­شود؟……………………………….60

4-5-4-16. چه چیزهایی باعث افزایش HCT می­شود؟……………………………….60

4-5-4-17. جدول گسسته­ سازی HCT……………………………………………………

4-5-4-18. Plt یا پلاکت­ها……………………………………………………………………60

4-5-4-19. چه چیزهایی پلاکت را کاهش می­دهد؟……………………………………61

4-5-4-20. چه چیزهایی پلاکت را افزایش می­دهد؟……………………………………61

4-5-4-21. جدول گسسته­سازی پلاکت……………………………………………………61

4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61

4-5-4-23. جدول گسسته­سازی MCV، MCH و MCHC…………………………………..

4-5-4-24. CRP (C-Reactive Protein)………………………………………………….

4-5-4-25. در چه شرایطی CRP افزایش پیدا می­کند؟……………………………….63

4-5-4-26. در چه شرایطی CRP کاهش پیدا می­کند؟……………………………….63

4-5-4-27. جدول گسسته­ سازی CRP…………………………………………………….

4-5-4-28. ESR (Erythrocyte Sedimentation Rate)………………………………

4-5-4-29. جدول گسسته­ سازی ESR…………………………………………………….

4-5-4-30. جدول گسسته­ سازی BS (Blood Suger)………………………………….

4-5-5. ویژگی داده­ها پس از پیش­پردازش نهایی……………………………………….64

4-6 نمونه ­برداری…………………………………………………………………………………….67

فصل5: نتایج و یافته­ های تحقیق…………………………………………………………………69

5-1. مقدمه……………………………………………………………………………………………….70

5-2. رده­بندی……………………………………………………………………………………..70

5-2-1. مقایسه­ی الگوریتم­های پایه………………………………………………………………..70

5-2-2. مقایسه­ی روش­های یادگیری در داده­ های نامتوازن…………………………………74

فصل6: نتیجه­ گیری و پیشنهادات…………………………………………………………………..79

6-1. مقدمه…………………………………………………………………………………………………….80

6-2. نتیجه­گیری……………………………………………………………………………………………..80

6-3. پیشنهادها………………………………………………………………………………………………..82

6-3-1. مجموعه­ داده……………………………………………………………………………….82

6-3-2. داده­ کاوی………………………………………………………………………………………82

مراجع…………………………………………………………………………………………………………….83

پیوست الف: واژه­ نامه انگلیسی به فارسی……………………………………………………… 92

چکیده:

بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماری­ها هستند که از طریق درگیر کردن بخش یا قسمت­هایی از دستگاه تنفس باعث اختلال در عملکرد ریه­ها می­گردند. ریه­ها مهم­ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت­های مختلف بدن و دفع دی­اکسیدکربن نقش دارند. بیماری­های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می­کنند که باعث کاهش سطح عملکرد فرد در فعالیت­های روزمره می­گردند. بیماری­های دستگاه تنفسی در انگلستان شایع­ترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری­های ریوی می­توانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماری­های ریوی یکی از عوامل مهم مرگ­و­میر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری­ها در همان ابتدای روزهای بستری است. تکنیک­های داده­کاوی می­توانند دانش نهفته در پایگاه­های داده را استخراج و در پیش­گیری، تشخیص و معالجه­ی این بیماری­ها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسه­ی سیستم­های رده­بندی متفاوت و مقایسه­ی روش­های یادگیری داده­های نامتوازن با الگوریتم پایه، در نهایت، سیستم رده­بندی ارائه شده که می­تواند در تشخیص انواع بیماری­های تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماری­های تنفسی پرداخته شده است.

فصل اول: مقدمه

1-1- موضوع تحقیق

بیماری تنفسی[1] که عموما در ارتباط با بیماری ریوی[2] است، شامل گروهی از بیماری­ها هستند که از طریق درگیر کردن بخش یا قسمت­هایی از دستگاه تنفس[3] باعث اختلال در عملکرد ریه[4]­ها می­گردند. ریه­ها مهم­ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت­های مختلف بدن و دفع دی­اکسیدکربن نقش دارند. بیماری­های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می­کنند که باعث کاهش سطح عملکرد فرد در فعالیت­های روزمره می­گردند. بیماری­های دستگاه تنفسی در انگلستان شایع­ترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری­های ریوی می­توانند عفونت دستگاه تنفسی فوقانی[5]، پنومونی[6] و یا بیماری مزمن انسدادی ریه[7] باشند.

بیماری­های مزمن تنفسی از 10 مورد بیماری­های تهدید کننده حیات در جهان هستند[8]. مطابق آمار سازمان بهداشت جهانی[9]، صدها میلیون نفر از جمعیت جهان از بیماری­های مزمن تنفسی رنج می­برند. پیش­بینی می­شود تا سال 2030 میلادی به سومین عامل مرگ­و­میر در جهان بعد از بیماری­های قلبی­و­عروقی و سرطان­ها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.

تکنیک­های داده­کاوی[10] علاوه بر این­که می­توانند در تشخیص سریع این بیماری­ها موثر باشند، می­توانند از طریق شناسایی عوامل موثر در بروز انواع بیماری­های تنفسی، به پیش­گیری از این بیماری­ها کمک کنند و به­ این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینه­های سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.

1-2. اهمیت و ضرورت تحقیق

بیماری­های مزمن تنفسی از 10 مورد بیماری­های تهدید کننده حیات در جهان هستند و پیش­بینی می­شود تا سال 2030 میلادی به سومین عامل مرگ­و­میر در جهان بعد از بیماری­های قلبی­و­عروقی و سرطان­ها تبدیل گردد. گرچه، گسترش تکنولوژی­های پزشکی در دهه گذشته، موجب کاهش میزان مرگ­ومیر ناشی از این بیماری شده است و به­دلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماری­ها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد[11]. تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه می­دهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است.

مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده به­نظر آید. گاهی حتی به مدت زمان طولانی بیمار از این بیماری رنج می­برد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روش­های پیشرفته­تری برای تشخیص زودهنگام این نوع بیماری­های تنفسی استفاده شود. روش­های رایج برای تشخیص زودهنگام بیماری­های تنفسی عبارتند از: تست­های آزمایشگاهی، رادیوگرافی[12] قفسه سینه، اسکن هسته­ای ریه، ام­آر­آی[13]، آسپیراسیون سوزنی[14] از طریق دیواره قفسه سینه. این روش­ها علاوه بر هزینه­ی بالایی که بر بیمار تحمیل می­کنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: ام­آر­آی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود می­باشند، می­شود. در ضمن بیمار در حین انجام ام­آرآی باید بی­حرکت بوده و حرکات غیرقابل پیش­گیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش می­سازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیط­های بسته می­ترسند، عبور از تونل تنگ دستگاه ام­آی­آر توصیه نمی­شود.

این در حالی است که امروزه استفاده از سیستم­های رده­بندی[15]، می­توانند به کاهش خطایی که ممکن است توسط کارشناسان کم­تجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی داده­های پزشکی را در زمان کوتاه­تر و با جزئیات بیش­تر فراهم می­کنند. تکنیک­های داده­ کاوی می­توانند دانش نهفته در پایگاه های داده را استخراج و در پیش­­گیری، تشخیص و معالجه­ی این بیماری به پزشک و بیمار کمک کنند.

1-3. قلمرو تحقیق

قلمرو مکانی: این داده ­ها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم می­باشد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...