پایان نامه ارشد فناوری اطلاعات: استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص … |
14
2-2-6. کاربردهای داده کاوی………………………………………………………………………14
2-3. داده کاوی در پزشکی……………………………………………………………………………….14
2-4. بیماری تنفسی………………………………………………………………………………………….16
2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17
2-4-2. پنومونی…………………………………………………………………………………………17
2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18
2-5. الگوریتمهای ردهبندی………………………………………………………………………………18
2-5-1. درخت تصمیم………………………………………………………………………………..19
2-5-1-1. CHAID…………………………………………………………………………….
2-5-1-2. ID3……………………………………………………………………………………
2-5-1-3. C5.0…………………………………………………………………………………..
2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21
2-5-3. شبکه عصبی………………………………………………………………………………..24
2-5-4. Bagging…………………………………………………………………………………….
2-5-5. AdaBoost…………………………………………………………………………………
2-6. پیشینه تحقیقات در بیماریهای تنفسی……………………………………………………….30
فصل3: داده های نامتوازن…………………………………………………………………………………..32
3-1. مقدمه…………………………………………………………………………………………………….33
3-2. روشهای یادگیری در دادههای نامتوازن………………………………………………………33
3-2-1. نمونهبرداری……………………………………………………………………………………33
3-2-1-1. بیشنمونهبرداری تصادفی…………………………………………………………34
3-2-1-2. زیرنمونهبرداری تصادفی…………………………………………………………..34
3-2-1-3. نمونهبرداری آگاهانه……………………………………………………………….34
3-2-1-3-1. EasyEnsemble…………………………………………………………………..
3-2-1-3-2. ModifiedBagging…………………………………………………………….
3-2-1-4. ترکیب نمونه برداری و تولید داده……………………………………………….37
3-2-2. روشهای حساس به هزینه…………………………………………………………………39
3-3. معیارهای ارزیابی ردهبند در داده های نامتوازن………………………………………..41
3-4. معیارهای ارزیابی ردهبند در داده های نامتوازن و چند ردهای……………………..44
3-4-1. میانگین گیری میکرو………………………………………………………………………..46
3-4-2. میانگین گیری ماکرو…………………………………………………………………………46
فصل4: پیش پردازش داده ها……………………………………………………………………………47
4-1. مقدمه…………………………………………………………………………………………………….48
4-2. جمعآوری دادهها…………………………………………………………………………………….48
4-3. ویژگیهای دادهها……………………………………………………………………………………48
4-4. نحوه توزیع دادهها براساس ویژگیها…………………………………………………………..51
4-4-1. نوع بیماری تنفسی……………………………………………………………………………51
4-4-2. سن……………………………………………………………………………………………….52
4-5. پیشپردازشهای انجام شده……………………………………………………………………….53
4-5-1. حذف ویژگیهای اضافی………………………………………………………………….53
4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53
4-5-3. یکپارچهسازی داده………………………………………………………………………….54
4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55
4-5-4-1. تفسیر آزمایشهای انجام شده روی بیماران………………………………….55
4-5-4-2. WBC (White Blood Cell)……………………………………………………………
4-5-4-3. چه چیزهایی باعث کاهش WBC میشود؟………………………………..56
4-5-4-4. چه چیزهایی باعث افزایش WBC میشود؟………………………………..56
4-5-4-5. جدول گسسته سازی WBC……………………………………………………..
4-5-4-6. RBC(Red Blood Cell)………………………………………………………..
4-5-4-7. چه چیزهایی باعث کاهش RBC میشود؟…………………………………57
4-5-4-8. چه چیزهایی باعث افزایش RBC میشود؟…………………………………58
4-5-4-9. جدول گسسته سازی RBC………………………………………………………58
4-5-4-10. Hb (Hemoglobin)………………………………………………………………..
4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین میشود؟………………………….59
4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین میشود؟…………………………59
4-5-4-13. جدول گسسته سازی هموگلوبین………………………………………………59
4-5-4-14. HCT (Hematocrit)……………………………………………………………..
4-5-4-15. چه چیزهایی باعث کاهش HCT میشود؟……………………………….60
4-5-4-16. چه چیزهایی باعث افزایش HCT میشود؟……………………………….60
4-5-4-17. جدول گسسته سازی HCT……………………………………………………
4-5-4-18. Plt یا پلاکتها……………………………………………………………………60
4-5-4-19. چه چیزهایی پلاکت را کاهش میدهد؟……………………………………61
4-5-4-20. چه چیزهایی پلاکت را افزایش میدهد؟……………………………………61
4-5-4-21. جدول گسستهسازی پلاکت……………………………………………………61
4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61
4-5-4-23. جدول گسستهسازی MCV، MCH و MCHC…………………………………..
4-5-4-24. CRP (C-Reactive Protein)………………………………………………….
4-5-4-25. در چه شرایطی CRP افزایش پیدا میکند؟……………………………….63
4-5-4-26. در چه شرایطی CRP کاهش پیدا میکند؟……………………………….63
4-5-4-27. جدول گسسته سازی CRP…………………………………………………….
4-5-4-28. ESR (Erythrocyte Sedimentation Rate)………………………………
4-5-4-29. جدول گسسته سازی ESR…………………………………………………….
4-5-4-30. جدول گسسته سازی BS (Blood Suger)………………………………….
4-5-5. ویژگی دادهها پس از پیشپردازش نهایی……………………………………….64
4-6 نمونه برداری…………………………………………………………………………………….67
فصل5: نتایج و یافته های تحقیق…………………………………………………………………69
5-1. مقدمه……………………………………………………………………………………………….70
5-2. ردهبندی……………………………………………………………………………………..70
5-2-1. مقایسهی الگوریتمهای پایه………………………………………………………………..70
5-2-2. مقایسهی روشهای یادگیری در داده های نامتوازن…………………………………74
فصل6: نتیجه گیری و پیشنهادات…………………………………………………………………..79
6-1. مقدمه…………………………………………………………………………………………………….80
6-2. نتیجهگیری……………………………………………………………………………………………..80
6-3. پیشنهادها………………………………………………………………………………………………..82
6-3-1. مجموعه داده……………………………………………………………………………….82
6-3-2. داده کاوی………………………………………………………………………………………82
مراجع…………………………………………………………………………………………………………….83
پیوست الف: واژه نامه انگلیسی به فارسی……………………………………………………… 92
چکیده:
بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمتهایی از دستگاه تنفس باعث اختلال در عملکرد ریهها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا میکنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماریهای ریوی یکی از عوامل مهم مرگومیر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماریها در همان ابتدای روزهای بستری است. تکنیکهای دادهکاوی میتوانند دانش نهفته در پایگاههای داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماریها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسهی سیستمهای ردهبندی متفاوت و مقایسهی روشهای یادگیری دادههای نامتوازن با الگوریتم پایه، در نهایت، سیستم ردهبندی ارائه شده که میتواند در تشخیص انواع بیماریهای تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماریهای تنفسی پرداخته شده است.
فصل اول: مقدمه
1-1- موضوع تحقیق
بیماری تنفسی[1] که عموما در ارتباط با بیماری ریوی[2] است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمتهایی از دستگاه تنفس[3] باعث اختلال در عملکرد ریه[4]ها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا میکنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی[5]، پنومونی[6] و یا بیماری مزمن انسدادی ریه[7] باشند.
بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند[8]. مطابق آمار سازمان بهداشت جهانی[9]، صدها میلیون نفر از جمعیت جهان از بیماریهای مزمن تنفسی رنج میبرند. پیشبینی میشود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.
تکنیکهای دادهکاوی[10] علاوه بر اینکه میتوانند در تشخیص سریع این بیماریها موثر باشند، میتوانند از طریق شناسایی عوامل موثر در بروز انواع بیماریهای تنفسی، به پیشگیری از این بیماریها کمک کنند و به این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینههای سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.
1-2. اهمیت و ضرورت تحقیق
بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند و پیشبینی میشود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد. گرچه، گسترش تکنولوژیهای پزشکی در دهه گذشته، موجب کاهش میزان مرگومیر ناشی از این بیماری شده است و بهدلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماریها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد[11]. تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه میدهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است.
مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده بهنظر آید. گاهی حتی به مدت زمان طولانی بیمار از این بیماری رنج میبرد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روشهای پیشرفتهتری برای تشخیص زودهنگام این نوع بیماریهای تنفسی استفاده شود. روشهای رایج برای تشخیص زودهنگام بیماریهای تنفسی عبارتند از: تستهای آزمایشگاهی، رادیوگرافی[12] قفسه سینه، اسکن هستهای ریه، امآرآی[13]، آسپیراسیون سوزنی[14] از طریق دیواره قفسه سینه. این روشها علاوه بر هزینهی بالایی که بر بیمار تحمیل میکنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: امآرآی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود میباشند، میشود. در ضمن بیمار در حین انجام امآرآی باید بیحرکت بوده و حرکات غیرقابل پیشگیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش میسازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیطهای بسته میترسند، عبور از تونل تنگ دستگاه امآیآر توصیه نمیشود.
این در حالی است که امروزه استفاده از سیستمهای ردهبندی[15]، میتوانند به کاهش خطایی که ممکن است توسط کارشناسان کمتجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی دادههای پزشکی را در زمان کوتاهتر و با جزئیات بیشتر فراهم میکنند. تکنیکهای داده کاوی میتوانند دانش نهفته در پایگاه های داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماری به پزشک و بیمار کمک کنند.
1-3. قلمرو تحقیق
قلمرو مکانی: این داده ها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم میباشد.
فرم در حال بارگذاری ...
[چهارشنبه 1399-10-17] [ 05:07:00 ب.ظ ]
|