پایان نامه ارشد رشته تجارت الکترونیک: چارچوبی جدید برای تشخیص مرجع مشترک و اسم اشاره … |
2-1-۳-۲-۲.افراز……………………………………………………………………………………………………… 35
2-1-۳-۲-۲-۱.درختِ بل………………………………………………………………………………….. 36
2-1-۳-۲-۲-۲. افراز گراف……………………………………………………………………………….. 38
2-1-۳-۳. روشهای مبتنی بر پیکره……………………………………………………………………………… 40
2-1-۳-۴. روشهای جایگزین…………………………………………………………………………………………. 44
2-1-۳-۴-۱. روش همآموزی…………………………………………………………………………………….. 44
2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول…………………………………………………………………… 46
2-1-۳-۴-۳. رتبهبندی………………………………………………………………………………………………. 47
2-1-۳-۴-۴. فیلدهای تصادفی شرطی……………………………………………………………………… 49
2-1-۳-۴-۵. خوشه بندی………………………………………………………………………………………….. 51
2-1-۴. جمعبندی………………………………………………………………………………………………………. 56
فصل 2: بخش دوم…………………………………………………………………………………….. 57
2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هممرجع…………………………………………………. 58
2-2-۲. پیکره بیژنخان………………………………………………………………………………………………….. 59
2-2-۳. پیکره لوتوس…………………………………………………………………………………………………….. 60
2-2-۴.شیوه های نشانه گذاری پیکره لوتوس…………………………………………………………….. 62
2-2-۴-۱. نشانهگذاری انواع موجودیتها………………………………………………………………………….. 62
2-2-۴-۱-۱. موجودیت شخص……………………………………………………………………………………… 64
2-2-۴-۱-۲. موجودیت سازمان……………………………………………………………………………………… 64
2-2-۴-۱-۳. موجودیت مکان…………………………………………………………………………………………. 66
2-2-۴-۱-۴. موجودیت سیاسی……………………………………………………………………………………… 66
2-2-۴-۲.کلاس هر موجودیت……………………………………………………………………………………………. 68
2-2-۴-۲-۱.غیر ارجاعی……………………………………………………………………………………………….. 69
2-2-۴-۲-۲.ارجاعی………………………………………………………………………………………………………. 69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی……………………………………………………………………… 69
2-2-۴-۲-۲-۲.ارجاعی خاص………………………………………………………………………………….. 70
2-2-۴-۲-۲-۳.ارجاعی عمومی……………………………………………………………………………….. 70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده………………………………………………………………. 70
2-2-۴-۳.انواع اشاره/سطوح اشاره…………………………………………………………………………… 71
2-2-۴-۳-۱.اشاره ساده………………………………………………………………………………………………….. 72
2-2-۴-۳-۱-۱.محدوده اشاره………………………………………………………………………………….. 72
2-2-۴-۳-۱-۲. هسته اشاره……………………………………………………………………………………. 72
2-2-۴-۳-۱-۳.انواع اشاره ساده………………………………………………………………………………. 72
2-2-۴-۳-۲.ساختارهای پیچیده………………………………………………………………………………………. 74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل……………………………………………………….. 75
2-2-۵.جمعبندی………………………………………………………………………………………………………… 75
فصل 3: الگوریتمهای پیشنهادی……………………………………………………………….. 76
3-۱. رده بندی دودویی…………………………………………………………………………………………… 76
3-1-1.جدا کنندههای خطی………………………………………………………………………………… 77
3-1-1-1 پرسپترون……………………………………………………………………………………………… 78
3-1-1-2 ماشین بردار پشتیبان…………………………………………………………………………………….. 80
3-1-1-3 درخت تصمیم………………………………………………………………………………………………… 85
3-۲.خوشه بندی…………………………………………………………………………………………………………. 88
3-2-1 .الگوریتمهای افراز بستهای…………………………………………………………………………………… 89
3-2-1-1 .خوشه بندی سلسله مراتبی پایین به بالا……………………………………………………. 90
3-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی…………………………………………….. 93
3-3.جمعبندی……………………………………………………………………………………………………….. 96
فصل 4: سیستم ارزیابی…………………………………………………………………………….. 97
4-۱.مقدمه………………………………………………………………………………………………………………. 97
4-۲.سیستم شناسایی اشاره لوتوس………………………………………………………………….. 98
4-2-1 .بانک اطلاعاتی…………………………………………………………………………………… 98
4-2-2.سیستم شناسایی اشاره………………………………………………………………………….. 102
4-3.تشخیص اشارههای هم مرجع……………………………………………………………………………….. 103
4-3-1 ویژگیها…………………………………………………………………………………………………….. 104
4-3-2.الگوریتم یادگیری…………………………………………………………………………………….. 105
4-3-3.معیار ارزیابی…………………………………………………………………………………………….. 107
4-3-4.نتیجه ارزیابی……………………………………………………………………………………… 110
4-3-4-1.نتایج بدست آمده……………………………………………………………………………………….. 110
4-3-4-.2چالشها و تحلیل خطا……………………………………………………………………………….. 112
4-4.جمعبندی……………………………………………………………………………………………………… 115
فصل 5 :نتیجه گیری و پیشنهادها……………………………………………………………… 116
5-۱.نتیجه گیری………………………………………………………………………………………………….. 116
5-2.پیشنهادها…………………………………………………………………………………………………… 118
فصل .6 منابع………………………………………………………………………………………….. 121
چکیده:
پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصهسازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هممرجع را بررسی نماید، کمک شایانی به انجامِ موفقیتآمیز این وظایف خواهد نمود. روشهای تشخیص مرجع مشترک را میتوان به دو دسته روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم نمود. روشهای زبانشناسی بیشتر به اطلاعات زبانشناسی نیاز دارند، البته مشکل این روشها این است که پر خطا و طولانی میباشند. از طرف دیگر روشهای یادگیری ماشین کمتر به اطلاعات زبانشناسی نیاز دارند و نتایج حاصل از آنها قابل اعتمادتر است. در این پایان نامه تلاش میکنیم تا فرآیند تشخیص مرجعمشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره ها، عبارتهای هممرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیشبینی عبارتهای اسمی هممرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکرهای با نشانه هایی شامل محدودهی اشاره، نوع اشاره، هستهی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه میکنیم، این پیکره میتواند به عنوان اولین پیکره دارای نشانه های اشاره و هممرجعی، مبنای کار بسیاری از پژوهشهای مربوط به شناسایی و کشف اشاره و تحلیل هممرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویتهای میان اشاره ها، سیستمی ارائه میکنیم که اشاره های موجود در متن را شناسایی کرده و سپس نمونه های مثبت و منفی را از پیکره لوتوس استخراج میکند. در نهایت نیز با استفاده از الگوریتمهای یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان میدهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.
فصل اول
1-1- مقدمه و بیان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبیعی»شاخهای از علم «هوش مصنوعی» است كه به ماشینی كردن فرآیندزبان شناسیسنتی میپردازد. به این ترتیب با استفاده از رایانه میتوان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده كند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون، برچسبگذاری ادات سخن، تعیین و ابهامزدایی از معانی واژگان و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامی این حوزههای جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها و کلان کاربردها افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار و … ) و یا در سطح کل متن (تشخیص هرزنامه، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات، تشخیص مرجع مشترک و ماشین ترجمه در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی و نحوی) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهای از تکنیکهای ردهبندی، خوشهبندی و قوانین وابستگی است و خروجی استخراج اطلاعات شامل، شناسایی موجودیتها ، تعیین نوع وگروه آنها، طبقه بندی ارتباط میان موجودیتها و همچنین استخراج رویدادهایی كه در آن مشاركت دارند، میباشد.[71[ در نهایت میتوان گفت كه خلاصه سازی، بازیابی اطلاعات، دادهكاوی، پرسش و پاسخ و درك زبان از جمله كاربردهای این سیستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایاننامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژولهایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل میشود. روشهای موجود در این حوزه، به دو دسته روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی، مراجع کاندیدا تعیین میشود و سپس با به کارگیری مجموعهای از قواعد زبانشناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی میشوند و درنهایت کاندیدایی به عنوان مرجع برگزیده میشود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبانشناسی مورد نیاز، فرآیندی زمانبر، پرهزینه و پر خطاست. البته با پیدایش پیکرههای زبانشناسی و موفقیت روشهای یادگیری ماشین در سایر حوزهها، روشهای زبانشناسی جای خود را به روشهای یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبانشناسی پیچیده و سطح بالای روشهای زبانشناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبانشناسی نیز میتوان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارتهای اسمی که به موجودیت ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشارههایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارتهای اسمی تحت عنوان اشاره و در قالب چهار گروه اصلی ضمایر، اسامی خاص، اسامی عام و غیر اشارهها قرار میگیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص می کند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]میتوان گفت که فرآیند کشف اشاره، توسعه یافتهی فرآیند شناسایی موجودیتهای نامدار میباشد که علاوه بر شناسایی اسامی خاص، به شناسایی اسامی عام و ضمایر نیز میپردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیندهای شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزهی این پایاننامه است، ما عبارتهای اسمی را در قالب انواع اشارههای گفته شده در پیکرهای تحت عنوان لوتوس برچسبگذاری مینمائیم و نتیجهی آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایاننامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط میان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایاننامه را معرفی می نمائیم. سیستم پیشهنادی برای شناسایی اشارههای ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهایت در فصل پنجم نیز به نتیجه گیری و پیشنهاد كارهای آتی در ادامهی این پژوهش خواهیم پرداخت.
1-2.بررسی ارتباط هم مرجعی
یکی از ویژگیهای خاص گفتمان این است که میتوان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارتها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی(بنیانگذارمنطق فازی) بهره برد تا به این ترتیب از تکرار عبارتها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب میشود که زنجیرههای بالقوهای از تمام عبارتهای اسمیکه به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیانگذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیرهها در متن است که در فرآیند تحلیل مرجعمشترک انجام میپذیرد. برای شروع، مثال ۱ را در نظر بگیرید:
مثال۱: (سیستم آبیاری گلاب)۱Ant,در روز سه شنبه رونمایی شد. (این سیستم)۱Ana,محصول اندیشهی (دکتر سارا شکری)۲Ant,است. (او)Ana,2، ( یک پژوهشگر)Anaدر (شرکت آبیاری لاله)۳است.
اگر فرض کنیم که پیمانههای نشانهگذاری تا کشف اشاره به عنوان پیش پردازشهایی بر روی متن اجرا شوند، با اجرای این پیمانهها، انواع عبارتهای اسمیموجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانهگذاری میشوند. سپس با اجرای پیمانه تشخیص مرجعمشترک، ارتباطات میان این عبارتها و اطلاعات نهفته در مورد موجودیتهای شرکت کننده در متن آشکار میشود. به عنوان نمونه، میدانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره میکنند.
استفاده از اصطلاح موجودیت در تحلیل مرجعمشترک، این سؤال را مطرح میکند که چه چیزهایی موجودیت محسوب میشوند؟ تاکنون گروهبندیهای متعددی برای انواع موجودیتها ارائه شده است، به عنوان نمونهACE، یک تقسیم بندی هفت موجودیتی برای انواع موجودیتها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیتها و یا گاهی اوقات برخی از آنها را مورد مطالعه و بررسی قرار میدهند.
یکی از ویژگیهای تحلیل مرجعمشترک این است که علاوه بر انواع موجودیتهای رایج، میتوانیم در حوزههای متفاوت از تعاریف پیش فرض خود نیز برای موجودیتها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجعمشترک در متون پزشکی پرداخته و بررسی موجودیتهایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
با توجه به آنچه تاکنون گفته شد، انتظار میرود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجعمشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی میکند در نظر گرفته نمیشود، چون منظور از «یک پژوهشگر» میتواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند میتواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.
همان طور که مشاهده شد، تحلیل مرجعمشترک و تحلیل پیشایند دو مفهوم نزدیک به هم میباشند به طوری که عموماً به موازات تحلیل مرجعمشترک، با تحلیل پیشایند روبرو میشویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر میپندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمیو ایجاد ابهام در تحلیل متن میگردد.در این بخش، هدف ما بررسی هرکدام از این فرآیندها و مطالعه برخی از شباهتها و تفاوتهای میان این دو فرآیند میباشد.
[1] معادل پارسی عبارت انگلیسی Natural Language processing
[2] معادل پارسی عبارت انگلیسی Artificial Intelligence
[3] معادل پارسی عبارت انگلیسی Text classification
[4] معادل پارسی عبارت انگلیسی Part of speech tagging
[5] معادل پارسی عبارت انگلیسی Word sense disambiguation
[6] معادل پارسی عبارت انگلیسی Micro-task
[7] معادل پارسی عبارت انگلیسی Macro-task
[8] معادل پارسی عبارت انگیسی Named Entity Recognizers(NER)
[9] معادل پارسی عبارت انگیسی Spam Detection
[10] معادل پارسی عبارت انگیسی Information Extraction(IE)
[11] معادل پارسی عبارت انگیسی Coreference Resolution(CR)
[12] معادل پارسی عبارت انگیسی Machin Translation(MT)
[13] معادل پارسی واژه انگیسی Lexical
[14] معادل پارسی واژه انگیسی Syntactical
[15] معادل پارسی واژه انگیسی Parsing
[16] معادل پارسی واژه انگیسی Classification
[17] معادل پارسی واژه انگلیسی Clustering
[18] معادل پارسی عبارت انگلیسی Association pules
[19] معادل پارسی واژه انگلیسی Entity
فرم در حال بارگذاری ...
[چهارشنبه 1399-10-17] [ 05:06:00 ب.ظ ]
|