بازيابي كارآ و موثر اطلعات وب از طريق دستاوردهاي يادگيري ماشين :طراحي و تكامل روشهاي يادگيري تقويتي در كاوش متمركز حميدرضا مطهري نژاد احمد عبداله زاده بارفروش
[email protected]
[email protected]
دانشكده مهندسي كامپيوتر و فناوري اطلعات دانشگاه صنعتي اميركبير (پلي تكنيك تهران) چكيده در اين مقاله ،دستاوردهاي موتور جستجوي Coraبعنوان كاوشگر متمركزي كه از يادگيري تقويتي براي كاوش كارآي وب استفاده مي كند ،توسعه داده شده است .مهمترين دستاورد اين پروژه ،بهبود روش هاي كاوش Coraبا توسعه و ارائه روشهاي جديد براي محاسبه مقدار Qدر كاوشگر بر پايه يادگيري تقويتي است .كاوشگرهاي پيشنهاد شده در اين پروژه صفحات هدف را سريعتر مييابند و نسبت به كاوشگرهاي موجود ( ،Coraكاوشگر متمركزي كه پاداشهاي آينده را مدل نميكند و نيز كاوشگر اول-سطح) به پاداشهاي بيشتري در طي كاوش دست مييابند .در اين پروژه براي يادگيري متن در خلل كاوش متمركز وب براي اولين بار از دستهبندي كننده ماشينهاي بردار پشتيبان ( )SVMsاستفاده شده است .در نيمه اول كاوش ،كاوشگرهاي يادگيري تقويتي بر پايه SVMs نسبت به كاوشگرهاي يادگيري تقويتي بر پايه NBبسيار بهتر عمل مي كنند و صفحات هدف را سريع تر مي يابند. بستر آزمايش استفاده شده براي ارزيابي كاوشگرهاي پيشنهادي و روش هاي موجود ،چهار پايگاه وب بخش هاي علوم كامپيوتر چهار دانشگاه بوده كه از وب كپي و بصورت خارج از خط در دسترس قرار گرفتهاند.
1مقدمه تعداد صفحات ،سرويس دهندهها و حوزه های وب (مثلً )www.cisco.comبا سرعت بسيار زيادی در حال افزايش است .بزرگترين موتورهاي جستجو ،كارهاي وسيعي براي توسعه دستاوردهايشان انجام دادهاند؛ اما رشد وب فراتر از افزايش قدرت موتورهاي جستجو بوده است ].[1تعداد پرسوجوهايي كه موتورهاي جستجو بايد پاسخ دهند نيز به صورت تصاعدي افزايش يافته است] .[2كاوشگرهاي وب كه Robot، Spiderو Wormهم ناميده ميشوند ،داراي قدمتي به اندازه خود وب هستند ].[3كلمه "كاوشگر" از آنجايي به اين برنامه اطلق ميشود كه تمامي پيوندهاي درون يك صفحه را براي ارجاعات بعدي استخراج ميكند .كاوشگر وب همه منظوره تلش مي كند تا هر چقدر ميتواند صفحات بيشتري را از مجموعهاي از پايگاه هاي وب جمعآوري كند .يك كاوشگر متمركز به جاي جمع آوري و شاخص بندي تمام اسناد وب ،براي پاسخگويي به تمامي پرس و جوهاي آينده ،موضوع محدوده كاوش خود را تحليل مي كند تا پيوندهايي را بيابد كه بيشترين ربط را به موضوع كاوش داشته باشند و از نواحي نامربوط وب احتراز كند .استفاده از اين روش منجر به صرفه جويي قابل توجه در سخت افزار ،نرمافزار و منابع شبكه ميشود و به ميزان پوشش باليي بر روي اسناد مرتبط موجود در وب دست مييابد .يادگيري تقويتي ]4و [5يكي از شاخههاي يادگيري نيمه-نظارتي است و هدف آن يادگيري از طريق محاوره مستقيم با يك محيط پويا و استفاده از چهارچوب تنبيه و تشويق براي يادگيري است .استفاده از يادگيري تقويتي بهبود مناسبي را در كارآيي كاوشگر نسبت به كاوشگر اول-سطح و كاوشگر متمركز موجود از خود نشان داده است ]6و .[7در اين مقاله روشهاي موجود كاوش وب با استفاده از يادگيري تقويتي توسعه هاي داده شده است .توسعه هاي اعمال شده در اين كاوشگرها بهبود عملكرد اين كاوشگرها نسبت به كاوشگرهاي قبلي را نشان مي دهد. 1
در بخش 2اين مقاله يادگيري تقويتي معرفي شده و چگونگي نگاشت كاوش وب به اين يادگيري تشريح شده است .بخش 3طراحي و پياده سازي كاوشگر يادگيري تقويتي را ارائه مي دهد .بخش 4نتيجه آزمايشات انجام شده را بيان كرده و بخش 5نتيجه گيري كلي و پيشنهادات آينده را ارائه مي دهد.
2كاوش وب به عنوان يك مساله يادگيري تقويتي يادگيري تقويتي ] [4روشي براي حل مسائل با استفاده از يادگيري از سعي و خطا در يك محيط پويا است. عامل يادگيري تقويتي ،ياد ميگيرد كه در هر موقعيت چه كاري انجام دهد يعني يك نگاشت از موقعيتها به اعمال بدست آورد .در يادگيري تقويتي ،به عامل يادگير گفته نميشود كه عمل درست در هر موقعيت كدام است (يادگيري از نوع با نظارت نيست)؛ بلكه بعد از انجام يك عمل در يك موقعيت ،عمل انجام شده ارزيابي شده و به عامل گفته ميشود عمل انجام شده چقدر خوب و يا بد بوده است (پاداش و يا جزا داده ميشود) و عامل ياد ميگيرد كه در موقعيتهاي مشابه اين كار را انجام دهد و يا از آن احتراز كند .در بسياري از كاربردهاي واقعي ،ممكن است عمل انتخاب شده نه تنها بر پاداش دريافت شده آني بلكه بر پاداشهاي آينده نيز تاثير بگذارد .از طرف ديگر ،ممكن است عملي داراي سود آني نباشد و در قدمهاي زماني بعدي به پاداشهاي قابل توجهي منجر شود .يكي از نقاط قوت يادگيري تقويتي اين است كه راه حلي براي اندازهگيري كارآيي اعمالي ارائه ميدهد كه داراي سود آني نيستند؛ اما در آينده منجر به سود و منفعت ميشوند .عامل يادگيري تقويتي اين پاداش با تاخير را با يادگيري يك نگاشت از هر عمل ممكن به يك مقدار اسكالر انجام ميدهد .اين مقدار اسكالر ،مجموع پاداشهاي آينده هر عمل با يك "ضريب فراموشي" براي هر پاداش در طول زمان است .ضريب فراموشي باعث ميشود تا پاداشهاي دريافت شده بعدي (در آينده دورتر) نسبت به پاداشهاي فعلي داراي ارزش كمتري باشند .عامل يادگيري تقويتي سعي ميكند ،بهينه عمل كند؛ يعني طوري عمل كند كه در طول زمان بيشترين مقدار پاداش را دريافت كند .دو خصوصيت مهم يادگيري تقويتي كه آن را براي كار كاوش وب به عنوان يك راه حل مناسب مطرح مي سازد ،يادگيري از محيط به روش سعي و خطا و توانايي در نظر گرفتن پاداشهاي تاخيري ميباشند. در اين بخش ،يك نگاشت از مفاهيم موجود در كاوش وب به چارچوب يادگيري تقويتي انجام ميدهيم تا بتوان اين يادگيري را به مساله اعمال كرد .در كار كاوش وب ،اسناد هدف كه از كاوش يك ابرپيوند حاصل ميشوند، "پاداشهاي آني" بوده و اسناد هدفي كه ميتوان با پيمايش يك ابرپيوند در سطوح پايينتر يافت" ،پاداشهاي آينده" آن ابرپيوند هستند" .عمل" ،تعقيب (پيمايش) يك ابرپيوند خاص است .تعداد اعمال در اختيار ،پويا و بزرگ است و بستگي به اين دارد كه تاكنون چه اسنادي كاوش شده است" .حالت" شامل -1مجموعه اسناد هدفي است كه بايد كاوش شوند. -2مجموعه پيوندهايي كه يافته شدهاند .حالت فقط شامل موقعيت جاري كاوشگر (آخرين صفحه ملقات شده) نيست؛ زيرا كاوشگر ميتواند هر ابرپيوند يافته شده تاكنون را در قدم بعدي بپيمايد. خصوصيت كليدي كاوش متمركز كه يادگيري تقويتي را بعنوان يك چهارچوب مناسب براي آن مطرح ميسازد، اين است كه محيط ،موقعيتهايي با پاداش مؤخر را ارائه ميدهد (صفحات غير مرتبط به موضوعي كه در چند قدم بعدي به تعداد زيادي صفحات مرتبط منجر مي شوند؛ مثل صفحه يك بخش علوم كامپيوتر كه در چند قدم بعد در صفحه شخصي كاربران تعدادي مقاله را ميتوان يافت) .حال ميخواهيم بدانيم چگونه يادگيري تقويتي را به كاوش وب اعمال كنيم .در اين حوزه ،فضاي حالت بسيار بزرگ است و تعداد اعمال در اختيار هم بسيار زياد است (تعداد ابرپيوندهاي يافته شده تا كنون) .در كاوشگر يادگيري تقويتي Coraچند فرض در نظر گرفته شده تا به سادگي و تعميم مساله كمك كند: )1فرض ميشود "حالت" مستقل از اينست كه كدام اسناد هدف تابحال ديده شدهاند.
2
)2فرض ميشود ميزان مربوط بودن اعمال (ابرپيوندها) به موضوع (هدف) ميتواند با كلمات "در همسايگي" ابرپيوند متناظر با هر عمل مشخص شود. با فرض اول ،يك تعميم در فضاي حالت انجام ميگيرد و تمامي حالت به يک حالت تبديل مي شود .با فرض دوم ميتوان بين ابرپيوندها تعميم انجام داد و آنها را بوسيله متن اطرافشان با هم مقايسه كرد .با اين فرضها ،براي يادگيري انجام يك كاوش مؤثر و كارآ دو زير مساله باقي ميماند )1( :بدست آوردن دادههاي آموزشي و زوجهاي "مجموعه كلمات/مقدار Qمتناظر" از داده هاي آموزشي ( )2يادگيري يك نگاشت با استفاده از دادههاي آموزشي. چندين راه براي جمعآوري دادههاي آموزشي وجود دارند. در كاوش وب ،هدف ،يادگيري ميزان پاداش مورد انتظار در آينده از تعقيب هر ابرپيوند است .با استفاده از يادگيري تقويتي در سادهترين حالت ،ميتوان يك نگاشت از متن در همسايگي يك ابرپيوند را به تعداد (با ضريب فراموشي) صفحات مرتبط مورد انتظار در آينده ياد گرفت .صفحات مرتبط مورد انتظار ،صفحاتي هستند كه از تعقيب همان ابرپيوند در مراحل بعدي حاصل ميشوند .نگاشت از متن به يك مقدار اسكالر با تبديل اين مساله رگرسيون به يك مساله دستهبندي ] [ 9انجام ميشود .متن يك ابرپيوند و متن همسايه آن بوسيله يك دستهبندي كننده كه در فاز آموزش يادگرفته است ،دستهبندي شده و احتمال مربوط بودن آن به هركدام از دستههاي آموزشي بدست ميآيد. مقدار اسكالر نسبت داده شده به اين ابرپيوند ،به مجموع وزني مقادير احتمال ربط ابرپيوند به اين دستهها تعريف ميشود.
3طراحي و پياده سازي كاوشگر يادگيري تقويتي اگرچه عامل ميتواند از تجربيات بصورت برخط ياد بگيرد ،در پيادهسازي اين سيستم ،عامل يادگير بصورت خارج از خط با استفاده از يك مجموعه داده از قبل كاوش شده آموزش داده شده است .براي اين دادههاي آموزشي، تابع انتقال حالت ( )Tو تابع پاداش ( )Rمشخص هستند .با اين اطلعات ميتوان زوجهاي "مجموعه كلمات/مقدار Q
متناظر" را بدست آورد و از آنها براي تخمين تابع Q -بخش كاوش نشدهاي از وب استفاده كرد. همانطور كه اشاره شد ،مقدار Q-يك ابرپيوند با استفاده از برنامه سازي پويا برابر مجموع پاداشها با يك ضريب كاهنده (فراموشي) براي هر پاداش است كه عامل با تعقيب خط مشي بهينه پس از تعقيب ابرپيوند و در خلل پيمايش فضاي ابرپيوندها دريافت داشته است .وقتي كه در تعقيب هر ابرپيوند ،تعداد پاداشها زياد باشد ،هدف محاسبه توالي بهينه بطور مستقيم است و مقدار Q-به مجموع پاداشها در خلل توالي با يك ضريب كاهنده در هر قدم تعريف ميشود .براي محاسبه مستقيم توالي بهينه ،انباره ابرپيوندهاي حاصل از كاوش تمام صفحات ملقات شده توالي ،نگهداري شده و پيمايش به صورت آزمند ،به سمت ابرپيوند با بيشترين پاداش تخميني (و يا نزديكترين پاداش به انباره) انجام ميگيرد .در ابتدا ،انباره حاوي ابرپيوندهايي است كه مقدار Q-آنها تاكنون محاسبه گرديده است .انتخاب از ميان ابرپيوندهاي انباره اين حقيقت را روشن ميسازد كه كاوشگر مجبور نيست ابرپيوند بعدي ملقات شونده را از ميان ابرپيوندهاي صفحه جاري انتخاب كند؛ بلكه ميتواند هر ابرپيوند تاكنون شناخته شدهاي را انتخاب كند .ابرپيوندهاي درون انباره فقط ابرپيوندهايي هستندكه از طريق ابرپيوند آغازي قابل دستيابي باشند. در ادامه ،جريان كار كاوشگر يادگيري تقويتي ،در دو فاز يادگيري و آزمايش بررسي شده است .فاز يادگيري، به صورت "خارج از خط" انجام ميگيرد .يعني سيستم از يك مجموعه اسناد وب كه قبلً از آن كپي شدهاند ،آموزش داده شده است .در فاز آزمايش ،اسناد از وب كپي شده و يك مقدار Qبراي هر ابرپيوند جديد بر اساس ميزان پاداش آينده تخمين زده ميشود ،پيوندها بر اساس تخمين مقدار پاداششان كاوش ميشوند .كاوشگر سعي ميكند اسناد هدف را با كاوش كمترين تعداد ابرپيوند بيابد و از كاوش نواحي غير مرتبط وب احتراز كند .در دو زيربخش زير فازهاي يادگيري و آزمايش به طور مشروح بيان شدهاند.
3-1فاز يادگيري 3
در فاز يادگيري ،مجموعه دادههاي آموزش به سيستم ارائه ميشود .سيستم ،متن در همسايگي ابرپيوندها و متن خود ابرمتن را بكار گرفته و يك نگاشت از اين مجموعه كلمات به مقادير Q-بدست ميآورد .سپس اين مجموعه را به عنوان دادههاي آموزشي يك دستهبندي كننده بيز ساده بكار ميبرد. بستر آزمايش اين سيستم ،پايگاههاي وب بخشهاي علوم كامپيوتر چهار دانشگاه آمريكا و موضوع مورد تمركز فايلهاي مقالت تحقيقي علوم كامپيوتر با پسوندهاي PS, .PS.GZ, .PS.Z.بوده است .در سيستم پياده سازي شده، يك الگوريتم براي شناسايي مقالت توسعه داده شده است كه با دقت بيش از %95صفحات هدف (مقالت) را از غيرهدف تمايز ميدهد .اين الگوريتم ،در هر فايل به دنبال بخشهاي چكيده و مراجع جستجو ميكند. فاز يادگيري شامل دو مرحله زير است )1( :پردازش دادههاي آموزشي و بدست آوردن مقادير Qهر ابر پيوند ( )2استفاده از مقادير Qهر پيوند و متن همسايگي آن براي يادگيري يك تعميم از اين مساله رگرسيون. 3-1-1پردازش دادههاي آموزشي و بدست آوردن مقادير Qهر ابرپيوند در هركدام از بسترهاي آزمايش مجموعهاي از دادههاي آموزشي وجود دارد و عامل به صورت "خارج از خط" آموزش ميبيند .از ديدگاه يادگيري تقويتي ،براي اين مجموعه آموزشي ،تابع انتقال حالت ( Tاز هر صفحه با انتخاب يک عمل خاص به چه صفحه ديگري خواهيم رفت) و تابع پاداش ( Rتعداد پاداشهاي قابل دستيابي از هر ابرپيوند) را داريم و هدف يادگيري تابع Qبا محاسبات خارج از خط است .مقدار Qيك ابرپيوند به مجموعه كاهش يافته پاداشهاي دريافت شده با استفاده از خط مشي بهينه تعريف ميشود. 3-1-2نگاشت متن به مقاديرQ-
براي بدست آوردن مقادير اسكالر Qاز روي متن در همسايگي پيوندها ،اين مساله رگرسيون به يك مساله دستهبندي ] [9تبديل ميشود .براي اين منظور از دستهبندي كننده هاي بيزساده و ماشينهاي بردار پشتيبان استفاده ميشود .در بخش بعد اين دو دسته بندي كننده معرفي شده اند. ابتدا در مجموعه دادههاي آموزشي مقادير Qبدست آمده براي پيوندها (مجموع كاهشي پاداشهاي آينده) به چندين دسته گسسته ميشود .سپس ،متن در همسايگي هر ابرپيوند در دسته متناظر با مقدار Qآن ابرپيوند قرار ميگيرد و در نهايت اين دستهها به عنوان دادههاي آموزشي دستهبندي كننده ها بكار ميروند .متن همسايگي ميتواند به صورتهاي مختلف انتخاب شود .سه فرم متفاوتي كه در اين سيستم مورد استفاده قرار گرفتهاند ،عبارتند از )1( :تمام متن صفحهاي كه ابرپيوند در آن قرار دارد )2( .متن اطراف پيوند (جلو و بعد از آن) و متن خود ابر پيوند )3( .متن ابرپيوند ،عنوان صفحه و عناوين ديگر داخل صفحه ،سرآيند صفحه .شكل 1كد مجازي نگاشت متن به مقادير Qرا در فاز يادگيري نشان ميدهد. 3-1-3دسته بندي كننده هاي متن در يادگيري نظارتي ] [10كه "دستهبندي" و يادگيري با معلم هم گفته ميشود ،عامل يادگير با استفاده از يك سري از دادههاي آموزشي ياد ميگيرد .در واقع ،اجزاي يك سيستم يادگيري نظارتي شامل عامل يادگير ،مجموعه دادههاي آموزشي و دادههاي آزمايشي (دادههاي برچسبدار و غير برچسبدار) و تعداد مشخصي دسته ميباشد .در كاربرد دستهبندي متن ،هر سند به عنوان يك داده آموزشي در نظر گرفته ميشود .هر دسته در اين كاربرد ،حاوي اسناد مربوط به يك موضوع خاص است .تعداد دستههاي آموزشي بر اساس تنوع موضوعي تعيين ميگردد .اين تعداد توسط كاربري كه دادههاي آموزشي را فراهم ميكند ،مشخص ميشود .برچسب دادههاي آموزشي ،شماره و يا نام دسته و يا دستههايي ميباشد كه هر داده آموزشي به آن دسته و يا دستهها تعلق دارد .عامل يادگير در فاز آموزشي با استفاده از دادههاي آموزشي (دادههاي برچسبدار) ،آموزش داده شده و يك تعميم از هر دسته ياد ميگيرد كه عامل را قادر به شناسايي اسناد مربوط به هر دسته ميكند .در فاز آزمايش ،عامل يادگير -كه دستهبندي كننده هم ناميده 4
ميشود -اسناد متني را كه در فاز آموزشي نديده است و متعلق به يكي از دستههاي آموزشي ميباشند ،دريافت كرده و احتمال تعلق اين سند را به هر كدام از دستههاي آموزشي بدست ميآورد .دستهبندي براي هر سند ،به معني انتخاب دسته با بالترين احتمال تعلق سند به آن دسته ميباشد. Distance: )Calculates Q values as gamma ^ (distance to the nearest reward Three: Calculate Q values for three classes - immediate, future, none. Score = 1 for immediate, gamma for future, zero for none. Four: Calculates Q values for four classes - immediate, one-step, two-step, none. Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, zero for none Five: Calculates Q values for four classes - immediate, one-step, two-step, three-step, none. Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, gamma^3 for three-steps, zero for none. Papers: Calculates Q values as number of papers available from link. Future: )Calculates Q values as future reward, Num(reward) * (gamma ^ distance Immediate: If the link is a paper its Q value is 1 else 0. Cutoff: Calculates according to path, if value < $cutoff, gives value of 0. Number of traversed links فاز leads در to increase gamma يادگيري exponentبهinمقادير Q مجازيofنگاشت متن شكل -1كد
3-1-3-1دسته بندي كننده بيز ساده ()Naïve Bayes در اين مدل يادگيري فرض ميشود كه دادههاي متني از يك مدل پارامتري توليد ميشوند و از دادههاي آموزشي براي برآورد (تخمين) اين پارامترها استفاده ميشود ]8و 11و .[12در فاز آزمايش براي هر سند جديد با بكارگيري مقدار پارامترها -كه در فاز آموزش يادگرفته شده -و با استفاده از قانون بيز اين احتمال محاسبه ميشود كه اين سند بوسيله هر يك از دستههاي آموزشي توليد شده باشد (متعلق به آن دسته باشد) .دستهبندي ،انتخاب بالترين اين احتمالها براي كلمات اين سند است. 3-1-3-1دسته بندي كننده ماشينهاي بردار پشتيبان ماشينهاي بردار پشتيبان بر پايه اصل حداقل سازي خطاي ساختاري از نظريههاي يادگيري آماري (محاسباتي) توسعه يافتهاند .اين دسته بندي كننده از خود كارآيي بسيار بهتري را نسبت به روشهاي ديگر در دسته بندي متن از خود نشان داده است .يكي از فاكتورهاي مهم در يادگيري متن اين است كه ،يادگيرنده (دستهبنديكننده) قابليت تعميم مناسب با استفاده از تعداد معدودي داده آموزشي را داشته باشد .در اغلب كاربردهاي واقعي و مخصوصاً در فضاي وب تعداد دادههاي آموزشي كافي و يا زيادي براي يادگيرنده وجود ندارند و يا فراهم نمودن آن زمانبر و مشكل است .روش ماشينهاي بردار پشتيبان Transductive (TSVMS) ]14و 15و [ 16يك نوع خاص از ماشينهاي بردار پشتيبان است كه هدفش يادگيري از تعداد معدودي داده آموزشي است و در فضاي دستهبندي متن نسبت به الگوريتم معمول ماشينهاي بردار پشتيبان به كارآيي بهتري دست يافته است ] TSVMs .[14از دستاورد استنتاج Transductiveبه جاي استقراء ( )Inductionاستفاده ميكند .در استقرا ،يادگيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را نتيجه بگيرد كه داراي نرخ خطاي پاييني در تمامي توزيعهاي مثالها (بعنوان داده آموزشي و آزمايشي) براي يك يادگيري خاص باشد .اغلب ،اين دستاورد به طور غير ضروري پيچيده است .در
5
بسياري از موقعيتها ما به يك تابع تصميم خاص توجه نميكنيم اما ميخواهيم يك مجموعه از مثالها (مجموعه آموزشي) را با كمترين خطاي ممكن دستهبندي كنيم .اين مساله ،هدف استنتاج Transductiveاست .مباحث تئوري و آزمايشات عملي [Joachims ]13نشان ميدهد كه ماشينهاي بردار پشتيبان براي دستهبندي متن بسيار مناسب هستند و كارآيي آنها از روشهاي متداول دستهبندي متن به طور چشمگيري بهتر است و همچنين داراي پايداري بيشتري است .روش TSVMsاغلب خواص ماشينهاي بردار پشتيبان را به ارث ميبرد ،بنابراين همين شواهد به TSVMsهم اعمال ميشود. TSVMsاز چه نظر از ماشينهاي بردار پشتيبان بهتر است؟ در تحقيقات در بازيابي اطلعات داريم كه كلمات زبان طبيعي به ميزان بسيار زيادي در يك زمينه بطور همزمان با هم در يك سند رخ ميدهند ] .[14به نظر ميرسد بعضي از كلمات با هم ،در اسناد از يك نوع رخ ميدهند .يك مطالعه تجربي در ] [15نيز اين مشاهده را نشان ميدهد. بسياري از دستاوردهاي بازيابي اطلعات سعي ميكنند تا اين ساختارهاي متن را استخراج كنند ] .[14روش TSVMsاطلعات مربوط به رخداد همزمان كلمات را به عنوان دانش اوليه در مورد مساله مورد يادگيري ،استخراج ميكند.
3-2فاز آزمايش در فاز آزمايش ،عامل يادگيري تقويتي ،پيوندهاي ملقات نشده مجموعه آزمايش را بر اساس مقدار تخمين تابع Q-در يك صف اولويت قرار ميدهد .اين تابع Q-براي هر ابرپيوند ،متن اطراف پيوند را به يك مقدار اسكالر از پاداشهاي مؤخر آينده تخمين ميزند .پاداشهاي آينده آنهايي هستند كه از تعقيب آن ابرپيوند در قدمهاي بعدي بدست ميآيند. هنگامي كه يك سند از وب كپي شود ،بررسي ميشود كه آيا اين سند مرتبط به موضوع و يا از نوع خواسته شده است و يا خير(سند هدف) .در صورتي كه يك سند هدف باشد ،در انباره اسناد ذخيره ميشود تا بعداً بر روي آن پردازش و سپس شاخصبندي شود .اگر سند ،صفحه هدف نبوده و يك صفحه HTMLباشد ،پيوندهاي آن استخراج شده و هر كدام از ابرپيوندها ،بر اساس مقدار Qمتناظر رتبهبندي شده و در صف اولويت كاوش قرار ميگيرد. استراتژيهاي متفاوتي براي كاوش بكار ميروند كه بر اساس هركدام مقدار Qمتفاوتي به يك پيوند نسبت داده ميشود. در هر يك از بسترهاي آزمايش ،بخشي از دادهها بعنوان مجموعههاي آموزشي و بخشي ديگر به عنوان دادههاي آزمايش بكار گرفته شدهاند .در بستر آزمايش بخشهاي علوم كامپيوتر دانشگاهها و موضوع مورد تمركز مقالت تحقيقي علوم كامپيوتر از بين 4دانشگاه ،هر دفعه سه بخش علوم كامپيوتر به عنوان مجموعه آموزشي و ديگري به عنوان پايگاه داده مورد آزمايش بكار گرفته شدهاند.
4آزمايشات انجام شده در اين بخش ،نتايج پياده سازي و ارزيابي كاوشگرهاي يادگيري تقويتي ارائه شده است .كاوشگرهاي يادگيري تقويتي پيادهسازي شده در مقابل همديگر و روشهاي كاوش "اول سطح" وب و كاوشگرهاي متمركز قبلي ارزيابي شدهاند. نتايج پياده سازي نشان داده است كه استفاده از دسته بندي كننده ماشينهاي بردار پشتيبان در مقايسبه باد دسته بندي كننده بيز ساده ( )NBكه Coraاز آن استفاده كرده است ،منجر به بهبود كارآيي كاوشگرها در مراحل اوليه كاوش از نظر سرعت يافتن صفحات هدف و تعداد آنها دارد (شكل .)2
6
شكل -2استفاده از دسته بندي كننده SVMsدر مقايسه با NBكه Coraاز آن استفاده كرده است منجر به بهبود مي شود. همچنين مقايسه ميزان پاداش كسب شده توسط كاوشگرهاي يادگيري تقويتي در خلل كاوش نشان مي دهد كه در نيمه اول كاوش روشهايي كه از دسته بندي كننده SVMsاستفاده مي كنند به كارآيي بهتري دست مي يابند ولي در طول كل كاوش روشهاي با دسته بندي كننده NBعملكرد بهتري دارند (جدول .)1 جدول -1ده روش برتر كاوش در نيمه كاوش و در طي تمام كاوش Method 50% svm_n_4_cut_g0.3 88.481055 nb_n_4_cut_g0.3 88.36996 svm_n_5_cut_g0.5 87.5699675 svm_r_5_cut_g0.5 87.3709975 svm_r_5_five0.5 87.259045 svm_r_3_parl0.3 87.02282 nb_n_3_cut_g0.5 86.977685 nb_r_4_four0.5 86.6833625 svm_r_4_cut_g0.5 86.627875 nb_r_4_dist0.5 86.6086575
Method 100% nb_n_4_cut_g0.3 81.8159675 nb_r_3_cut_g0.5 78.3353625 nb_r_3_parl0.1 78.04647 nb_r_4_dist0.5 77.9688725 nb_r_3_parl0.3 77.94723 nb_r_4_dist0.3 77.87946 nb_n_3_cut_g0.5 77.3640475 nb_r_3_dist0.3 77.3528025 nb_r_3_cut_g0.3 77.25757 nb_r_3_cut_g0.1 77.2251675
5نتيجه گيري و تحقيقات آينده به طور كلي ،با توجه به نمودارها و جداول حاصل از نتايج پيادهسازي ،نتايج زير قابل استخراج هستند: •كاوشگرهاي متمركز يادگيري تقويتي داراي كارآيي بهتري نسبت به كاوشگرهاي متمركزي كه پاداشهاي آينده را مدل نميكنند و نيز كاوشگر "اول-سطح" -روش معمول مورد استفاده در موتورهاي جستجوي همه منظوره -هستند .مخصوصاً اين كاوشگرها مسير خود را به سمت صفحات هدف بسيار سريع مييابند و در نزديكي آن باقي مي مانند .بسياري از كاوشگرهاي يادگيري تقويتي -بويژه آنهايي كه از دستهبندي كننده ماشينهاي بردار پشتيبان استفاده ميكنند -نشان دادند كه اولين صفحه هدف را در سومين و يا چهارمين ابرپيوند تعقيب شده از پايگاه وب مييابند؛ در حاليكه روش كاوش اول سطح در سيصدمين ابرپيوند به آن رسيده و اين عدد براي كاوشگر متمركزي كه پاداشهاي آينده را مدل نمي- كند ،بين 30تا 50تغيير ميكند.
7
•ميانگينگيري بر روي نتايج حاصل از كاوشگرهاي يادگيري تقويتي كه از دستهبندي كننده ماشينهاي بردار پشتيبان استفاده ميكنند ،نشان ميدهد كه اين كاوشگرها نسبت به كاوشگرهاي يادگيري تقويتي كه از دستهبندي كننده بيز ساده استفاده ميكنند ،در نيمه اول كاوش ( 50درصد اول) كارآيي بسيار بهتري دارند .اگرچه ،بعضي از روشهايي كه دسته- بندي كننده ماشينهاي بردار پشتيبان استفاده ميكنند ،در تمام طول كاوش ( 100درصد كاوش) از خود كارآيي بهتري نشان دادهاند. •ميانگينگيري بر روي روشهاي كاوش متفاوت يادگيري تقويتي نشان داد كه پارامترهاي مختلف با مقادير زير در اين كاوشگرها به كارآيي بهتري دست مييابند (نتايج براي تمام طول كاوش 100-درصد آن -ارائه شدهاند): مقدار گاما:
1/0
تعداد دستهها:
3دسته
متن درهمسايگي:
•كاوشگرهاي
دستهبندي
با
كننده
:SVMsمتن مرتبط •كاوشگرهاي با دستهبندي كننده :NB متن نزديك بهترين روش كاوش( nb_n_4_cut_g0.3 :كاوشگري كه از دستهبندي كننده بيز ساده ،متن نزديك ،تعداد دستهها ،4 روش پايه كاوش برش مقدار و مقدار گاماي 3/0استفاده مي- كند) •استفاده از روش مكاشفهاي در كاوش (تحليل آماري ابرمتنهايي كه به صفحات هدف منجر ميشوند و استفاده از كلمات با احتمال رخداد بال در طي كاوش) منجر به بهبود كارآيي كاوش و مخصوصاً منجر به يافتن سريعتر صفحات هدف در اوايل كاوش ميباشد. آزمايشات انجام شده نشان دادكه استفاده از روش تغيير خط مشي (قسمتي از كاوش با يك روش و قسمت ديگر با روش ديگر) منجر به بهبود كارآيي كاوشگرهاي ميشود .اين تغيير خط مشي چنان صورت ميگيرد كه هر روش كاوش در قسمتي بكار گرفته شود كه از خود كارآيي بهتري نشان ميدهد. از آنجاييكه در بستر آزمايش دانشگاهها ،تعداد صفحات هدف زياد بوده و اين صفحات هدف داراي توزيع مشخصي بر روي پايگاه وب نميباشند .در بستر آزمايش شركتها (مجموعه اي از پايگاه هاي وب چند شركت) ،فقط يك صفحه هدف تعريف شده (صفحه مديران شركت) و اين بستر قادر به نشان دادن بهتر رفتار هوشمند كاوشگر يادگيري تقويتي ميباشد .اين امر به اين دليل است كه كاوشگر يادگيري تقويتي در اين بستر بايد مسير خود به سمت هدف را يافته و به صورت بهينهاي آن را بپيمايد .طبق پيشبينيهاي انجام شده ،اين آزمايشات قادر به نشان دادن كارآيي بهتر كاوشگرهاي يادگيري تقويتي كه از دستهبندي كننده SVMsاستفاده ميكنند ،در حوزههايي است كه رفتار هوشمندانه كاوشگر بيشتر مد نظر است .مطالعه رفتار كاوشگر در اين بستر آزمايش بعنوان يكي از زمينههاي تحقيقاتي آينده معرفي ميشود.
6مراجع [1] Lawrence S. and Giles C.L., Accessiblity of Information on the Web, Nature 400:107-109, July 8, 1999. [2] Page L. and Brin S., The anatomy of a large-scale hypertext web search engine, In the proceeding of the seventh International World Wide Web Conference, 1998. [3] The Web Robots Pages.
8
http://info.webcrawler.com/mak/projects/robots/robots.html. [4] Kaelbling L. P., Littman M. L., and Moore A. W., Reinforcement learning: A survey, Journal of Artificial Inteligence Research, pp. 237-285, May 1996. [5] Sutton R. S., Barto A. G., Reinformcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998. [6] McCallum A. K., Nigam K., Rennie J. and Seymore K., Automating the construction of internet portals with machine learning, In Information Retrieval, 1999. [7] Rennie J. and McCallum A., Using reinforcement learning to spider the web efficiently, In Proceedings International Conference on Machine Learning (ICML), 1999. [8] McCallum A. and Nigam K., Rennie J. and Seymore K., Building domain-specific search engines with machine learninig techniques, In AAAI-99 Spring Symposium on Intelligent Agents in Cyberspace, 1999. [9] Torgo L. and Gama J., Regression using classification algorithms, Intelligent Data Analysis, 1(4), 1997. [10] Chakrabarti S., Data mining for hypertext: A tutorial survey, SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, ACM 1(2), pages 1-11, 2000. [11] Chakrabarti S., Dom B., Agrawal R., and Raghvan P., Using taxonomy, discrimination, and signatures to navigate in text databases, IN VLDB, Athtens, Greece, Sept. 1997. [12] Chakrabarti S., Dom B., Agrawal R. and P. Raghvan, Scalable feature selection, classification and signature generation for organizing large text databases into hierarchical topic taxonomies, VLDB Journal, Aug. 1998 [13] Joachims T., Text Categorization with Support Vector Machines: Learning with Many Relevant Features, Proceedings of the European Conference on Machine Learning (ECML), Springer, 1998. [14] Joachims T., Transductive Inference for Text Classification using Support Vector Machines, Proceedings of the International Conference on Machine Learning (ICML), 1999. [15] Joachims T., A Statistical Learning Model of Text Classification with Support Vector Machines, Proceedings of the Conference on Research and Development in Information Retrieval (SIGIR), ACM, 2001. [16] Joachims T., Learning to Classify Text using Support Vector Machines, Dissertation, Kluwer, 2002.
9