تبلیغات

هيچ تا به حال از خودتان پرسيده ايد كه وقتي با يك موتورجستجوي قوي مثل گوگل ( google) كار ميكنيدو يا وارد كردن يك يا چند لغت عجيب و غريب ،گوگل كلي نتايج جالب ومرتبط ،تقديمتان مي كند، چه اتفاقي مي افتد ؟

اگر تا به حال به دنبال پاسخ اين پرسش نرفته ايد يا پاسخ مناسبي براي آن پيدا نكرده ايد،پيشنهاد مي كنيم تا آخر اين مقاله همراه ما باشيد .اگرچه الگوريتم دقيق و چگونگي كار وگوگل يا خيلي از موتورهاي جستجو ،كاملا معلوم نيست.
اماكلياتي در كار بسياري از موتورهاي جستجو مشترك ومشابه است كه دانستن آنها خالي از لطف نيست.

پيش پردازش دادها

يكي از راههايي كه موتورهاي جستجو ، براي كاهش زمان جستجو به كار مي برند ، پيش پرداش محتواي وب سايت هاست .به اين ترتيب كه وقتي كاربر درخواست يك پرس و جو را مي دهد .به جاي اين كه اين پرس وجو به ميليون ها وب سايت فرستاده شود، با داده از پيش پردازش شده در يك سايت مقايسه مي شود و مطابقت صورت مي پذيرد. پيش پردازش به كمك برنامه نرم افزاري به نام crawlerانجام مي گيرد.
Crawler ، به وسيله نگهدارنده ها و به روزكنندگان بانك هاي اطلاعاتي فرستاده مي شود تا فهرست صفحات وب را جمع آوري كند. يك برنامه ويژه رايانه اي، صفحات بازيافتي را پيمايش مي كند تا كلمات را استخراج نمايد و بعد اين كلمات همراه با لينكي به صفحه مربوط ،در فايل شاخص (index)ذخيره مي شود. پرس و جو هاي كاربران با همين فايل شاخص مقايسه و مطابقت داده مي شود ونه با ديگر وب سايت ها.

الويت بندي نتايج

Url يا لينيك هايي كه به عنوان نتايج جستجو توليد مي شوند معمولا خيلي زياد هستند ،اما همه اين نتايج به درد بخور نيستند و حتي ممكن است عواملي مثل ابهام زبان باعث شود نتايج مناسبي به كاربر داده نشود .براي فراهم كردن دسترسي سريع و در عين حال صفحات مناسب و اين كه صفحات با موضوعيت بيشتر در الويت بالاتري قرار بگيرتد ،الگوريتم هاي جستجو استراتژي هاي رتبه بندي مختلفي رابه كار مي برند .

يكي از اين روش ها كه بسيار معمول است ، tfidf(term frequency inverse document trequncy) استدر اين روش چگونگي توزيع كلمات و تكرار آنها بررسي مي شود و براي كلمات، وزن عددي توليدمي شود . اين وزن به معني درجه اهميت و اعتبار آنها در اسناد مختلف است.به اين كار وزن دهي واژه(term weighting)گفته مي شود.وزن يك واژه به 2 عامل بستگي دارد: يكي دفعات تكرار واژه كه هر چه بيشتر با شد اهميت واژه بيشتر است و ديگري تواتر اسناد كه به معني تعداد اسنادي است كه شامل آن واژه است و هر چه اين مقدار بيشتر باشد ،اهميت واژه در تمايز اسناد كمتر خواهد بود .به اين ترتيب كلماتي كه تكرار بيشتري دارند مثل or , to,withو…نسبت به كلماتي كه از نظرمعنايي مناسب ترند و از طرف ديگر در متنهاي كمتري ظاهر مي شوند ،وزن كمتري خواهند داشت ؛البته عوامل ديگري مي توانند بر وزن (اهميت)يك واژه موثر باشند .محل وقوع واژه نمادهاي خاص مثل (font) و برچسب(tag) مربوط به واژه از آن جمله اند. معمولا كلمه اي كه در عنوان يك سند باشد مهمتر از واژه هاي خود متن است. همچنين واژ ه هاي خود متن است.همچنين واژه هاي نوشته شده با قلم خاص مهمتر از كلماتي است كه بدون اين ويژگي ها باشند.

علاوه بر وزن دهي واژه ها ،صفحات وب با استراتژي هاي ديگري هم وزن مي شود؛مثلا در روش تحليل لينك(Link analysis) ماهيت هر صفحه با توجه به ارتباط آن با ديگر صفحات در نظر گرفته مي شود.به اين ترتيب وزن دهي يك صفحه با توجه به تعداد صفحاتي كه به آن صفحه اشاره مي كنند يا بعكس،تعداد صفحاتي كه آن صفحه به آنها اشاره مي كند،صورت ميپذيرد.گوگل از اين روش براي بالا بردن نتايج جستجو استفاده مي كند.

موقعيت و مسافت

اصطلاحCaching درباره موتورهاي جسجو هم كاربرد دارد. به اين ترتيب كه پرس وجو هايي كه بتازگي از سوي كاربران وارد شده ،در جايي نگهداري يا به اصطلاح Cache مي شود و پرس و جوي كاربر پس از ارسال به موتور جستجوبه كار مي رود. در واقع وقتي موتور جستجو املاي صحيح كلمه را به شما اعلام مي كند (Did you mean) از اين تكنيك بهره مي برد.
استفاده از مدل تحويل توزيع شده (distributed delivery) راه ديگري براي سرعت دادن پاسخ گويي به درخواست هاي كاربران است .در اين مدل كپي هايي از شاخص ها ومطالب مربوط توليد مي شود وبه مكان هاي جغرافيايي متعددي انتقال مي يابد .

مشكلات

همان طور كه گفتيم Crawler ها براي پيش پردازش و بازيابي صفحات به كار مي روند.بعضي Crawler ها به روش كوركورانه به بازيابي صفحات مي پردازند.روش كوركورانه به اين معني است كه به شهرت و اهميت يا به عبارتي قابل اعتماد بودن مطالب وتوليد كنندگان آنها توجهي ندارند.البته اين روش موجب شده سوء استفاده هايي در شاخص دهي و استفاده از موتورهاي جستجو صورت گيرد.يكي از اين كارها بهindex_spamming معروف است .بعضي سايت ها براي اينكه در بيشتر مواقع در نتايج جستجو قرار بگيرند و تعداد مراجعان بيشتري داشته باشند،هزاران بار لغات خاصي را در محتواي سايت خود قرار ميدهند تا از نظر موتورهاي جستجو اولويت و امتياز بيشتري را به خود اختصاص دهند.
pagejacking يكي ديگر از اين حيله هاست .اين حيله از يكي از ويژگي هاي نرم افزارهاي وب سرورها،سوء استفاده مي كند .وب سرورها براي اينكه تعداد درخواستهاي يكيان بيشتري را در يك زمان پاسخ دهند ،(مثلا چند كاربر همزمان بخواهند به يك صفحه دسترسي پيدا كنند )مطالب هر صفحه را روي چند رايانه(با نشاني هاي مختلف كه از ديد كاربر مخفي است)قرار مي دهند و درخواست كاربران را به اين رايانه ها هدايت مي كنند .بعضي سايت ها از اين ويژگي نرم افزار استفاده و محتواي صفحات يك سايت را كپي مي كنند و در سايت خود قرار مي دهند . اين صفحات هم به وسيله موتورهاي جستجو ،شاخص دهي مي شود و در خواست بعضي كاربران به جاي صفحه اصلي به اين صفحات تقلبي ارجاع داده مي شوند .به اين ترتيب يك موتور جستجوي خوب علاوه بر جستجو و سرويس دهي خوب به كاربر بايد توانايي تشخيص جمله هاي اينترنتي را هم داشته باشد تا بتواند بهترين و صحيح ترين نتايج ممكن را در اختيار كاربران قرار دهد.

نظر خود را بنویسید

لطفا نظر خود را بنویسید
لطفا نام خود را وارد کنید