دانلود پایان نامه
طی تحقیق که برین و پیچ در سال 1998 به تحلیل دقیق آناتومی گوگل پرداختند به این نتیجه رسیدند که گوگل علاوه بر نمایه سازی کلیدواژه ای کلمات متن، بر تحلیل پیوندها نیز تاکید دارد.
با وجود مخفی نگه داشتن الگوریتم موتورهای کاوش، عوامل زیر را به عنوان عوامل موثر بر رتبه بندی نتایج توسط موتورهای کاوش ذکر کرده اند.
1.ساختار ابرداده ای : چنانچه محتوای صفحه به درستی در فیلدهای ابرداده ای بازنمود شوند و موتورهای کاوش از این فیلدهای ابر داده ای در رتبه بندی و بازیابی نتایج خود بهره ببرند، مانعیت افزایش پیدا می کند به طوریکه نتایج بازیابی به سطحی قابل مدیریت کاهش می یابد. بعلاوه رتبه بندی صفحات صحت بیشتری خواهد داشت.
2. محتوای صفحه
3.وضعیت ارجاعات فرامتنی (شریف،1386)
فن آوری موتورهای جستجو
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجو اطلاعات را از پایگاه اطلاعاتی خود مورد جستجو و بازیابی قرار می دهد و اینطور نیست که همان لحظه اطلاعات را از اینترنت به دست آورد، بلکه از قبل اطلاعات را از اینترنت گرفته و در پایگاه خود ذخیره می کند.
در ابتدا مرحله گردآوری اطلاعات صفحات وب را داریم از طریق روبات های اطلاعاتی می توانیم به جستجوی مستمر و مداوم اطلاعات در صفحات وب بپردازیم. از جمله روبات های اینترنت می توانیم به اسپایدرها و روبات خزنده اشاره کنیم.
اسپایدر، اینترنت را برای اسناد جدید وب مورد جستجو قرار می دهد و آدرس های آن ها و اطلاعات مربوط به محتوا را در بانک اطلاعاتی قرار می دهد که با موتور جستجو می توان آن را در دسترسی قرار داد(هیئت مولفان و ویراستاران انتشارات میکروسافت،1382،ص 544). کار اسپایدر بازبینی کدهای اج تی ام ال صفحات وب می باشد، در حالی که کاربران وب نتیجه حاصل از کنار هم قرار گرفتن این کدها را می بینند.
در حالی که کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند و مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممکن است قبلا” برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آن ها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده هایش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل روبوت انجام می شود.
سپس اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و … . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و … . از این گونه کلمات هستند.
آنگاه داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره می شوند.یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوت های اصلی موتورهای جستجوگر در حجم پایگاه داده آن ها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
سرانجام در هنگام جستجو نرم افزار کاوش به کاربر این امکان را می دهد که از میان همه صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبه بندی می کند. در واقع نرم افزار جستجو رابط بین کاربر و اطلاعات نمایه شده است. بخشی از این نرم افزار کار رتبه بندی اطلاعات بازیافتی را انجام می دهد. (مکوندی و سعیدی 1385)
معمولا به رایی رتبه بندی دو ویژگی مهم در نظر گرفته می شود:
محل درج کلید واژه: اینکه کلید واژه در کجای صفحات وب قرار دارد. کلید واژه ای که در عنوان قرار دارد به کلید واژه های دیگر ارجحیت دارد.
تعداد تکرار (بسامد) اغلب موتورهای جستجو میزان تکرر کلیدواژه ها را نسبت به سایر واژه های موجود در صفحات وب می سنجند و واژگانی را که از بسامد بیشتری برخوردار باشند به عنوان واژگان دارای ارتباط و تناسب بیشتر معرفی می کنند. همچنین در برخی موتورهای جستجو مانند اکسایت وجود پیوندهای بیشتر در یک صفحه وب به سایر صفحات یا ایستگاه های اطلاعاتی ارجحیت دارد. (منتظر،1380)
نمایه سازی موتورهای وب
با پیدایش دنیای مجازی شاهد ظهور انقلاب دیگری تحت نام انقلاب اطلاعات هستیم. از سوی دیگر حجم انبوه اطلاعات کاربران را بر آن داشته تا به کیفیت اطلاعات بیش از کمیت آن بیندیشند. اطلاعات روز آمد، دقیق و معتبر سه ویژگی مهمی است که لازمه کار هر محقق می باشد. لذا رشد فناوری های نو ظهور، روش های جدیدی را به منظور سازماندهی اطلاعات جهت بازیابی دقیق آن به یاری می طلبد. با استفاده از روش های نوین سازماندهی، اطلاعات مفید از اطلاعات سیال و ناپایدار استخراج شده و کاربر به سهولت می تواند به اطلاعات مورد نیاز خود دسترسی پیدا کند. یکی از مهم ترین این راهکارها، نمایه سازی وب است.
نمایه وب منابعی را که از طریق شبکه جهانی وب در دسترس هستند، جمع آوری و سازماندهی می نماید و نقطه شروعی برای یافتن اطلاعات می باشد. در وب نمایه ها ممکن است به روش های گوناگونی سازماندهی شوند. شیوه سازماندهی یک نمایه با نمایه دیگر فرق می کند، نمایه ها می توانند به طور الفبایی، موضوعی (رده ای) و … سازماندهی شوند. نمایه های موضوعی اغلب منابعشان را طبق یک نظم سلسله مراتبی از اعم به اخص مرتب می کنند.. نمایه های وب برای نشان دادن لیست های منابع خود ازپیوندهای فرا متن استفاده می کنند، آن ها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند. عموما تمام نمایه ها یک نقطه اتصال دهنده مستقیم به منابع فهرست شده را به کاربران عرضه می کنند.
نمایه های وب برای نشان دادن لیست های منابع خود از پیوندهای فرا متن استفاده می کنند، آن ها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند.
دو عامل مهم در نمایه سازی وب
نمایه، یک مخزن جامع از اطلاعات در دسترس نیست اگر چه آنها می توانند هزاران منبع را فهرست کنند. در واقع نمایه های وب ما را به فهرست ها و راهنماها ارجاع می دهند. این نوع نمایه ها نیاز به یک نرم افزار و یک زبان نمایه سازی خاص دارند.
الف- زبان نمایه سازی
زبان نمایه سازی آن دسته از واژگان نمایه سازی است که در نظام خاصی از ذخیره و بازیابی مورد استفاده قرار می گیرد. “زبان ” می تواند طبیعی، یعنی زبان مدرک نمایه سازی شده باشد، یا ساختگی یا کنترل شده باشد(یعنی از نوعی تنظیم برخوردار باشد. (سلطانی، 1382، ص 180)