همه چیز درباره موتورهای جستجوگر(Web Search Engine)
در دنیای تکنولوژی، به هر سیستمی که در میان حجم زیادی از اطلاعات، دادههای مشخصی را جستجو کند، موتور جستجو گفته میشود.
اما آنچه امروزه معمولاً به نام موتور جستجو میشنویم، خلاصه شدهی عبارت موتور جستجوی وب یا Web Search Engine است که به دلیل فراگیر شدن آن، به شکل کوتاه شدهی موتور جستجو مورد استفاده قرار میگیرد.
با گسترش دنیای وب و افزایش غیرقابل تصور تولید محتوا، اهمیت موتورهای جستجو بیشتر از قبل شد و میبینیم که امروز، موتور جستجوی گوگل به عنوان برترین موتور جستجوی فعلی در جهان، یکی از بزرگترین نهادهای اقتصادی دنیا محسوب میشود.
شاید در همان لحظهی اول با شنیدن عبارت موتور جستجو، نام گوگل در ذهن شما تداعی شود. گوگل آنقدر در زمینهی جستجو شناختهشده است که نام این کمپانی به عنوان کلمهای با معنای جستجو کردن، وارد فرهنگ لغات شده است. اما موتورهای جستجو به گوگل خلاصه نمیشود؛ یاهو،بینگ، Ask و… از جمله مشهورترین موتورهای جستجوگر هستند که روزانه بارها و بارها انواع کلمات و عبارات در آنها جستجو میشود. مدل دیگری از موتورهای جستجو که با عنوان موتورهای جستجوی بومی شناخته میشوند، نیز در چند سال اخیر به شدت مورد استقبال قرار گرفتهاند که از میان آنها، میتوان به جستجوگر "بایدو" در چین، "سزنم" در جمهوری چک و "نیور" کرهجنوبی اشاره کرد. جستجوگرهای بومی با توجه به دانش زیاد خود از فرهنگ و رفتار مردم منطقه و کشور خود، با سرویسهای متنوع و بهینهسازیهای لازم، قدرت بیشتری در ارائهی قابلیتهای متنوع و مورد نیاز کاربران بومی خود دارند.
بهطور کلی، موتورهایجستجو در دو دسته قرار میگیرند: 1- موتورهای جستجوی پیمایشی(خودکار)
2- فهرستهای تکمیل دستی.
۱- موتورهای جستجوی پیمایشی( Crawler-Based Search Engines)
این نوع از موتورهای جستجو از روش Web Crawling یا خزش استفاده میکنند که از سه بخش اصلی زیر تشکیل شدهاند:
1-1-کرالر یا خزنده(Crawler)
قبل از آنکه کرالر را توضیح دهیم بهتر است با مفهوم اسپایدر آشنا شویم. ربات( Spider اسپایدر) یا عنکبوت وظیفهی مراجعه و بازدید از تمامی صفحات وب، خواندن محتوای صفحات و دنبال کردن لینکها و درنهایت جمعآوری اطلاعات مورد نیاز را بر عهده دارد.
اما کرالر، خزنده یا پیمایشگر در حکم یک فرمانده برای اسپایدر است و در واقع به اسپایدر دستور میدهد تا از کدام منابع و صفحات بازدید کرده و چه اطلاعاتی را جمعآوری کند. شما به عنوان دارندهی یک سایت میتوانید با استفاده از یک سری پروتکلها، میزان دسترسی موتور جستجو به وبسایت خود را تنظیم و کنترل کنید. به فرایند خزش در صفحات وب Crawling گفته میشود.
1-2- فهرست کننده(Indexer )
پس از اینکه عملیات جمعآوری اطلاعات توسط اسپایدر به پایان رسید ( البته این عملیات با توجه به ماهیت در حال توسعه و گسترش وب هیچگاه به پایان نخواهد رسید)، پیمایشگر اطلاعات را به المان دوم یعنی Indexer تحویل میدهد. ایندکسر اطلاعات ارسالی را تجزیه و تحلیل کرده و طبقهبندی میکند. عملیات تجزیه و تحلیل بدین صورت است که بر اساس تکنیکهای خاص مشخص میشود اطلاعات از کدام صفحه ارسال شدهاست، همچنین میزان حجم اطلاعات صفحه و تعداد کلمات و تکرار و مکان آنها در صفحه و … معین میگردد. در واقع، ایندکسر مانند کتاب بسیار بزرگی است که لیست یا فهرستی از تمامی صفحات وب که توسط اسپایدر پیدا شده، داخل آن موجود است. اگر این صفحات تغییر کند، کتاب شما با محتوا و اطلاعات جدید بهروز میشود.
1-3- نرمافزار موتورجستجو
اما المان سوم، نرمافزار موتورجستجو است. این نرمافزار، برنامهای است که میلیونها صفحهی بایگانیشده در ایندکسر را گروهبندی و بر اساس معیارهای مرتبط با جستجوی کاربر و اهمیت، رتبهبندی میکند و نتیجهی نهایی را به کاربر نشان میدهد. در حقیقت نرمافزار موتور جستجو از دوبخش بانک اطلاعاتی و سیستم رتبهبندی تشکیل شده است.
بانک اطلاعاتی، کلیه ورودیها از سوی ایندکسر را دریافت کرده، گروهبندی و کدگذاری کرده و به صورت فشرده شده ذخیره میکند. موتورهای جستجو معمولا بانک اطلاعاتی یا دیتابیس بسیار بزرگی دارند.
در این مرحله موتورجستجو آمادهی پاسخگویی به کاربر است و سیستم رتبهبندی وارد میدان میشود. پس از وارد شدن عبارت مدنظر کاربر در جعبهی جستجو و فشردن کلید Enter توسط کاربر، سیستم رتبهبندی موتورجستجو برای پاسخگویی، نتایج یافت شده در بانک اطلاعاتی خود را براساس بیشترین رابطه با عبارت یا کلمهی جستجو شده تا کمترین ارتباط مرتب کرده و به کاربر نمایش میدهد. البته در این بین، موارد مهمی وجود دارد که باعث میشود نتایج در رتبههای بالاتری قرار گیرند.
اینجاست که تفاوت اصلی موتورهای جستجوگر مختلف نمایان میشود؛ سیستم رتبهبندی یک عامل حیاتی برای جستجوگر است. هر جستجوگر از قوانین و الگوریتمهای خاص و ویژهی خود استفاده میکند و نتایج جستجو را به کاربر نشان میدهد. به همین علت است که با جستجوی یک کلمهی یکسان در موتورهای جستجوی مختلف به نتایج جستجوی متفاوتی دست مییابیم.
موتورهای جستجویی که از روش خزش استفاده میکنند، معمولا مشخصات مشابهی دارند و بیشتر تفاوتها آنها، در نحوهی به کارگیری و تقویت سه المان فوق است. پارسیجو از جمله موتورهای جستجویی است که همانند گوگل و خیلی دیگر از جستجوگرهای محبوب از روش خزش استفاده میکند و هرگاه تغییری در صفحات مورد نظر داده شود، این تغییرات را پیدا میکند. در این حالت عنوان صفحه، کپی بدنهی متن و المانهای دیگر نقش اساسی ایفا میکنند. تصور کنید تمامی مراحل جستجو در پارسیجو، در کسری از ثانیه انجام میشود.
۲- فهرست تکمیل دستی( Human-Powered Directories )
در این روش، موتورهای جستجو به سراغ دایرکتوریهای دستساز یا فهرست دستی میروند که به عنوان نمونه میتوان به Open Directory مثل Dzom اشاره کرد. این دایرکتوریها براساس ورودیهای افراد، فهرست میشوند و امکان ارائهی توضیحات مختصر برای هر سایت وارد شده در دایرکتوری وجود دارد. در این حالت، جستجو تنها بر روی توضیحات ارائهشده انجام میگیرد. تغییراتی که در صفحات وب انجام میشود، روی فهرستبندی نتایج تاثیری ندارد. معمولا مواردی که برای انجام جستجوی بهتر و فهرست بندی دقیقتر نتایج در جستجوی مبتنی بر خزش مفید واقع میشود، تاثیر مثبتی روی جستجوی دایرکتوریها ندارد. تنها تفاوت اینجاست که یک سایت خوب با محتوای خوب و مناسب نسبت به یک سایت ضعیف، بهتر ارزیابی میشود.
۳- موتورهای جستجوی هیبریدی یا نتایج ترکیبی
البته اوایل زمانی که دنیای وب و اینترنت مرسوم شده بود، نتایج جستجوها به صورت مجزا، براساس روش خزش یا فهرستبندی دایرکتوریهای شخصی به دست میآمد. ولی در دنیای امروز، از هر دو روش برای ارائه بهتر نتیجهی عبارت جستجو شده استفاده میشود که در این صورت موتور جستجو را هیبریدی مینامیم.
نحوه دیده شدن صفحات در موتورهای جستجو
اما موتورهای جستجو برای اینکه بتوانند در سریعترین زمان ممکن نتایج جستجو را در اختیار کاربران قرار دهند، از روشهای مختلفی استفاده میکنند. به طور کلی سه روش مهم برای ارائه نتایج کاربردی در سریعترین زمان مورد استفاده قرار میگیرد:
1.در حالت اول، موتورهای جستجو با استفاده از رباتهای خود به سراغ عناوین مطالب، کلمات به کار رفته در تیتر یا لینکهای موجود در متن میروند. کلمات مهم به کار رفته، به کلماتی گفته میشود که در یک صفحه از مطلب، شاید در حدود ۱۰۰ بار تکرار شدهاند. البته برخی از موتورهای جستجو برای این کار ممکن است چند خط ابتدایی مطلب را نگاه میکنند.
2.اما در حالت دوم، موتورهای جستجو تمامی کلمات را مورد بررسی قرار میدهند و حتی حروف اضافه یا حروف ربط مانند «و، از، در، …» نیز از دید آنها پنهان نمیماند. البته در این حالت نیز بررسی کلمات کلیدی اهمیت زیادی دارد. از جمله موتورهای جستجو که از این روش بهره میگیرند، میتوان به آلتاویستا ( AltaVista ) اشاره کرد.
3.در حالت سوم، به اهمیت متاتگها میپردازیم. موتورهای جستجو برای فهرست کردن نتایج جستجو سراغ نکات کلیدی میروند. متاتگها که دربرگیرندهی کلمات مهم و توضیح مختصر دربارهی محتوای اصلی صفحه هستند، بسیار مورد توجه موتورهای جستجو قرار میگیرند. البته برخی از مدیران یا سازندگان صفحات وب با ترفندهایی تلاش میکنند با بهرهگیری از مطالب کپی شده یا کلمات کلیدی پر کاربرد، مطلب خود را در صفحات اول موتورهای جستجو در رتبههای بالا قرار دهند؛ غافل از اینکه موتورهای جستجو با استفاده از روشهای پیچیدهی خود، میتوانند کلمات پرکاربرد را با محتوای صفحات وب مطابقت دهند.
اینجاست که به اهمیت کلمات کلیدی، متاتگ، توضیحات یا دیسکریپشن، تیتر و در مجموع موضوع سئو پی میبریم که تا چه اندازه میتواند در نتایج جستجو موثر باشد.
معماری موتورهای جستجو
موتور جستجو در واقع برنامه ای است که ضمن غربال سازی انبوه میلیونی صفحات وب، آنها را در یک نمایه یا پایگاه اطلاعاتی ذخیره کرده و سپس اقدام به مقایسه و تطبیق در خواست جستجو با این صفحات می کند. پس از آن بر اساس ساز و کار رتبه بندی، صفحات یا مدارک بازیابی شده را به طور رتبه بندی شده در اختیار جستجو گر قرار می دهد. موتور جستجو دارای اجزای اساسی زیر است:
۱ - روبات خزنده و جمع آوری کننده اطلاعات: این بخش در واقع یک روبات نرم افزاری به نام عنکبوت یا خزنده وب است که به طور مرتب وب را مرور می کند، سایت ها را بازدید، آنها را می خواند و پیوندهای درون سایت و همچنین پیوند آن با سایت های دیگر را بررسی می کند. روبات سپس اطلاعات سایت را جمع آوری و به موتور جستجو گزارش می دهد. این فعالیت بر اساس برنامه منظم زمانی به صورت پیوسته ادامه می یابد و روبات سایت ها را به طور مکرر و منظم بازدید و تغییرات را گزارش می دهد.
۲ - برنامه نمایه ساز و پایگاه اطلاعاتی: بر اساس داده های گزارش شده به موتور جستجو نمایه های حجیم یا پایگاه های اطلاعاتی در موتور جستجو ایجاد می شود. این نمایه ها یا پایگاه اطلاعاتی اساس کار موتور جستجو در رتبه بندی نتایج جستجو و ترکیب منطقی واژه ها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشکیل می دهد.
۳ - نرم افزار جستجو و رتبه بندی اطلاعات: پس از اینکه تقاضای کاربر به موتور جستجو عرضه شد این بخش ابتدا پایگاه اطلاعاتی موتور جستجو را مورد جستجو قرار داده و تمام صفحات مرتبط با تقاضای کاربر را شناسایی و مشخص می کند. سپس بر اساس قواعد و الگوریتم های رتبه بندی اقدام به الویت بندی نتایج بازیابی شده در پیوند با در خواست کاربر می کند و مدارک را بر مبنای اهمیت و رتبه نسبی ارائه می دهد. روبات بر مبنای راهبرد بازیابی صفحات ممکن است دید متفاوتی به منابع وب داشته باشد. بطوری که می تواند عرض نگر باشد که در این صورت فقط صفحات بی واسطه از تمامی صفحات ذخیره شده بازیابی می شوند و یا می تواند عمق نگر باشد که در اینصورت در انتخاب صفحات ذخیره شده همه صفحات وابسته تا آخرین سطح موجود بازیابی می شوند .
از جمله شیوه های تقسیم بندی موتورها، روش جستجوی مطالب می باشد:
الف) موتورهای دارای فهرست راهنمای موضوعی: این جستجو گرها دارای فهرست موضوعی خاص خود می باشند. با کلیک کردن بر هر موضوع شاخه های زیر مجموعه آن موضوع در اختیار کاربر قرار می گیرد و به همین ترتیب تا دقیق ترین سایت های مربوط به موضوع مورد جستجو مشخص شوند.
ب) موتورهای کلید واژه ای: این جستجو گرها دارای کادر مشخصی برای تایپ کلمه یا عبارت مورد جستجو هستند. کاربران با تایپ عبارت مربوط به موضوع از طریق موتور جستجو، کلیه سایت ها و صفحاتی راکه آن کلمه یا عبارت را در بر دارند بازیابی می کنند. این موتورها با سرعت زیاد، حجم انبوهی از منابع مرتبط با موضوع مشخص شده را به ترتیب ارائه می کنند. این موتورها به دلیل دقیق و تخصصی نبودن سایت های بازیابی شده، معمولا برای جستجوی عمومی یک موضوع خاص مورد استفاده قرار می گیرند.
موتورهای جستجوی عمومی:
Google http://www.google.com . 1
این موتور جستجو در سال ۱۹۹۴ ایجاد شده و حدود یک و نیم میلیارد صفحه وب را شاخص گذاری کرده است . این موتور جستجو وب سایت ها، اخبار، مدارک تصویری، امکانات (Pdf) را بازیابی می کند. دارای جستجوی ساده و پیشرفته است . از امکانات و ویژگی های این موتور می توان به موارد ذیل اشاره کرد:
1-کلید واژه های موجود در فرمول جستجوی کاربر به صورت پیش فرض با یکدیگر AND می شوند. این واژه های کلیدی با توجه به مجاورتشان مورد جستجو قرار می گیرند، ولی امکان کوته سازی در این موتور جستجو وجود ندارد.
2-این موتور جستجو دارای کامل ترین و قوی ترین تکنولوژی جستجو از Hiring Planet Google است.
این موتور جستجو یک موتور جستجوی تخصصی نیز محسوب می شود، حدود یک و نیم میلیون صفحۀ اطلاعاتی را شاخص گذاری کرده است که از این میان بیش از سیصد هزار صفحه مربوط به مسائل آموزشی و موضوعات تخصصی علمی است. علاوه بر جستجوی کلید واژه ای دارای راهبرد جستجوی موضوعی است که در آن اطلاعات منابع تحت پوشش به صورت طبقه بندی ارائه می شوند. نتایج جستجو به صورت رتبه بندی شده همراه چکیده ای از محتوای سایت ها عرضه می شود . این موتور جزو موتورهای جستجوی مفهومی است.
Yahoo http://www.yahoo.com . 2
این موتور جستجو از نوع موتورهای جستجوی راهنمای موضوعی (subject directory) است . این موتور جستجو از شگفتی های اینترنت است. این سایت در ژانویه سال ۱۹۹۴ توسط دو دانشجوی دوره تحصیلات تکمیلی دانشگاه کالیفرنیا آغاز به فعالیت کرد. جری یانگ و دیوید فلو این پایگاه را جهت گردآوری اطلاعات مورد نیاز برای پایان نامه شخصی خود ایجاد کردند، اما به تدریج یک راهنمای قوی تجاری _ تبلیغاتی مطرح شد. yahoo کلمه اختصاری عبارت Yet Another Hierarchically Officious Oracle است. یاهو به عنوان شناخته ترین موتورهای جستجوی موضوی به شیوۀ سلسله مراتبی یا درختی طراحی شده است. دارای رده های اصلی و فرعی موضوعی است و جستجو به صورت تقسیمات موضوعی _ از موضوعات کلی تر به موضوعات جزئی و جزئی تر امکان پذیر است. به علاوه برای تسهیل بازیابی امکان جستجوی کلید واژه ای از موضوعات را نیز در اختیار می گذارد. این موتور جستجو که از نوع موتورهای جستجوی راهنما (Directory) است، پر استفاده ترین و رایج ترین موتور جستجو می باشد .
این سایت دو هدف متضاد و جالب را دنبال می کند: جذب هرچه بیشتر کاربران به استفاده از امکانات جستجو و امکانات جنبی سایت و همچنین جمع آوری اطلاعات و ارجاع هرچه سریع تر کاربران به سایت های دیگر. از ویژگی های جالب توجه یاهو سرعت عمل آن است.
از ویژگی ها و امکانات سایت می توان به موارد ذیر اشاره کرد:
1-امکان استفاده از خدمات خنبی مانند Email رایگان، chat، آلبوم عکس، صفحات شخصی، پیام رسانی فوری و …
2-قابلیت استفاده از عملگرهای بولی AND و OR
3-توانایی انتخاب تعداد نتایج جستجو شده در هر صفحه
4-امکان تفکیک اطلاعات جستجو شده بر حسب ناحیۀ جغرافیایی
5-امکان استفاده از روش جستجوی ساده یا هوشمند
6-این موتور هنگام جستجوی هر کلمه کلیدی، اطلاعاتی در مورد دیگر لغات و عبارات مرتبط با لغت کلیدی تایپ شده ارائه می کند.
AltaVista http://www.altavista.com .3
آلتاویستا یکی از جامعترین موتورهای جستجو در وب است که امکان جستجو در صفحات و گروه های خبری را فراهم آورده است. این موتور جستجو هر صفحه از یک سایت را به منزلۀ یک مدرک در نظر می گیرد و واژه های نمایه سازی را از هر صفحه ای بر می گزیند. بر این اساس واژه های بسیاری نمایه سازی می شوند. این شیوه موجب می شوددر برخی جستجوها منابع یا مدارک زیادی بازیابی شوند، به عبارت دیگر از ضریب بازیافت بسیار بالایی برخوردار است . این موتور در سال ۱۹۹۵ به وجود آمد و هم اکنون بیش از ۲۶۰ میلیون صفحه اطلاعاتی را مورد بررسی قرار می دهد. در سال ۱۹۹۷ این موتور با استفاده از یک برنامه مترجم، امکان خواندن اطلاعات کلیه صفحات وب را به زبان انگلیسی فراهم آورد. این جستجوگر امکان جستجوی صفحات وب و گروه های خبری یوزنت را نیز فراهم کرده است. در این سایت امکان بررسی نتایج حاصل از جستجو به سه شکل استاندارد، فشرده و جامع وجود دارد. این سایت امکان جستجوی ساده و پیشرفته را فراهم می کند.جستجوی پیشرفته علاوه بر امکانات جستجوی ساده، امکان استفاده از عملگرهای بولین، عملگرهای مجاورت، گروه بندی واژه های جستجو و مرتب نمودن نتایج جستجو را بر حسب لغات کلیدی فراهم می کند . برای رتبه بندی میزان ارتباط منابع بازیابی شده، با فرمول جستجو باید از گزینۀ جستجوی پیشرفته استفاده کرد. استفاده از امکان refine در این پایگاه جستجو باعث می شود که نتایج جستجو به طور خودکار مورد پالایش قرار گرفته و در قالب موضوعات مختلف مرتبط با کلید واژه های مورد جستجو طبقه بندی گردند. این موتور جستجو دارای دو شیوه جستجوی ساده و پیشرفته است. در جستجوی ساده چنانچه چند واژه بدون ترکیب منطقی وارد شوند موتور جستجو پیش فرض بولی OR را اجرا خواهد کرد. این موتور جستجو همچنین خدمات ترجمه خودکار را به یاری نرم افزار SYSTRAN عرضه می کند .
موتور جستجوی Altavista برای جستجوی موارد ذیل پیشنهاد می شود:
الف: جستجوی نام اشخاص، مکان ها، اشیاء، عبارات و واژگان
ب: جستجوی تصاویر، موسیقی، انواع رسانه ها و فایل های گرافیکی
ج: جستجو در حوزه های تحقیقاتی و علمی
د: جستجو در حوزه های خاص
ویژگی های و امکانات این شبکه عبارتند از:
1-موتور جستجوی Altavista دارای بزرگترین و بیشترین تعداد عناوین موضوعی است که امکان دستیابی دقیق به نتایج را فراهم می کند.
2-این موتور امکان ترجمه متون مختلف را از یک زبان به زبان دیگر فراهم می کند.
3-در این سایت امکان جستجوی مطالب به سی و دو زبان وجود دارد.
4-موتور جستجوی Altavista از قوی ترین موتورهای جستجو در حوزۀ علوم پایه، علوم پزشکی، علوم فنی و مهندسی و هنر است.
5-این موتور نسبت به کوچک و بزرگ بودن حروف تایپ شده حساسیت دارد و نتایج مختلفی را ارائه می دهد.
6-در این موتور می توان همزمان چند واژه یا عنوان را انتخاب کرد و نتایج حاصل را طبقه بندی کرد.
موتور جستجوی Altavista هم جزو موتورهای جستجوی عمومی و هم تخصصی است. موتور جستجوی عمومی فوق بیشترین قدرت پوشش و امکانات را در حوزۀ علوم پایه پزشکی و علوم پزشکی و پیرا پزشکی دارد .
Alltheweb http://www.Alltheweb.com .4
یک موتور جستجوی قوی که اغلب سایت های وب را پوشش می دهد. این موتور جستجو بسیار شبیه google است. این جستجوگر به شما کمک می کند تا اخبار، عکس ها و تصاویر، گروه های خبری و رسانه ای، موسیقی، نرم افزارها و فایل های FTP را جستجو کنید .
Askjeeves http://www.Askjeeves.com . 5
این سایت جستجو برای پاسخ به سوالات مختلف کاربران تهیه شده است. شما می توانید سؤال، عبارت یا واژۀ خاصی را تایپ کنید و کلیه اطلاعات مربوط به آن را در فضای وب جستجو کنید. این موتور موضوعات متنوعی را در زمینه های علوم پایه، منابع رسانه ای، اخبار، جامعه و فرهنگ، سرگرمی و تفریح، خانواده، مسائل مربوط به خانه، سلامت و بهداشت، بیماری و درمان، خرید و فروش، اقتصاد و تجارت، هنر، موسیقی، نرم افزار، اینترنت، ورزش و… پوشش می دهد. این موتور همچنین اطلاعات جامعی درباره چگونگی اتصال به شبکه های مختلف ارائه می کند. از ویژگی های جالب توجه این جستجوگر امکان جستجوی اختصاصی برای کودکان و نوجوانان، امکان خرید از طریق این سایت و امکان جستجوی اختصاصی در سایت های انگلستان است .