Робота пошукових систем

Багатьох початківців веб-майстрів та й просто любителів інтернет-серфінгу хвилює питання: як же працюють пошукові системи? Основні принципи роботи пошукових систем сьогодні розгляне Країна порад.

Сучасна пошукова система - це цілий комплекс, що складається з найскладніших програм і алгоритмів, що працюють із запаморочливою швидкістю. Тільки уявіть, новий пошуковий алгоритм Caffeine від Google здатний обробляти інформацію, еквівалентну 3 км аркушів формату А4, всього за 1 секунду!

У всіх пошукових системах програмні компоненти можна розділити на п'ять основних груп:

«Павуки»

«Подорожують павуки»

індексатори

бази даних

системи видачі результатів

Програми-павуки - спайдери (spiders) - за алгоритмом своєї роботи нагадують браузери, але не мають будь-яких візуальних компонентів. Спайдер завантажує html-код сторінки, використовуючи протоколи http.

Запит робота на сервер включає команду«Get / path / document» і деякі інші команди http-запиту. На цей запит спайдер отримує від сервера відповідь у вигляді текстового потоку, що містить службову інформацію про документ і безпосередньо сам документ. Спайдер входить до складу модуля індексування пошукових систем.

«Мандрівний павук» - crawler - являє собою ще один компонентмодуля індексації. Crawler автоматично переходить по всіх посиланнях, які були знайдені роботом-павуком на сторінці і таким чином здійснює пошук ще невідомих пошуковій системі документів.

Робот-індексатор (Indexer) працює безпосередньо з вмістом сторінок, завантажених роботами-павуками. Індексатор проводить морфологічний, лексичний аналіз сторінок, розбиваючи їх на окремі частини.

Бази даних (Database) представляють собою спеціальні програмні засоби, призначені для зберігання зібраних і проналізованних компонентами модуля індексування документів.

Search engine results engine - система видачі результатів - один з найважливішихкомпонентів пошукової системи. Саме з системою видачі результатів має справу кінцевий користувач, який вводить запит в рядок пошуку. Система видачі результатів на підставі більше двох сотень різних критеріїв виконує відбір результатів, найбільш задовольняють мети пошуку.

Алгоритм такого відбору називають зазвичай алгоритмом або механізмом ранжирування. Щоб уникнути махінацій з боку веб-майстрів з метою вплинути на результати видачі, точний алгоритм ранжирування пошукові системи тримають у найсуворішому секреті.

Проте існує цілий ряд відомих критеріїв, які враховуються при роботі пошукових систем, оптимізуючи які, веб-майстер може «легально» впливати на результати пошуку. Так наприклад, пошукова система при аналізі сторінки враховує:

присутній ключове слово в заголовку сторінки (Title)

присутній ключове слово в URL сторінки

присутній ключове слово в заголовках H1-H6, тегах STRONG, B, EM, I

яка щільність ключових слів на сторінці (Density)

присутній ключове слів в мета-тегах: keywords, description

чи присутні на сторінці внутрішні і зовнішні посилання

Взаємодія користувача з пошуковою системою здійснюється через пошуковий сервер. Отриманий від користувача запитсервер обробляє і передає в якості вхідних параметром модулю ранжирування. У свою чергу модуль проводить обробку документів, інформація про яких зберігається в базі даних пошукової системи, і становить рейтинг сторінок, що відповідають запиту користувача.

Далі система генерує сниппет - текстову інформацію, яка показується користувачеві у вигляді SERP (Search Engine Result Page) - сторінки видачі пошукових результатів.

Таким чином, навіть короткий опис основнихпринципів роботи пошукових систем показує, наскільки тісно взаємопов'язані між собою всі програмні компоненти системи і наскільки чітко і злагоджено повинен працювати пошуковий механізм для того, щоб максимально швидко і достовірно надати користувачеві інформацію по його пошуковому запиту.