Введення

Одним з основних способів знайти інформацію в Internet є пошукові машини. Пошукові машини кожен день «повзають» по Мережі: вони відвідують веб-сторінки і заносять їх у гігантські бази даних. Це дозволяє користувачеві набрати деякі ключові слова, натиснути «submit» і побачити, які сторінки задовольняють його запитом.

Розуміння того, як працюють пошукові машини просто необхідно вебмайстрам. Для них життєво важлива правильна з точки зору пошукових машин структура документів і всього сервера або сайту. Без цього документи будуть недостатньо часто з’являтися у відповідь на запити користувачів до пошукової машині або навіть можуть бути не проіндексовані.

Вебмастера бажають підвищити рейтинг своїх сторінок і це зрозуміло: адже на будь-який запит до пошукової машині можуть бути видані сотні і тисячі відповідають йому посилань на документи. В більшості випадків тільки 10 перших посилань володіють достатньою релевантністю до запиту.

Природно, хочеться, щоб документ опинився в першій десятці, оскільки більшість користувачів рідко переглядає наступні за першою десяткою посилання. Іншими словами, якщо посилання на документ буде одинадцятої, то це також погано, як якщо б її не було зовсім.

Основні пошукові машини

Які з сотень пошукових машин дійсно важливі для вебмайстра? Ну, зрозуміло, широко відомі і що часто використовуються. Але при цьому слід врахувати ту аудиторію, на яку розрахований Ваш сервер. Наприклад, якщо Ваш сервер містить вузькоспеціальну інформацію про новітні методи доїння корів, то навряд чи Вам варто сподіватися на пошукові системи загального призначення. В цьому випадку я порадив би обмінятися посиланнями з Вашими колегами, які займаються подібними питаннями ? Отже, для початку визначимося з термінологією.

Існує два види інформаційних баз даних про веб-сторінках: пошукові машини і каталоги.

Пошукові машини: (spiders, crawlers) постійно досліджують Мережу з метою поповнення своїх баз даних документів. Звичайно це не потребує ніяких зусиль з боку людини. Прикладом може бути пошукова система Altavista.

Для пошукових систем досить важлива конструкція кожного документа. Велике значення мають title, meta-таги і вміст сторінки.

Каталоги: на відміну від пошукових машин в каталог інформація заноситься за ініціативою людини. Додана сторінка повинна бути жорстко прив’язана до прийнятих в каталозі категорій. Прикладом каталогу може служити Yahoo. Конструкція сторінок значення не має. Далі мова піде в основному про пошукових машинах.

Altavista

Система відкрита в грудні 1995. Належить компанії DEC. З 1996 року співпрацює з Yahoo.

Excite Search

Запущена в кінці 1995 року, система швидко розвивалася. В липні 1996 куплена Magellan, у вересні 1996 — придбана WebCrawler. Однак, обидва використовують її окремо один від одного. Можливо в майбутньому вони будуть працювати разом.

Існує в цій системі і каталог — Excite Reviews. Потрапити в цей каталог — удача, оскільки далеко не всі сайти туди заносяться. Однак інформація з цього каталогу не використовується пошуковою машиною за замовчуванням, зате є можливість перевірити її після перегляду результатів пошуку.

HotBot

Запущена в травні 1996. Належить компанії Wired. Базується на технології пошукової машини Berkeley Inktomi.

InfoSeek

Запущена трохи раніше 1995 року, широко відома, прекрасно шукає і легко доступна. В даний час «Ultrasmart/Ultraseek» містить близько 50 мільйонів URL.

Опція для пошуку за умовчанням Ultrasmart. У цьому випадку пошук здійснюється по обох каталогах. При опції Ultraseek результати запиту видаються без додаткової інформації. Воістину нова пошукова технологія також дозволяє полегшити пошуки і безліч інших особливостей, які Ви можете прочитати про InfoSeek. Існує окремий від пошукової машини каталог InfoSeek Select.

Lycos

Приблизно з травня 1994 року працює одна з найстаріших пошукових систем Lycos. Широко відома і часто використовувана. До її складу входить пошукова машина Point (працює з 1995 року) і каталог A2Z (працює з лютого 1996 року).

OpenText

Система OpenText з’явилася трохи раніше 1995 року. З червня 1996 року стала партнерствувати з Yahoo. Поступово втрачає свої позиції і незабаром перестане входити в число основних пошукових систем.

WebCrawler

Відкрита 20 квітня 1994 року як дослідницький проект Вашингтонського Університету. У березні 1995 року була придбана компанією America Online Існує каталог WebCrawler Select.

Yahoo

Найстаріший каталог Yahoo був запущений на початку 1994 року. Широко відомий, часто використовуємо і найбільш шанованим. У березні 1996 запущений ще один каталог Yahoo — Yahooligans для дітей. З’являються все нові і нові регіональні та top-каталоги Yahoo.

Оскільки Yahoo заснований на підписці користувачів, у ньому може не бути деяких сайтів. Якщо пошук за Yahoo не дав належних результатів, користувачі можуть скористатися пошуковою машиною. Це робиться дуже просто. Коли робиться запит до Yahoo, каталог переправляє його до будь-якої з основних пошукових машин. Першими посиланнями в списку задовольняють запиту адрес йдуть адреси з каталогу, а потім йдуть адреси, отримані від пошукових машин, зокрема від Altavista.

Особливості пошукових машин

Кожна пошукова машина має ряд особливостей. Ці особливості слід враховувати при виготовленні своїх сторінок.

Тип пошукової машини

«Повнотекстові пошукові машини індексують кожне слово на веб-сторінці, виключаючи лише деякі стоп-слова. «Абстрактні» пошукові машини створюють якийсь екстракт кожної сторінки.

Для вебмайстрів повнотекстової машини корисніше, оскільки будь-яке слово, що зустрічається на веб-сторінці, піддається аналізу при визначенні його релевантності до запитів користувачів. Однак для абстрактних пошукових машин може статися, що проіндексовані сторінки краще, ніж для повнотекстових. Це може виходити від алгоритму екстрагування, наприклад по частоті вживання в сторінці одних і тих же слів.

Розмір

Розмір пошукової машини визначається кількістю проіндексованих сторінок. Наприклад, у пошуковій машині з великим розміром можуть бути проіндексовані майже всі ваші сторінки, при середньому обсязі ваш сервер може бути частково проіндексований, а при малому обсязі ваші сторінки можуть взагалі не потрапити у каталоги пошукової машини.

Період оновлення

  • деякі пошукові машини відразу індексують сторінки за запитом користувача, а потім продовжують індексувати ще не проіндексовані сторінки
  • інші частіше можуть «повзати» по найбільш популярних сторінок мережі, ніж по іншим

Дата індексування документа

Деякі пошукові машини показують дату, коли був проіндексований той чи інший документ. Це допомагає користувачеві зрозуміти, який «свіжості» посилання видає пошукова система. Інші залишають користувачам лише здогадуватися про це.

Зазначені (submitted) сторінки

В ідеалі пошукові машини повинні знайти будь-які сторінки з будь-якого сервера в результаті проходу по посиланнях. Реальна картина виглядає по-іншому. Станиці серверів набагато раніше з’являються в індексах пошукових систем, якщо їх прямо вказати (Add URL).

Не зазначені (non-submitted) сторінки

Якщо хоча б одна сторінка сервера вказана, то пошукові машини обов’язково знайдуть наступні сторінки по посиланнях з зазначеної. Проте на це потрібно більше часу. Деякі машини відразу індексують весь сервер, але більшість все-таки, записавши сторінку в індекс, залишають індексування сервера на майбутнє.

Глибина індексування

Цей параметр відноситься тільки до не зазначеним сторінкам. Він показує скільки сторінок після зазначеної буде індексувати пошукова система.

Більшість великих машин не мають обмежень по глибині індексування. На практиці ж це не зовсім так. Ось кілька причин, за якими можуть бути проіндексовані не всі сторінки:

  • не дуже акуратне використання фреймових структур (без дублювання посилань керуючого (frameset) файлі)
  • використання imagemap без дублювання їх звичайними посиланнями

Підтримка фреймів

Якщо пошуковий робот не вміє працювати з фреймовыми структурами, то багато структур з кадрами будуть упущені при індексуванні.

Підтримка ImageMap

Тут приблизно та ж проблема, що і з фреймовыми структурами серверів.

Захищені паролями директорії сервера

Деякі пошукові машини можуть індексувати такі сервера, якщо їм вказати Username і Password. Навіщо це потрібно? Щоб користувачі бачили, що є на Вашому сервері. Це дозволяє як мінімум знати, що така інформація є, і, бути може, вони тоді підпишуться на Вашу інформацію.

Частота появи посилань

Основні пошукові машини можуть визначити популярність документа з того, як часто на нього посилаються з інших місць Мережі. Деякі машини на підставі таких даних роблять висновок» варто чи не варто витрачати час на індексування такого документа.

Здатність до навчання

Якщо сервер оновлюється часто, то пошукова машина частіше буде його реиндексировать, якщо рідко — рідше.

Контроль індексації

Показує, якими засобами можна керувати тією чи іншою пошуковою машиною. Всі великі пошукові машини керуються приписами файлу robots.txt. Деякі також підтримують контроль з допомогою META-тагов з самих індексованих документів.

Перенаправлення (redirect)

Деякі сайти відвідувачів перенаправляють з одного сервера на інший, і цей параметр показує якою URL буде пов’язаний з вашими документами. Це важливо, оскільки, якщо пошукова машина не відпрацьовує перенаправлення, то можуть виникнути проблеми з неіснуючими файлами.

Стоп-слова

Деякі пошукові машини не включають певні слова в свої індекси або можуть не включати ці слова на запити користувачів. Такими словами зазвичай вважаються прийменники або просто дуже часто використовуються слова. А не включають їх заради економії місця на носіях. Наприклад, Altavista ігнорує web слово і для запитів типу web developer будуть видані посилання тільки з другого слова. Існують способи уникнути подібного.

Вплив на алгоритм визначення релевантності

Пошукові машини обов’язково використовують розташування і частоту повторення ключових слів у документі. Однак, додаткові механізми збільшення ступеня релевантності для кожної машини різні. Цей параметр показує, які саме механізми існують для тієї чи іншої машини.

Spam-штрафи

Всі великі пошукові системи не люблять», коли який-небудь сайт намагається підвищити свій рейтинг шляхом, наприклад, багаторазового вказівки себе через Add URL або багаторазового згадки одного і того ж ключового слова і т. д. В більшості випадків подібні дії (spamming, stacking) караються, і рейтинг сайту навпаки падає.

Підтримка META-тагов

По ідеї, всі пошукові машини повинні враховувати метадані при індексації сторінок, однак на практиці не всі це роблять.

Title

Цей параметр показує як пошукові машини генерують заголовки посилань для користувача у відповідь на його запит.

Description

Цей параметр показує як пошукові машини генерують описи посилань для користувача у відповідь на його запит.

Перевірка статусу URL

Дуже корисна для вебмайстра риса пошукової машини — чи можна перевірити наскільки глибоко проіндексований його сервер і чи є він взагалі в індексі пошукової машини.

Видалення старих даних

Параметр, що визначає дії вебмастера при закритті сервера або переміщення його на іншу адресу. Можливі два дії: просто видалити старе зміст і переписати файл robots.txt.

  • видалення вмісту: коли пошукова машина спробує реиндексировать документи і не знайде їх, старі посилання в індексі будуть видалені. У цьому випадку все залежить від періоду оновлення даних для пошукової машини.
  • robots.txt: коли пошукова машина запросить цей файл і «побачить», що сервер весь закритий від індексації, то всі посилання на файли цього сервера будуть видалені з індексу.