Дослідження пошукових систем

От

12.04.2020

751

Щоб успішно просувати сайт в пошукових системах, необхідно розуміти, як вони працюють. Алгоритми пошуковиків ретельно приховуються їх власниками. Звідки ж можна брати інформацію про те, як функціонує пошуковик?

Пошукові системи виникли не спонтанно, а на основі великих напрацювань в області пошуку інформації (дисципліна «Information Retrieval»). Тому більшість базових алгоритмів опубліковано в наукових роботах, і пошукові системи використовують їх з невеликими варіаціями в своїх програмах. Співробітники пошукачів нерідко розповідають про подробиці інтерв’ю або на спеціалізованих форумах. Фахівці з просування сайту, спілкуючись на форумах, дають багато корисних порад.

Але читання форумів і наукових статей — не єдиний метод. Пошуковики можна досліджувати та експериментувати з ними. Найпростіший спосіб — вивчення коду сторінок, які потрапляють у верхні 10 результатів пошуку.

Що у них спільного? Ця сторінка не по темі змогла пробитися нагору? Чому була видана саме ця сторінка сайту?

Знайдені відповіді прояснить картину і привідкриють деталі використовуваного алгоритму. Новачки іноді намагаються відшукати магічний відсоток ключових слів в тексті або «правильну» довжину заголовка, усереднюючи дані сторінок, що стоять на перших місцях. Але отримані числа нагадують не філософський камінь, а знаряддя пролетаріату, кругляк.

Справа в тому, що всі фактори ранжирування (а їх десятки) використовуються у взаємозв’язку, і тому вивчення одного з них без урахування решти не дає ніякої корисної інформації. Застосування методів багатовимірного статистичного аналізу може полегшити завдання, але це тема окремої великої розповіді.
Іноді прояснити картину може експеримент. Створивши десяток сторінок з різною щільністю ключових слів і розташувавши їх на нових тільки що створених доменах (щоб виключити вплив сторонніх факторів), в результатах пошуку можна побачити, яка з сторінок виявиться вище за обраним запитом. Здавалося б, чарівний ключ знайдено, але це не так. Хто сказав, що оптимальна щільність ключових слів однакова для різних запитів, для сторінок різної довжини? А поставити експерименти з урахуванням усіх факторів в розумні терміни неможливо.
Доводиться знову повертатися до досліджень.

Я дам пару рекомендацій щодо розкриття алгоритмів.
По-перше, вивчайте роботу конкретного алгоритму, а не шукайте всю «формулу релевантності» відразу. По-друге, шукайте такі приклади запитів і відповідних їм сторінок, де досліджуваний алгоритм проявляється в максимально чистому вигляді.
Наприклад, вас цікавить вплив ваги сайту по алгоритму PageRank на пошук. Як виключити інші чинники? Знайдіть сторінки з дуже схожим текстом (повністю дублюють не можна, щоб Google не виключив одну з них з пошуку). Виберіть з тексту таке ключове слово, яке було б однаково оформлено в обох варіантах, містилося в одних і тих же елементах сторінок (заголовок, текст, мета-теги). Слово (або словосполучення) має бути досить рідким, щоб не довелося шукати сторінки серед мільйонів інших, але при цьому досить популярним, щоб результати не були видані тільки ці дві сторінки. І т. д. Введіть запит і порівняйте позиції в результатах пошуку. Чим ближче вони виявляться, тим менше вплив PageRank по даному запиту. Повторіть подібний пошук з десятком інших пар сторінок, щоб виключити випадкові фактори. Порівнюючи отримані результати, можна зробити висновки про те, наскільки важливий той чи інший фактор і в яких випадках він застосовується.
Найголовніше, не забувайте думати.

Пошуковики застосовують ті чи інші чинники не для краси формули, а щоб результати пошуку були краще. Ефективність пошуку
прийнято оцінювати за двома основними критеріями: повноті та точності. Чим більше відсоток релевантних (відповідних запитом) документів серед усіх знайдених, тим вище точність. Чим більше відсоток числа знайдених документів серед усіх документів, що зберігаються у базі пошуковика, тим краще повнота. Конкретну реалізацію алгоритму оцінюють ще за ресурсоємності пошуку, як з точки зору обсягу збережених даних, так і з точки зору витрат машинного часу. Тільки якщо виявлений фактор ранжування або його деталі можуть покращити ці показники, не викликавши різке збільшення потреби в ресурсах, вони правдоподібні.

Отже, методи вивчення алгоритмів пошуковиків зводяться до наступного:
читання наукових статей про алгоритмах пошуку та спеціалізованих форумів;
вивчення сторінок з верхівки результатів пошуку;
дослідження конкретного алгоритму в максимально чистому вигляді;
застосування статистичного аналізу;
перевірка виявлених залежностей на поліпшення повноти, точності або зниження ресурсоємності.