Основа вашої впевненості в тому, що сайт з’явиться в індексному базі пошукової системи, це «успішний» програмний код. Зрештою, якщо робот не може проіндексувати ваших сторінок, тоді пошуковик не може включити його в свою пошукову базу.

На жаль, безліч web-сайтів використовують технології або архітектуру, роблять їх ворожими по відношенню до павуків (crawler) пошукової системи. Робот пошукової системи насправді, всього лише автоматичний web-броузер, який повинен інтерпретувати HTML код вашої сторінки, так само, як і звичайний броузер.

Але пошукові роботи дивовижні тугодуми. Більшість просунутих пошуковиків, як вважають багато хто, досягли розвитку близького до версії 2.0 web-броузера. Це означає, що павук не може розуміти безліч web-технологій і не може читати деякі сторінки. Це особливо завдає шкоди, якщо саме ці частини включають деякі, або всі посилання на вашій сторінці. Якщо павук не може прочитати ваші посилання — він не може пройтися по всіх сторінок проекту.

Будучи консультантом з маркетингу пошукових систем, мене часто просили оцінити нові сайти незабаром після їх запуску. Оптимізацією під пошукові системи часто нехтують під час процесу розробки. В цей час дизайнери сфокусовані на переходів, зручність і бренду. В результаті, безліч сайтів запускаються з вже вбудованими проблемами. А виправити ці проблеми набагато важче, ніж не зробити їх на стадії проектування.

І лише тоді, коли сайт не з’являється в списках пошукача, багато компаній звертаються до SEO.

В цьому їм соромно зізнатися, оскільки для малого бізнесу пошукові машини чи не найважливіший джерело трафіку. Майже 85% користувачів інтернету шукають сайти через пошукові системи. Цінність web-сайту, не дружнього пошуковикам значно падає.

У цій статті я дам огляд деяких ключових моментів, які можуть перешкоджати роботу пошуковика індексувати ваше дітище. Даний список у жодному разі не є вичерпним, але він може виділити найбільш загальні моменти, які будуть утримувати павуків від індексування вашого сайту.

Посилання, написані на JavaScript

JavaScript — прекрасна технологія, але невидима для всіх пошукових машин. Якщо для контролю навігації вашого сайту ви використовуєте JavaScript, у павуків можуть бути серйозні проблеми з індексуванням скриптів.

Схоже, що посилання, написані на JavaScript, ігноруються пошуковими роботами. І це вірно.

Наприклад, уявіть, що у вас є наступний скрипт, який перенаправляє користувача на певну сторінку вашого сайту:

script
language=»JavaScript»
function goToPage(page) {
window.location = «http://www.mysite.com» + page
+ «?tracking=» + trackingCode;
}
/script

Цей скрипт використовує функцію goToPage() для додавання коду напряму в кінець URLа, перш ніж відіслати відвідувачів на сторінку.

Я бачив сайти, де кожна посилання на сторінці була написана на JavaScript подібним чином. У деяких випадках JavaScript використовується для включення коду напряму, в інших — для перенаправлення користувачів на інші адреси, расположенне на сторінці. Але у всіх випадках перша сторінка сайту була єдиною, яка перебувала в індексному базі пошукової системи.

Ні один з павуків не індексує контрольний механізм на JavaScript. Навіть якби павук міг інтерпретувати даний скрипт, все одно для нього важко інтерпретувати всілякі натискання мишки, які запускають функцію goToPage() з різним кодом напрямку.

Павуки або будуть ігнорувати зміст SCRIPT-tag, або читати зміст скрипта, як ніби це видимий текст.

Як правило, краще всього уникати навігації за допомогою JavaScript.

Меню DHTML

Випадаючі меню DHTML виключно популярні при побудові навігаційної структури сайту. На жаль, вони також ворожі павукам пошукача, оскільки знову ж мають проблеми з пошуком посилань на JavaScript, що використовується при їх створенні.

Меню DHTML мають додаткову проблему в тому, що їх часто код розташований у зовнішніх файлах JavaScript. Хоча і існують вагомі причини розмістити скрипт в зовнішньому файлі, деякі павуки не підтримують цей механізм побудови посилальної структури.

Якщо ви використовуєте меню DHTML на вашому сайті і хочете, щоб переконатися, який ефект вони справляють на пошукові системи, спробуйте вимкнути JavaScript в браузері — випадає частина вашого меню зникне і є ймовірність того, що з нею зникне і верхнє меню. Хлоп! І вмить більшість сторінок вашого сайту стали недоступні. Те ж саме відбувається і у пошукових машин.

Адрес рядка

Якщо у вас динамічний сайт, який використовує такі технології, як ASP, PHP, Cold Fusion, або JSP, існує велика ймовірність того, що ваші Url включають рядок запиту наступного виду:

www.mysite.com/catalog.asp?item=320&category=23

Це може стати проблемою, оскільки багато павуки пошукових машин не індексують подібні посилання, що включають в себе рядки запиту. Це вірно навіть в тому випадку, якщо сторінка, на яку вказує посилання не містить нічого, крім стандартного HTML. URL, сам по собі, є бар’єром для павука.

Чому? Більшість пошукачів мають свідоме розроблене рішення не індексувати посилання з рядками запиту, оскільки їм потрібна додаткова запис для їх інтерпретації. Павуки містять список всіх проіндексованих сторінок і намагаються уникати повторного індексування сторінок при унікальному відвідуванні сайту. Вони роблять це, порівнюючи все нові Url зі списком тих, що вони вже бачили.

Тепер, припустимо, що павук бачить URL, подібний цьому на вашому сайті:

www.mysite.com/catalog.asp?category=23&item=320

Цей URL веде до тій же самій сторінці, як і наш перший URL, навіть не дивлячись на те, що Url не ідентичні (Зауважте, що пари ім’я/цінність в рядку запиту стоять в різному порядку).

Для визначення, що цей URL веде до тій же самій сторінці, павук повинен розділити рядок запиту і зберегти кожну пару ім’я/цінність. Потім, щоразу, коли він бачить URL з тієї ж самої траницей-батьком, йому потрібно порівняти її пари ім’я/цінність з рядками запиту всіх попередніх, наявними у файлі.

Майте на увазі, що наш приклад запиту досить невеликий, рядок запиту може бути набагато більше. Я бачила рядка запиту, що складалися з 200 символів і відносяться до дюжини різних пар ім’я/цінність.

Отже, індексування сторінок за рядками запиту означає велику невиправдану роботу для робота.

Деякі роботи, наприклад Googlebot, будуть працювати з URLами, які мають обмежену кількість пар ім’я/цінність в адресі запиту. Інші павуки будуть ігнорувати всі Url, що містять рядки запиту.

Flash-технологія

Flash це добре, набагато краще, ніж HTML. Це динамічний і гостре перевагу. На жаль, павуки використовують технологію переслідування переваг. Пам’ятайте: грубо кажучи, павук пошуковика еквівалентний версії 2.0 web-броузера. Павуки просто не в змозі інтерпретувати новітні технології, такі, як Flash.

Отже, навіть незважаючи на те, що анімація Flash може потрясти ваших відвідувачів, вона невидима пошуковикам. Якщо ви використовуєте Flash, щоб трохи прикрасити ваш сайт, але більшість ваших сторінок написані на стандартному HTML, це не стане проблемою. Але якщо ви створили сайт, використовуючи Flash, у вас будуть серйозні труднощі з його індексуванням.

Фрейми

Хіба я не згадувала, що павуки пошукових машин використовують слабку технологію? Саме так, вони на стільки низько технологічні, що також не підтримують фрейми. Якщо ви використовуєте фрейми, пошуковик зможе пройтися по вашій головній сторінці, що містить FRAME-теги. Але не зможе відшукати індивідуальні FRAME-теги, які можуть становити іншу частину вашого сайту.

В цьому випадку ви зможете, принаймні, попрацювати над проблемою, включаючи NOFRAMES на першій сторінці вашого сайту. Цей розділ вашої сторінки буде невидимий кому-небудь, використовує браузер підтримує фрейми. З іншого боку, це не заважає вам в розділі NOFRAMES розмістити вміст, яке зможуть занести в свою індексну базу пошукові системи.

Якщо ви включаєте розділ NOFRAMES, подбайте вкласти туди даний вміст. Як мінімум, ви повинні розмістити стандартні гіпертекстові посилання (A HREF), вказують на ваші індивідуальні Frame-сторінки.

Дивно, але досить часто люди включають розділ NOFRAMES, який, здавалося би говорить: «Даний сайт використовує Frame-технологію. Будь ласка, удоскональте ваш броузер». Якщо бажаєте поекспериментувати, зробіть запит в Google по фразі «requires frames.» Ви знайдете близько 160 000 сторінок, з яких включають текст «this site requires frames.»(цей сайт використовує Frame-технологію) Кожен з цих сайтів має обмежену видимість пошукачем.

З www або без www?

Адреса мого web-сайту www.keyrelevance.com але чи можуть люди зайти на його, якщо вони відкидають «WWW.» в адресному рядку? Для більшості серверних конфігурацій відповідь — «так», але деякі кажуть «ні». Переконайтеся, що ваш сайт працює як з www і без www.

Дана робота розглядає деякі з найбільш звичайних причин, які можуть послужити причиною не індексації сайту. Інші фактори, такі як спосіб створення ієрархії web-сторінок, так само вплинуть на те, скільки сторінок вашого сайту потрапить в індексну базу пошукової системи.

Кожна з цих проблем має рішення, і в майбутніх статтях я торкнуся кожної, щоб допомогти вам отримати більше проіндексованих сторінок.

Якщо в даний момент ви переробляєте ваш сайт, я хочу підбадьорити вас, щоб ви взяли до уваги ці нотатки, перш ніж вдихнете життя в сайт. Хоча кожен з цих пошукових бар’єрів може бути усунутий, краще почати з розробки, дружньої пошуковій системі, ніж лагодити сотні сторінок після запуску проекту.