Індексація сторінок і розділів сайту пошуковими роботами Яндекс

22.04.2020

952

Введення

Кількість ресурсів, проіндексованих пошуковими системами, постійно зростає. Щоб ресурс міг потрапити в базу пошукової системи, пошуковику, як мінімум, необхідно повідомити про існування вашого ресурсу. Дізнатися про нього пошуковик може двома способами:
• якщо ви зареєструєтесь в пошуковій системі;
• або перейшовши на ваші сторінки за посиланням з ресурсів, вже проіндексованих системою.

Після цього пошуковий робот буде час від часу повертатися на ваші сторінки, оновлюючи інформацію про них. Постійна індексація ресурсу – один з найважливіших елементів у роботі пошукових систем. Від того, яким чином і в яких пошукових системах проіндексований ваш сайт, буде залежати кінцевий результат просування в тій чи іншій пошуковій системі.

Успішна індексація сайту роботами пошукових систем – це те, чого ви повинні обов’язково досягти на початковому етапі просування. Про те, якими способами добитися коректної індексації сайту, які складності можуть виникнути при підготовчій роботі, а також про те, як влаштовані пошукові системи, роботи яких будуть обробляти ваші сторінки, піде мова в даному майстер-класі.

Процес індексації ми будемо розглядати на прикладі пошукової системи Яндекс. Це цілком логічно, оскільки користувачів, які володіють російською мовою, використовують саме цю пошукову системи для пошуку необхідної інформації.

Роботи пошукової системи Яндекс

Говорячи про індексацію, перш за все, слід розповісти про те, хто її здійснює безпосередньо, тобто про роботів пошукових систем. На питання: “а що таке робот пошукової системи і що він робить?”. Яндекс відповідає наступним чином: «Робот (англ. crawler) зберігає список URL-адрес, які він може проіндексувати, і регулярно викачує відповідні їм документи. Якщо при аналізі документа робот виявляє нове посилання, він додає її в свій список. Таким чином, будь-який документ або на сайті, на який є посилання, може бути знайдений роботом, а значить, і пошуком Яндекса».

Володіючи знаннями про них, ви з легкістю зможете підготувати ваш сайт для успішної індексації. Індексація сайту відбувається наступним чином: роботи-волонтери відвідують сторінки і вносять їх вміст в базу документів, доступних для пошуку.

Яндекс з’явився в 1996 році. Але не в якості пошукової системи, а у вигляді декількох відокремлених продуктів. Наприклад, Яndex.Site – програма, що виробляє пошук на сайті, Яndex.CD – програма для пошуку документів на сd-диску.

Сама ж пошукова система виникла восени 1997 року. 23 вересня на виставці Softool Яндекс був офіційно представлений вже в якості повнофункціональної пошукової системи Інтернету. З тих пір обсяг Рунета безперервно зростав, що змушувало удосконалювати алгоритми індексування і пошуку інформації.

Тому в 1999 році був створений новий пошуковий робот, який крім значного збільшення швидкості індексації дозволив користувачам шукати інформацію по різних зонах документа – в URL, в заголовках, в посиланнях і т. п.

Зараз офіційно анонсовано 11 роботів Яндекса, кожен з яких спеціалізується на певній задачі.

1. Yandex/1.01.001 (compatible; Win16; I) – основний індексуючі робот Яндекса. Це найважливіший робот, функція якого – пошук і індексування інформації, знайденої на просторах російського Інтернету. Для всіх SEO-фахівців важливо відстежувати появу на своїх сайтах в першу чергу цього робота-індексування. Зазвичай робот заходить з наступних ip-адрес: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Тому, побачивши в логах свого сайту заповітне слово yandex, зверніть свою увагу на ip-адресу, тому як в інтернеті зараз існує достатня велика кількість сервісів тестування сайту, які дозволяють заходити на сторінки, представляючись як user agent: Yandex/1.01.001 (compatible; Win16; I) Може виявитися, що зовсім і не Яндекс відвідав Ваш сайт.

2. Yandex/1.01.001 (compatible; Win16; P) — індексатор картинок, які згодом будуть доступні в пошуку Яндекс. Картинки (http://images.yandex.ru). Для пошукової системи найпростішим шляхом визначення, чи відповідає картинка запитом користувача, є аналіз тега alt. Другий шлях, який як і перший швидше за все використовує сервіс Яндекс.Картинки – аналіз імені файлу. Наприклад, подивіться на лотоси на сторінці http://en.npftravel.ru/news/issue_117.html). Жодної згадки слова «лотос» в тілі документа, однак картинка все-таки була знайдена за запитом «лотос» завдяки тому, що файл має ім’я lotos.jpg.

3. Yandex/1.01.001 (compatible; Win16; H) – робот, який визначає дзеркала сайтів. Завдання цього робота – визначення ступеня схожості двох документів. Якщо документи дуже схожі один на одного, в результатах видачі Яндекс, швидше за все, покаже тільки один сайт, в цьому власне і полягає процес зазеркаливания. Тобто сайт-дзеркало являє собою ніщо інше, як повну копію сайту.

4. Yandex/1.03.003 (compatible; Win16; D) – робот, який визначає доступність сторінки для індексації при додаванні її через форму «Додати URL».

5. Yandex/1.03.000 (compatible; Win16; M) – робот, який відвідує сторінку при її відкритті за посиланням «Знайдені слова», нижче фрагменту.

6. YaDirectBot/1.0 (compatible; Win16; I) – робот, індексуючі сторінки сайтів, що беруть участь в рекламній мережі Яндекса.

7. Yandex/1.02.000 (compatible; Win16; F) – робот, індексуючі іконки сайтів (favicons), які потім показуються в результатах пошуку ліворуч від посилання на знайдений сайт.

Процес індексації документа

Процес індексації документа роботами пошукових систем, як правило, починається з додавання сайту в форму на спеціальній сторінці. Для Яндекса це сторінка http://webmaster.yandex.ru/. Тут потрібно ввести лише адресу сайту, жодних додаткових даних вносити не потрібно. В Рамблері, наприклад, потрібно вказувати назву сайту, дати короткий опис реєструється сайту контактна особа.

Якщо сайт додається вперше, то Яндекс видасть повідомлення:
«Адреса http://example.com/ успішно додано. По мірі обходу робота він буде проіндексований і стане доступним для пошуку».

Якщо сайт вже відвідували роботом-индексатором, то з’явиться повідомлення:
«Документ http://example.com/ вже проіндексовані і доступні для пошуку.
Ви можете подивитися, які сторінки сайту http://example.com/ доступні в Яндексі до теперішнього часу (* сторінок)».

Після додавання нового сайту через форму, його тут же відвідає робот Yandex/1.03.003 (compatible; Win16; D). Він визначить доступність сайту для індексування, а також встановити, чи задовольняє сайт вимогам Яндекса, основним з яких є «російськомовність» ресурсу. Тому, як приклад, може виникнути така ситуація:
«Адреса http://www.example.com/ не був внесений в базу Яндекса, так як сайт http://www.example.com/ знаходиться поза доменів країн СНД, при цьому наш робот не зміг розпізнати в ньому російський текст».

Якщо все добре, то в логах сайту можна буде виявити рядок:
213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET /robots.txt HTTP/1.1» 404 296 «-» «Yandex/1.03.003 (compatible; Win16; D)»
213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET / HTTP/1.1» 200 2674 «-» «Yandex/1.03.003 (compatible; Win16; D)»

Видно, що спочатку робот звернувся до файлу robots.txt (його в даному випадку просто не існує) щоб визначити, не заборонений сайт до індексації. Потім вже звернувся до головній сторінці.

Після додавання сайту на сторінці http://webmaster.yandex.ru/ менш ніж через два дні сайт відвідає робот-індексатор Yandex/1.01.001 (compatible; Win16; I). І ще через деякий час сайт буде доступний для пошуку в Яндексі.

Управління індексацією

То що Ваш сайт проиндексировался – це ще півсправи, набагато важливіше навчитися грамотно керувати індексацією. Подумайте, які б ви хотіли бачити сторінки вашого сайту у видачі пошукових систем: які з них будуть корисні користувачеві, а які з них не несуть ніякого смислового навантаження і використовуються виключно як технічна інформація, наприклад. Бажано закрити від індексації адміністративний розділ сайту, директорії /images/ (якщо вона названа таким чином), де зберігається графічна інформація. Власникам інтернет-маагазинов слід закрити службові станиці, наприклад, ті сторінки сайту, через які здійснюється безпосередня купівля того або іншого продукту і т. д. Прийнявши ці заходи, по-перше, ви будете впевнені в тому, що роботи проіндексують саме ту інформацію, яка насправді важлива, по-друге, полегшите роботу роботам, які не будуть відвідувати всі сторінки сайту.

1. Управління індексацією за допомогою файлу robots.txt
Файл robots.txt є найпопулярнішим інструмент, за допомогою якого ви зможете ефективно управляти індексацією вашого сайту. Вкрай простий в експлуатації, не вимагає спеціальних навичок. За великим рахунком, потрібен тільки для того, щоб забороняти індексацію сторінок або розділів сайту для тієї чи іншої пошукової системи.

2.Основна інформація по файлу robots.txt
Файл /robots.txt призначений для вказівки всім пошуковим роботам, як індексувати інформаційні сервера.
Синтаксис файлу дозволяє задавати заборонені області індексування, як для всіх, так і для певних роботів.
До файлу robots.txt висуваються спеціальні вимоги, невиконання яких може призвести до неправильного зчитування інформації робот пошукової системи або взагалі до недієздатності даного файлу.
Основні вимоги:
• всі літери в назві файлу повинні бути великими, тобто повинні мати нижній регістр: robots.txt – правильно, Robots.txt або ROBOTS.TXT – не правильно;
• файл robots.txt повинен створюватися в текстовому форматі. При копіюванні файлу на сайт, ftp-клієнт повинен бути налаштований на текстовий режим обміну файлами;
• файл robots.txt повинен бути розміщений в кореневому каталозі сайту.

2.1. Вміст файлу robots.txt
Файл robots.txt обов’язково включає в себе дві директиви: «User-agent» та «Disallow». Деякі пошукові системи підтримують ще і додаткові записи. Так, наприклад, пошукова система Яндекс використовує директиву «Host» для визначення основного дзеркала сайту.
Кожен запис має своє призначення і може зустрічатися кілька разів, залежно від кількості закритих від індексації сторінок або (і) директорій і кількості роботів, до яких Ви звертаєтеся.
Повністю порожній файл robots.txt еквівалентний його відсутності, що передбачає дозвіл на індексування всього сайту.
Директива «User-agent»
Запис «User-agent» повинна містити назву пошукового робота. Приклад запису «User-agent», де звернення відбувається до всіх пошукових систем без винятків і використовується символ «*»:
User-agent: *
Приклад запису «User-agent», де обіг відбувається лише на роботу пошукової системи Яндекс:
User-agent: Yandex
Робот кожної пошукової системи має свою назву. Існує два основних способи дізнатися ці назви:
1. На сайтах багатьох пошукових систем присутній спеціалізований розділ «допомога веб-майстру» (на Яндексі він теж є http://webmaster.yandex.ru/faq.xml), в якому часто вказуються назви пошукових роботів.
2. При перегляді логів веб-сервера, а саме при перегляді звернень до файлу robots.txt можна побачити безліч імен, в яких присутні назви пошукових систем або їх частину. Тому Вам залишається лише вибрати потрібне ім’я і вписати його в файл robots.txt.
Назви основних роботів популярних пошукових систем:
Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».
Директива «Disallow»
Директива «Disallow» повинна містити приписи, які вказують пошуковому роботу із запису «User-agent», які файли або (і) каталоги індексувати заборонено.
Розглянемо різні приклади запису «Disallow».
Приклад 1.Сайт повністю відкритий для індексування:
Disallow: /
Приклад 2. Для індексування заборонений файл «page.htm», який знаходиться в кореневому каталозі файл «page2.htm», розташований в директорії «dir»:
Disallow: /page.htm
Disallow: /dir/page2.htm
Приклад 3. Для індексування заборонені директорії «cgi-bin» і «forum» і, отже, весь вміст даної директорії:
Disallow: /cgi-bin/
Disallow: /forum/
Можливе закриття від індексації низки документів та (або) директорій, що починаються з одних і тих же символів, використовуючи тільки один запис «Disallow». Для цього необхідно прописати початкові однакові символи без закриває похилої риски.
Приклад 4. Для індексування заборонені директорія «dir», а так само всі файли і директорії, що починаються літерами «dir», тобто файли: «dir.htm», «direct.htm» директорії: «dir», «directory1», «directory2» і т. д:
Disallow: /dir
Деякі пошукові системи дозволяють використання регулярних виразів в запису «Disallow». Так, наприклад, пошукова система Google підтримує запис «Disallow» символи «*» (означає будь-яку послідовність символів) і «$» (закінчення рядка). Це дозволяє заборонити індексування певного типу файлів.
Приклад 5. Заборона індексації файлів з розширенням htm»:
Disallow: *.htm$
Директива «Host»
Директива «Host» необхідна для визначення основного дзеркала сайту, тобто, якщо сайт має дзеркало, то за допомогою директиви «Host» можна вибрати url того сайту, під яким проиндексируется ваш сайт. В іншому випадку пошукова система вибере головне дзеркало самостійно, а інші імена будуть заборонені до індексації.
В цілях сумісності з пошуковими роботами, які при обробці файлу robots.txt не сприймають директиву Host, необхідно додавати її безпосередньо після записів Disallow.
Приклад 6. www.site.ru – основне дзеркало:
Host: www.site.ru
Оформлення коментарів у файлі robots.txt
Будь-яка рядок robots.txt, що починається з символу «#», вважається коментарем. Дозволено використовувати коментарі в кінці рядків з директивами, але деякі роботи можуть неправильно розпізнати дану рядок.
Приклад 7. Коментар знаходиться на одному рядку разом з директивою:
Disallow: /cgi-bin/ #коментар
Бажано розміщувати коментар на окремому рядку.

2.2 Управління індексацією за допомогою мета-тегів
За допомогою мета-тегів теж можна керувати індексацією сторінок сайту. Мета-теги повинні знаходитися в заголовку HTML-документа (між тегами ).

Найбільш корисні МЕТА-теги, які допоможуть пошуковикам правильно індексувати сторінки вашого сайту:
1. або – управління індексацією сторінок для пошукових роботів. В даному випадку, вказує пошуковому роботу, щоб він не індексував всі сторінки.
2. – необхідний для пошукових систем, щоб визначити релевантна сторінка даним запитом.
3. – підвищує вірогідність знаходження сторінки пошукачем за обраним запитом (ам).
4. – управління індексацією сторінок для пошукових роботів. Визначає частоту індексації. В даному випадку вказується, що ваш документ є динамічним і роботу слід індексувати його регулярно.
Є теги, які безпосередньо до індексації не відносяться, але виконують також важливу роль дл зручності роботи користувача з сайтом:
1. – контроль кешування HTTP/1.0. Не дозволяє кешувати сторінки.
2. – визначення затримки в секундах, після якої браузер автоматично оновлює документ або відбувається редирект.
3. – вказує, коли інформація на документі застаріє, і браузер повинен буде взяти нову копію, а не вантажити з кешу.
Є ще один мета-тег revisit-after, з приводу використання, якого раніше ходило багато чуток, що він може змусити роботи пошукових систем відвідувати сайт з певною періодичністю, однак фахівці Яндекс офіційно спростували це.
Немає гарантії, що пошукові системи враховують вміст мета-тегів, індексуючи сайт. Тим більше немає гарантії, що ця інформація буде враховуватися при ранжуванні сайту у видачі. Але мета-теги корисні тим, що при індексації сторінок дозволяють пошуковикам отримати необхідну інформацію про ресурс.
Для того, щоб прописати їх не потрібно багато часу, тому намагайтеся ввести максимально повну мета-інформацію про сторінку.

Проблеми при індексації сторінок

Працюючи у сфері пошукового просування сайтів, доводиться стикатися з проблемами індексування сайтів пошуковими системами, тимчасових «випадінь» окремих сторінок сайтів, і, як наслідок, втратою позицій за ключовими словами. Відбувається це, в переважній більшості випадків, з-за помилок веб-майстрів. Адже далеко не всі розуміють, що, на перший погляд, навіть незначна помилка або недогляд може призвести до «значних» наслідків – втрати позицій у видачі пошукових систем. Далі буде розглянутий список проблем, з якими Ви можете зіткнутися при індексації.

3.1 Динамічні сторінки, ідентифікатори сесій.
Проблема. Робот пошукової системи одержує одну і ту ж сторінку з різними ідентифікаторами сесій. Пошукова система «бачить» це як різні сторінки. Теж саме відбувається і з динамічними сторінками.
Опис. На деяких сайтах існують динамічні сторінки з різним порядком параметрів, наприклад index.php?id=3&show=for_print і index.php?show=for_print&id=3. Для користувачів – це одна і та ж сторінка, а для пошукових систем – сторінки різні. Також можна навести приклад зі сторінкою сайту: «версія для друку» з адресою, наприклад index.htm?do=print і самою головною сторінкою index.htm. За структурою і текстовим наповненням ці сторінки практично однакові. Однак для пошукової системи – це різні сторінки, які будуть «склеєні», і, замість, наприклад, просуває головної сторінки у видачі пошуковика сторінка «для друку».
Схожа проблема виникає при використанні, посилання на директорію і на файл в директорії, наприклад /root/ /root/index.htm. Для користувачів вона вирішується використанням директиви «DirectoryIndex /index.htm» файлу .htaccess, або налаштуваннями сервера. Пошукові машини вирішують цю проблему самі: з плином часу «склеюють» індексну сторінку з «коренем» директорії.
Один з видів динамічних сторінок – сторінки з ідентифікаторами сесій. На сайтах, де прийнято використовувати ідентифікатори сесій, кожен відвідувач при заході на ресурс отримує унікальний параметр &session_id=. Це парамет додається до адреси кожної відвідуваної сторінки сайту. Використання ідентифікатора сесії забезпечує більш зручний збір статистики про поведінку відвідувачів сайту. Механізм сесій дозволяє зберігати інформацію про користувача при переході від однієї сторінки до іншої, чого не дозволяє робити протокол HTTP. Ідентифікатор зберігається у користувача в куки або додається як параметр адресу сторінки.
Однак, так як роботи пошукових систем не приймає cookies, ідентифікатор сесії додається в адресу сторінки, при цьому робот може знайти велику кількість копій однієї і тієї ж сторінки з різними ідентифікаторами сесій. Простіше кажучи, для пошукового робота сторінка з новою адресою – це нова сторінка, при кожному заході на сайт, робот буде отримувати новий ідентифікатор сесії, і, відвідуючи ті ж самі сторінки, що і раніше, буде сприймати їх як нові сторінки сайту.
Відомо, що пошукові системи мають алгоритми «склеювання» сторінок з однаковим змістом, тому сайти, що використовують ідентифікатори сесій, все ж таки будуть проіндексовані. Однак індексація таких сайтів утруднена. В деяких випадках вона може пройти некоректно, тому використання на сайті ідентифікаторів сесій не рекомендується.
Рішення.
Що стосується динамічних сторінок, то треба закривати сторінки «версія для друку» та інші дублікати у файлі robots.txt, або за допомогою атрибута мета-тега noindex. Інше рішення — заздалегідь створювати функціонал сайту, який би не генерував динамічні сторінки з різним порядком параметрів.
Що стосується ідентифікаторів сесій, то рішення даної проблеми просте — прописати с .htaccess наступні команди:
php_flag session.use_trans_sid Off
php_flag session.use_only_cookie On
php_flag session.auto_start On

3.2 Неправильна обробка 404 статусу
Проблема. Помилки в обробці 404 статусу сервером, коли замість 404 коду (сторінка не існує), сервер віддає код 200 і стандартну сторінку помилки.
Опис. Обробляти 404 помилку можна по-різному, але сенс залишається один. Основний і найпростіший варіант обробки даної помилки – створення сторінки, наприклад 404.htm і запис у файлі .htaccess «ErrorDocument 404 /404.htm». Однак так чинять не всі веб-майстри, багато налаштовують сервер на видачу головної сторінки сайту при 404 помилку. Ось тут-то і захований «підводний камінь». У разі некоректних налаштувань сервера, для сторінки з помилкою 404 (тобто в даному випадку відданої головної), сервер повертає 200 OK. Таким чином, можна отримати стовідсотковий дублікат головної сторінки, внаслідок чого робот пошукової системи може «склеїти» її з будь-якою іншою сторінкою сайту.
Рішення. Вихід з даної проблеми така: грамотна настройка сервера і обробка 404 коду через файл .htaccess шляхом створення окремої сторінки під обробку помилки.

3.3 Плагіат
Проблема. Розміщення матеріалів сайту на інших сайтах, а, як наслідок, – «склеювання» і втрата позицій.
Опис. Опис даної проблеми укладено в її назві, і в сучасному Інтернеті всім добре відомо, що плагіат – це крадіжки контенту і «привласнення» авторських прав, а, з точки зору пошукової оптимізації, – це ще й проблеми з індексацією сайту у вигляді появи дублів сторінок.
Рішення. Рішення проблеми тут одне – лист зі скаргою про порушення авторських прав, хостеру сайту-плагіатора, попередньо попередивши, звичайно, винного в тому, що він чинить незаконно.

3.4 Інші проблеми
Неиндексация деяких елементів сторінки може бути викликана кількома причинами:
1. Текст укладений в тег . Це спеціальний тег, що забороняє індексацію тексту роботу Яндекса.
2. Текст розташований у скрипті, тобто між тегами
3. Текст розташований у коментарях
4. Дуже маленький розмір сторінки Яндекс не індексує файли менше 1 кб)
5. Ресурс не містить російський текст (знову ж таки, це відносно Яндекса)

Висновок

Кожному, хто веде в Інтернеті серйозний проект, необхідно розуміти, як роботи пошукових систем. Знання про те, коли робот приходить на сайт, що індексує, що не індексує, дозволить уникнути багатьох проблем, насамперед технічних, вже на стадії створення сайту і далі – за його супроводі.

Щоб не задаватися питанням, чому в черговий раз сайт пропав з видачі по деякому запитом, перш за все, варто проаналізувати, а що ж на даний момент проіндексував робот на сайті? Не могло виявитися так, що деяка інформація стала недоступна роботу з тих чи інших причин?

Знання основ індексування документа дозволить правильно провести реєстрацію ресурсу в пошуковій системі і грамотно здійснювати його подальше просування, щоб користувачі завжди знаходили Ваш сайт на просторах Інтернету.