Введення

Цей документ розкриває моє розуміння і точку зору на алгоритм PageRank у Google. Для тих, хто не знає мене: я розробляю пошукові системи на замовлення. Тому мені притаманне программистское розуміння алгоритмів пошукових систем, як вони працюють, що вони можуть робити, а що ні. З-за цього я здатний зробити чимало висновків про те, як працює PageRank. Я вірю, що інформація в даному документі настільки точна, наскільки можливо. Ніхто не знає напевно деталі PageRank, виключаючи саму Google 1. Не соромтеся запитувати про висновки, які ви не можете зрозуміти; з допомогою спілкування мої припущення можуть стати більш коректними. Пишіть, будь ласка, мені на [email protected] свої запитання та коментарі.

Досить передмов, приступимо до того, чому присвячений цей документ — до PageRank!

Що таке PageRank?

PageRank — це метод Google для вимірювання «важливість» сторінки. Коли всі інші фактори, такі як тег Title і ключові слова враховані, Google використовує PageRank, щоб відкоригувати результати так, що більш «важливі» сайти піднімуться відповідно вгору на сторінці результатів пошуку користувача.

Тобто, порядок ранжирування в Google працює наступним чином:

1. Знайти всі сторінки, відповідні ключовими словами пошуку.
2. Отранжіровани відповідно «сторінковим факторам, таким як ключові слова.
3. Врахувати текст посилань на сторінки.
4. Відкоригувати результати даними PageRank.

Як визначається PageRank?

Теорія Google говорить, що якщо Сторінка A посилається на сторінку B, то А Сторінка вважає, що Сторінка B — важлива сторінка. Текст посилання не використовується PageRank. PageRank також впливає на важливість посилань на сторінку. Якщо на сторінку вказують багато важливих посилань, то її посилання на інші сторінки також стають більш важливими.

Наскільки важливий PageRank?

Значущість кожного окремого фактора в алгоритмах пошукової системи залежить від якості інформації, яку він забезпечує. Тому має сенс спочатку поглянути на цю якість.

Коли Гугл був лише крихітним Гугленком в підгузках, можна було з упевненістю сказати, що посилання була точною ознакою рекомендації. Однак, в даний час це не так по двох дуже важливих причин:

1. Інтернет істотно змінився. Посилання на сьогодні це, скоріше, лише пов’язаний сайт, ліцензійне вимога або відповідна послуга (як перехресні посилання), ніж справжня рекомендація 2.
2. Як тільки ви створите пошукову машину, яка розглядає посилання як рекомендації, люди почнуть намагатися впливати на посилання. Як тільки вони стануть впливати на них, посилання перестануть бути рекомендаціями.

Тому надійність інформації, забезпечуваної посиланнями, не обов’язково гарна, і вона постійно зменшується. Це є причиною низької і весь час зменшується важливість PageRank в алгоритмі ранжирування Google.

Тим не менш, у PageRank є одне реабілітуючі його властивість. На нього важче впливати, ніж на будь-який інший фактор ранжування. Це означає, що у PageRank є можливість дати вам перевагу перед конкурентами, коли він використаний у комбінації з іншими прийомами оптимізації для пошукових машин. Однак, я попереджаю вас: тут немає коротких шляхів. Для ефективного використання PageRank вам потрібно буде зрозуміти його повністю, інакше є шанси, що ви будете витрачати ваш час даремно.
Основні факти про PageRank

Для розуміння решти цього документа, вам потрібно знати кілька фактів про PageRank.

1. PageRank — це число3, що характеризує виключно голосуючу способность4 всіх вхідних посилань на сторінку, як сильно вони рекомендують цю сторінку.
2. Кожна унікальна сторінка сайту, проіндексована Google, має вагу PageRank. Люди часто помиляються, думаючи про вазі сайту, який насправді є вагою головної сторінки цього сайту 5.
3. Внутрішні посилання сайту враховуються при розрахунку ваги PageRank для інших сторінок сайту.
4. PageRank незалежний, він не бере до уваги текст посилань і т. д. Звичайно, вони пов’язані, але говорити, що це одне і те ж, це все одно що говорити, ніби тег Title те ж саме, що ключові слова в тексті.

Як ви можете виявити, який у сторінки вагу?

Ви можете завантажити панель інструментів [toolbar, інструментальна лінійка — прим. А. С.] для Internet Explorer з сторінки http://toolbar.google.com/ 6. Після інсталяції у верхній частині Internet Explorer з’явиться столбцовая діаграма, що дає інтерпретацію ваги PageRank сторінки, яку ви наразі дивитесь. Якщо ви затримаєте вказівник миші над діаграмою, то побачите число від нуля до десяти. (Якщо ви не бачите числа, можливо, у вас не встановлена стара версія тулбара. Як тільки ви повністю його деинсталлируете, перезавантажте комп’ютер і встановіть останню версію, ви зможете бачити число.)
Наскільки точний тулбар Google?

Тулбар Google показує вагу сайту не дуже точно, але це єдиний інструмент, який може дати вам прямо зараз хоч якесь уявлення. Оскільки ви знаєте обмеження тулбара, ви, щонайменше, знаєте, що ви бачите. Є два обмеження у тулбара Google:

1. Часом тулбар визначає вагу приблизно. Якщо ви відкриєте сторінку, якої немає в індексі Google, але є сторінка, дуже близька до неї в індексі, то тулбар відобразить своє припущення про вазі PageRank. Ця здогадка марна для наших цілей, тому що вона не представлена ні в яких обчислення PageRank. Єдиний спосіб з’ясувати, чи використовує тулбар здогадку, це ввести URL в пошукову форму Google і побачити, чи з’явиться сторінка. Якщо ні, значить, він припускає!
2. Тулбар дає лише уявлення реальної ваги PageRank! У той час як вага PageRank линеен, вони вирішили показувати його на нелінійної діаграми. Так, для тулбара, зміна ваги PageRank від 2 до 3 займає менше збільшення ваги PageRank від 3 до 4. Це найкраще ілюструється порівняльною таблицею; справжні числа зберігаються в таємниці, тому ми будемо використовувати просто будь-які числа для ілюстрації 7:

Якщо дійсний вага PageRank між То тулбар показує
0,00000001 та 5 1
6 і 25 2
26 і 125 3
126 та 625 4
626 і 3125 5
3126 і 15625 6
15626 і 78125 7
78126 і 390625 8
390626 і 1953125 9
1953126 і нескінченністю 10

Треба сподіватися, що ви можете побачити з цієї ілюстрації, наскільки обмежена інформація, яку ви отримуєте з тулбара.

З цього моменту я збираюся використовувати термін Справжній PR для позначення справжнього ваги PageRank, зберігається Google, і Тулбаровский PR для позначення досить скупого уявлення того, що панель інструментів Google дозволяє нам бачити.
Розрахунок PageRank

Пояснивши, що таке вага PageRank, тобто, що ви дізнаєтеся, коли отримуєте інформацію про нього, і наскільки він важливий… в цьому розділі я розповім вам приблизно як він обчислюється. Знати це не обов’язково, однак, якщо ви зрозумієте це, ви будете краще розуміти, як слід його застосовувати.

Коли Google був лише дослідницьким проектом, вони [Брін і Пейдж — прим. А. С.] написали статтю, докладно описує формулу, яка визначає вага PageRank сторінки. Хоча вони, можливо, уже не використовують в точності цю формулу, вона є досить коректною для сьогоднішніх цілей. Ось вона:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)),

де PR(A) — це вага PageRank сторінки A (вага, яку ми хочемо обчислити),

D — це коефіцієнт затухання, який зазвичай встановлюють рівним 0,85,

PR(T1) — вага PageRank сторінки, що вказує на сторінку A,

C(T1) — число посилань з цієї сторінки,

PR(Tn)/C(Tn) означає, що ми робимо це для кожної сторінки, що вказує на сторінку A

Жах! Для тих з вас, хто не є математиком, тут є повна інформація по цій формулі — ви не можете просто обчислити вага PageRank за один прийом, як показано тут. Щоб обчислити вага PageRank сторінки A вам знадобиться знати ваги PageRank всіх сторінок, що вказують на сторінку A. Їх ваги PageRank будуть частково залежати від сторінки A, вказує на них, або будь-яких інших сторінок, що посилаються на них. Яка дурна формула. Що вона нам говорить, так це одну дуже важливу річ про вазі PageRank сторінки.

Вага PageRank, який передається на сторінку A зі сторінки B, яка вказує на неї, зменшується з кожною посиланням куди-небудь, яка знаходиться на сторінці B. Це означає, що вага сторінки, по суті, це міра її голосу; сторінка може розділити цей голос між однією, двома або багатьма посиланнями, але загальна голосуюча сила буде завжди тією ж самою.

Зараз забудьте формулу на деякий час, тому що легше розглянути приклад реалізації, який дуже схожий на PageRank. Він повинен допомогти нам краще зрозуміти PageRank. Назвемо його MiniRank.

Спочатку ми не знаємо, які ваги MiniRank у цих сторінок, тому ми їх просто присвоїмо. Для простоти, ми виберемо число один. В результаті діаграма стає…

Растолкованный PageRank

Все ще легко! Зараз пригадайте правила передачі ваги. Спочатку ми застосовуємо коефіцієнт загасання. (Коефіцієнт затухання, в основному, говорить про те, що сторінка не може голосувати так, щоб інша сторінка була настільки ж важлива, як вона сама. Це означає, що сторінки, до яких важче дістатися в Web, менш важливі.) Потім ми ділимо зберігся вага на число посилань. Ми підраховуємо підсумковий вага, який повинен бути доданий до всіх до єдиної сторінок, перед тим як ми остаточно його прибавим8.

Отже, дивлячись спочатку на сторінку A, бачимо, що значення ваги MiniRank, доступне для передачі, після загасання дорівнює 1 * 0,85 = 0,85. Зі сторінки ведуть два посилання, тому, по закінченні ітерації, ми додамо 0,425 до ваги MiniRank сторінки B і 0,425 до ваги MiniRank сторінки C. Ми не можемо зробити це до тих пір, поки ми не розрахували всі посилання на сторінки, тому що це вплине на результати.

Перейдемо до сторінки B. Вона містить тільки одне посилання. Тому, вона передасть 1 * 0,85 = 0,85 сторінці C, коли ми зробимо все для обчислення посилань.

Сторінка C також має одне посилання. Тому вона передасть вага 1 * 0,85 = 0,85 сторінці A.

Сторінка D має одну посилання, тому вона передає 0,85 сторінці C.

Зараз ми можемо додати всі суми до всіх ваг сторінок.

Растолкованный PageRank

Нові значення ваг MiniRank показують, наскільки важлива сторінка C. Але ми ще не завершили. Оскільки всі сторінки почали з одного значення, по правді кажучи, ми вирахували тільки популярність у посилання (link popularity). Суть PageRank і MiniRank така, що сторінкам, на які частіше посилаються, слід отримати більше голосів; тому ми повинні зробити те ж саме ще раз! На цей раз сторінка C має більший вплив, тому що її поточний вагу MiniRank вище.

Так, подивимося на сторінку A спочатку. Її поточний вагу MiniRank дорівнює 1,85. Величина MiniRank, доступна для передачі, після застосування загасання становить 1,85 * 0,85 = 1,5725. Є два посилання зі сторінки, тому по завершенню ітерації ми додамо 0,78625 до ваги MiniRank сторінки B і вагою MiniRank сторінки C.

Перейдемо до сторінки B. У неї є тільки одне посилання. Отже, вона передасть 1,425 * 0,85 = 1,21125 сторінці C, коли ми завершимо всі обчислення з посиланнями.

Сторінка C також має одне посилання, але при цьому володіє величезною вагою 3,125 MiniRank. Тому вона передасть 3,125 * 0,85 = 2,65625 сторінці A.

Сторінка D має одну посилання, тому вона передає 0,85 сторінці C.

Ми отримуємо….

Растолкованный PageRank

Ми вже можемо бачити те, що слід було очікувати: сторінка C має найбільшу вагу MiniRank, сторінка A — наступний за величиною. На практиці нам потрібно було б повторити ці дії від 50 до 100 разів, щоб гарантувати, що низька точність попередніх ітерацій зведена на немає. Просто!

Зворотній зв’язок PageRank

Але зачекайте хвилинку! Щось відбувається між сторінками A і C, тому поглянемо ще раз.

Растолкованный PageRank

Під час однієї ітерації обчислень сторінка C дає сторінці A підвищення у вазі MiniRank (PageRank). Під час наступної ітерації вона сама отримує збільшення ваги, пропорційне новому улучшившемуся вазі MiniRank сторінки A (вона отримує назад частину своєї ваги MiniRank!).

Це зворотний зв’язок PageRank. Можна подумати, що Google зобов’язаний ігнорувати посилання такого роду, особливо, якщо сторінка і сторінка C розташовані на одному сайті. Дійсно, я чув думку кількох людей, які вважають, що Google зобов’язаний. Істина в тому, що Google не може зробити це. Уявіть виконання обчислень над мільйонами сторінок замість чотирьох… уявіть тільки як вам визначати, коли зустрічається зворотний зв’язок, і як позбавлятися від неї. І навіть якщо ви впораєтеся, як ви зведете нанівець вплив, який це матиме на частину системи? Зворотній зв’язок PageRank — невід’ємна частина системи! Фактично, вона потрібна для правильного функціонування PageRank і є частиною алгоритму.

Вплив на результати

Знаючи, як це працює, і що Google в деяких випадках впливає на результати PageRank, ми в змозі вирішити, що саме Google може робити.

Перед тим як починаємо обчислювати PageRank, припустимо, що посилання деякого сайту особливо хороші. Скажімо, сторінка B — це сторінка Yahoo або DMOZ (кожен з яких демонструє цей вид впливу); замість установки до їх початкових значень в 1 ми можемо встановити їх в 100 або більше. 9 Роблячи це, ми припускаємо, що Google незначно змінює ваги PageRank, що залежать від цієї сторінки.

Ми можемо виконати зворотне, тільки в меншій мірі. Припустимо, що сторінка B визнана спамом. Якщо ми встановимо початкове значення ваги PageRank в нуль, то її вага спочатку не буде мати ніякого впливу, але незабаром стане отримувати вплив, поки будуть існувати сайти, які посилаються на неї.

Майте це на увазі: у PageRank ми можемо легко збільшити важливість посилань сторінки, зробивши їх настільки важливіше, наскільки ми хочемо, однак, зворотне не вірно — PageRank значно перешкоджає можливості зменшити важливість посилань сторінки. 10

Це, як раз те, що відбувається з сайтами, які зареєстровані в Yahoo і DMOZ. Кожна сторінка Yahoo і DMOZ, здається, має збільшений вага, тому сайти, зареєстровані у цих двох каталогах отримують славне невелике збільшення ваги PageRank.

Так от, хіба не могли вони коригувати вага PageRank сторінки B після кожної ітерації обчислень? Так, вони могли, але Google працює з мільйонами сторінок [вже з мільярдами — прим. А. С.], і повинен був би корегувати вагу всіх подібних сторінок кожен раз. Це зробило б алгоритм оччеееенннннь оччеееенннннь повільним.

А як щодо встановлення ваги PageRank після всіх обчислення і отримання кінцевих ваг сторінок? Так, вони можуть і, безсумнівно, роблять це. Однак, це має більше відношення не до обробки посилань, а до зміни індивідуальних результатів. Припустимо, що головна сторінка Google недостатньо висока для Google. Вони можуть просто змінити це. Або якщо сторінки результатів пошуку Google мають PageRank, вони можуть просто це прибрати. Це крок після обробки даних.

Зауважте, однак, що є невелика особливість у застосуванні Гуглом цього методу для виключення спамерів з індексу. Не покладатися, якщо ваша вага PageRank раптово став дорівнює нулю, то Google використовував цей метод для обнулення ваги. Набагато легше всього лише заборонити сторінку. Заборона також більш логічно, тому що воно прибирає вплив, який, в іншому випадку, ваша сторінка отримає в процесі обчислення PageRank. Нульовий вага PageRank, в більшості випадків, з’являється з-за інших факторів, таких як проблема тимчасових обчислень.

Що це все означає?

Вага PageRank — найважчий для маніпулювання фактор при оптимізації сторінок. Хоча його вплив не так велико, як вірять деякі, якщо ви можете зрозуміти його правильно, то ви маєте достатньо хороша перевага перед вашими конкурентами. Вага PageRank важко отримати, так і утримати. Наведена нижче інформація дійсно доводить це до крайньої міри. На практиці ви могли використовувати всі або частину, в залежності від того, наскільки конкурентоспроможним ви себе почуваєте, і того, наскільки сильна конкуренція.

Є три основні області, які варто оглянути та, можливо, змінити, коли ви намагаєтеся оптимізувати ваш вага PageRank:

1. Сторінки, які ви обираєте для отримання посилань на вас, тобто які з них ви відбираєте і як багато зусиль витрачаєте на отримання посилань.
2. Ті, кого ви обираєте, щоб послатися на них зі свого сайту, і на якій сторінці вашого сайту ви ставите їх посилання.
3. Внутрішня навігаційна структура і зв’язки ваших сторінок — з метою створення максимальної зворотного зв’язку PageRank.

Посилання на ваш сайт

Коли ви шукаєте посилання на ваш сайт, з точки зору виключно PageRank можна подумати, що слід просто шукати сторінки з найвищим Тулбаровским вагою PageRank. (В той же час пам’ятаючи, що кожна сторінка сайту має свій власний вага PageRank, тому ви повинні розглянути вага «сторінки посилань», або якої б то не було сторінки, де буде розташована фактична посилання.) Однак, ця точка зору є некоректним. Якщо ви не перестрибнули прямо в цей розділ, то ви, ймовірно, визначте, чому це так. Вага PageRank, одержуваний з посиланням, набагато складніше, ніж це спрощення. Міг бути випадок, коли це було прийнятним наближенням… але не більше. У міру того як все більше і більше людей намагаються і отримують посилання тільки з сайтів з високим значенням ваги, це стає все менш і менш виграшним пропозицією.

Справжній вага PageRank окремої сторінки ділиться серед посилань на цій сторінці (пам’ятаєте розрахунки MiniRank?) Тому, посилання зі сторінок, які мають однаковий вага PageRank, не завжди створені рівними. Це залежить від того, зі скількома посиланнями ділить посилається сторінку ваше посилання. Наприклад, посилання зі сторінки з вагою PageRank 4 може бути краще, ніж посилання зі сторінки з вагою PageRank 6, якщо на сторінці з PR 4 менше загальне число посилань. Можливо, що сторінка з PR 2 може навіть бути краще для прохання про посилання, що сторінка з PR 7. У даний момент недостатньо доступної інформації, щоб дізнатися, до якої міри це тягнеться. Однак, це досить значимо, щоб було просто безглуздо вибирати сайти з великою вагою в якості основної стратегії отримання посилань. Є також інша, більш прозаїчна причина, чому ця стратегія отримання посилань може бути не найкращою; сайти з високим вагою PageRank часто розбірливі в тому, на які сайти ставити посилання, що робить отримання посилання з них більш важким, ніж з сайтів з низькою вагою. Однак, сайтів, що бореться зі своїми числами ваги PageRank, слід бути більш сприйнятливими до обміну взаємними посиланнями з іншими сайтами.

Зараз давайте розглянемо зворотний зв’язок. Припустимо, наприклад, що є два самостійних сторінки на сайтах інших людей, кожна з яких має вагу PageRank 4. Обидві сторінки мають по 10 посилань на інші сторінки. Але ваша сторінка, на яку ви хочете отримати з них посилання, вже має посилання на сторінку на другому сайті. Отримуючи посилання з другого сайту, ви породжуєте зворотний зв’язок, і отримуєте більший вага PageRank, ніж якщо б отримали посилання з першого сайту! Це надмірне спрощення; фактично, цикли зворотного зв’язку можуть стати навіть більш складними. Пам’ятайте, що кількість посилань на сторінці, що посилається на вас, буде змінювати величину зворотного зв’язку, і т. д.

Ви Можете обчислити все це для заданої сторінки? Ні — і я не можу. Моя порада, тому, такий — отримуйте посилання з сайтів, які здаються слушними і мають хорошу якість, незалежно від їх поточного ваги PageRank. Якщо вони релевантні вашого сайту, і самі високоякісні сайти, вони допоможуть вашій вазі PageRank зараз, або зроблять це у майбутньому. Щоб насправді зробити ваш вага PageRank класним, увійдіть в DMOZ і Yahoo з метою скористатися штучно збільшеною вагою, який вони забезпечують.

Посилання з вашого сайту

Щоб розглянути найкращу стратегію проставляння посилань з сайту, спочатку нам потрібно розглянути посилання, що вказують на ваш сайт. Під цим я розумію, що нам треба припустити, що у вас є посилання, що вказують на ваш сайт з каталогів, таких DMOZ і Yahoo, які дають йому невелику славне приріст ваги PageRank. Використовуючи внутрішні сторінки сайту, ви можете управляти зворотним зв’язком значно краще, ніж використовуючи посилання на зовнішні сторінки. Це призводить до правила…

У загальному випадку, вам буде потрібно зберегти вага PageRank всередині вашого сайту.

Це означає, що вам потрібно буде посилатися назовні тільки зі сторінки вашого сайту, яка має низький вага PageRank, і яка також містить значну кількість внутрішніх посилань (тобто посилань, що вказують на інші сторінки вашого сайту).

Отже, коли ви ставите посилання назовні, ви віддаєте перевагу тих сторінок, які посилаються на сторінку вашого сайту, яка знаходиться сторінкою вище посилальної сторінки [наприклад, якщо зовнішня сторінка A посилається на вашу сторінку B1, яка, в свою чергу, посилається на вашу сторінку B2, на якій розташовано посилання на зовнішню A — прим. А. С.], або які посилаються на ту сторінку, яка посилається на сторінку, що посилається на вашу посилальну сторінку [A -> B1, B1 -> B2, B2 -> B3, B3 -> A — прим. А. С.] (тобто ви отримаєте більше збільшення ваги PageRank, якщо посилання з зовнішніх сайтів не вказують на вашу посилальну сторінку).

Як ми можемо здійснити це? Одним способом написання оглядів сайтів, на які ми посилаємося на окремій сторінці нашого сайту, і забезпечення посилання на ці огляди разом з кожної гіперпосиланням на сайт. Необов’язково, але буде непогано, якщо ці сторінки будуть відкриватися в іншому вікні але НЕ РОБІТЬ це на JavaScript, бо роботи пошукових систем не можуть слідувати посилання на JavaScript.

Наприклад, ми можемо зробити щось подібне з кожної посиланням на сайт:

Search Engine Systems — це найкращі в світі істоти поисковомашинные

Перевірте, що сторінка оглядів посилається назад на сторінку, яка знаходиться вище в структурі вашого сайту. (Краще всього, якщо це буде ваша головна сторінка, але будь-яка важлива сторінка також підійде.) Зробивши це, ми значно скоротили кількість ваги PageRank, яким ви дозволяєте покинути сайт, і забезпечили, що більша частина ваги PageRank, яка залишається, також збільшується ефектом зворотного зв’язку! Ми націлили цю зворотний зв’язок на головну сторінку, щоб гарантувати, що менше ваги передається назад вашої посилальної сторінці (що було б упущеної можливістю), і більше залишається де-небудь на вашому сайті. На вашій посилальної сторінці також потрібно поставити посилання на головну сторінку і інші значущі сторінки сайту. Однак, не ставте інших посилань на сторінці з оглядом (крім посилання на головну сторінку). Дуже добре, якщо хтось ставить посилання на вашу сторінку з оглядом, тому, до того ж, ви можете дати знати сайту, що ви рецензували його — цілком можливо, що ви отримаєте два посилання з цього сайту (одну на ваш сайт і одну на огляд чужого сайта). Все дуже складно для розуміння в текстовій формі, тому давайте займемося спрощеним прикладом, щоб показати принцип і продемонструвати його дію.

Наша проста структура з початковими значеннями ваг MiniRank:

Растолкованный PageRank

Після першої ітерації обчислень ми отримуємо…

Растолкованный PageRank

В кінці другої ітерації ми маємо…

Растолкованный PageRank

І в кінці третьої ітерації ми маємо…

Растолкованный PageRank

Сумарна вага MiniRank всередині сайту дорівнює 19,959.

Зараз, якщо ми встановимо посилання, щоб включити огляди, вказують на головну сторінку, ми отримуємо…

Растолкованный PageRank

Після першого етапу обчислень ми отримуємо…

Растолкованный PageRank

Після другого етапу обчислень ми отримуємо…

Растолкованный PageRank

Після третього етапу обчислень ми отримуємо…

Растолкованный PageRank

Сумарний MiniRank сайту дорівнював 47,31 (а ми почали з вагою, великим на чотири!). Трохи в цьому проявляється сила додаткових сторінок і трохи — сила зворотного зв’язку. Але в цілому…
Перший приклад Другий приклад (з оглядами)
Кількість сторінок = 4 Кількість сторінок = 8
Початковий вага MiniRank = 4 Початковий вага MiniRank = 8
Кінцевий вага MiniRank сайту = 19,959 Кінцевий вага MiniRank сайту = 47,31
Головна сторінка в 2,37 рази важливіше при використанні другого методу
Основні сторінки «Про нас», «Продукція» і «Посилання» в 1,8 разів важливіше при використанні другого методу

Це відмінно демонструє силу зворотного зв’язку. 11 Ми віддаємо частину голосів наших посилальних сторінок назад в систему наших сайтів, не дозволяючи їм піти по зовнішніх посиланнях. Ось чому великі сайти в загальному випадку мають кращий вага PageRank, ніж менші сайти. У насправді, чому ви це не робите?!! Починайте зараз же написання оглядів сайтів, перерахованих на ваших посилальних сторінках! (Зауважте, числа наведені тільки для демонстраційних цілей в якості загального показника сили цього методу, дійсні числа будуть відрізнятися.)

Внутрішня структура та зв’язку

Поговоривши про посилання на зовнішні сайти, має сенс поговорити про те, як внутрішня посилальна структура вашого сайту впливає на його власний вага PageRank. Давайте освіжимо в пам’яті кілька фактів:
Чим більше сторінок конкретний сайт має в індексі Google, тим вище у нього початковий сумарна вага PageRank, і тим більше вага PageRank, з яким він повинен працювати. Так як кожній сторінці задано одне і те ж початкове значення до того, як починає обчислюватися PageRank, більше число сторінок може бути тільки краще. Буде логічно зробити висновок, що якщо у нас є більше для початку, то ефект зворотного зв’язку буде також більш значним. Коли-небудь зверніть увагу, як же великим сайтів вдається мати хороший вага PageRank? Ефект зворотного зв’язку пояснює, чому. Звичайно, ваші сторінки повинні мати сенс і гарний зміст, щоб для початку потрапити в індекс. (Огляди в останньому розділі можуть бути хорошим прикладом.)

Зворотній зв’язок — це природний процес для PageRank. Він має місце серед внутрішніх посилань сайту і є критичним для оцінок Google про те, які сторінки сайту важливі. Якщо сайт не буде вхідних чи вихідних посилань [посилань з зовнішніх сайтів і на зовнішні сайти, відповідно — прим. А. С.], структура сайту забезпечить те ж саме кількість зворотного зв’язку. Однак, коли ми враховуємо вхідні та вихідні посилання, внутрішня структура сайту важлива. Наприклад, якщо сайт має вихідні посилання на сторінку, то ми захочемо залишити вага PageRank цієї сторінки мінімальним.

Є різні способи, якими можна пов’язати сторінки сайту. На практиці, веб-сайти можуть використовувати їх комбінацію. Використання комбінації це нормально і чудово до тих пір, поки ви розумієте різні частини структури сайту і те, як вони впливають на ваш вага PageRank. Для цілей даної статті ми розглянемо різні структури зв’язків як окремі об’єкти. У нас є:

Ієрархічна
Растолкованный PageRank

Циклічна
Растолкованный PageRank

Велике зв’язування
Растолкованный PageRank

Пам’ятайте, що ми не обов’язково хочемо, щоб вага PageRank був рівномірно розподілений по всьому сайту. Ми хочемо добитися максимальної зворотного зв’язку в системі і ми хочемо, щоб її можна було її фокусувати на особливих сторінках (тобто тих, у яких ми оптимізували текст з ключовими словами і т. д.). Так як я вже досить багато демонстрував вам обчислення MiniRank, я просто покажу результати кожного виду посилальної структури після 10 проходів обчислень:

Ієрархічна
Растолкованный PageRank

Циклічна
Растолкованный PageRank

Велике зв’язування
Растолкованный PageRank

Зверніть увагу, як сумарна вага MiniRank всередині сайту виявляється одним і тим же (1878,353). Це тому що тут ще немає ніяких вхідних чи вихідних посилань. Що важливо, так це розподіл ваги. Ієрархічна структура проштовхує більшу вагу MiniRank на головну сторінку (інші сайти, найбільш ймовірно, будуть посилатися на головну сторінку і ця сторінка, менш імовірно, буде мати вихідні посилання). Немає видимого відмінності між циклічною структурою і структурою з обширними зв’язками. Давайте подивимося, що станеться, коли ми ускладнимо структуру додаванням зовнішніх вихідних і вхідних посилань…

Ієрархічна
Растолкованный PageRank

Циклічна
Растолкованный PageRank

Велике зв’язування
Растолкованный PageRank

Хоча в цих прикладах зроблено всього декілька ітерацій для обчислюваної формули, вони вже починають показувати правила зв’язування всередині сайту:
Велике зв’язування забезпечує трохи кращу зворотний зв’язок PageRank, ніж ієрархічна структура, і обидві структури забезпечують трохи кращу зворотний зв’язок PageRank, ніж циклічна.

При безлічі ієрархічних зв’язків сторінки, що стоять вище в структурі, отримують набагато більший вага PageRank. Це означає, що ми віддаємо менше ваги PageRank нашим вихідними посиланнями.

На практиці це означає, що вам слід поєднувати дані методи зв’язування сторінок. Правила такі:

1. Там, де група сторінок може містити зовнішні посилання, використовуйте ієрархічну структуру.

2. Там, де група сторінок не містить зовнішніх посилань, використовуйте структуру з великими зв’язками, розширивши її додаванням посилання на головну сторінку.

3. Якщо конкретна сторінка особливо важлива, поміщайте її вище в ієрархічній структурі.
Як використовувати вашу карту сайту для цілей PageRank

Багато людей вірять, що карта сайту [сторінка, на якій відображена структура сайту і перераховані всі його сторінки — прим. А. С.] допомагає роботів пошукових машин обходити сторінки. Я не впевнений в цьому, але з-за їх популярності і факту, що вони включають деякі хороші посилання з потрібним текстом, давайте подивимося, як найкраще їх реалізувати з точки зору PageRank.

Спочатку, посилайтеся на вашу карту сайту з головної сторінки, як ви зазвичай це робили.

Пам’ятайте, що наявність карти сайту ефективно знижує вага PageRank інших ваших сторінок (особливо якщо на неї посилається сторінка вашого сайту з найвищим вагою PageRank). Тому ми хочемо перевірити, що карта сайту робить дві речі:

1. Максимізує ваш початковий сумарна вага (додаючи нові сторінки).
2. Повертає зворотними зв’язками так багато ваги PageRank, наскільки це можливо.

Перше трохи суперечливо. Щоб змусити карту сайту максимізувати ваш початковий сумарна вага, ми повинні розбити її на кілька сторінок. Ви можете подумати: «Отже, це робить її обхід складніше для робота, вірно?» Відповідь «так» і «ні». Іноді дійсно индексирующему роботу складніше отримати сотні посилань з однієї сторінки. Однак, в даний час будь-добре працюючий робот індексує досить глибоко, щоб впоратися з картою сайту, рознесеного на кілька сторінок.

Зараз давайте займемося максимізацією вашої зворотного зв’язку PageRank. Кожній карті сайту слід мати посилання на головну сторінку і інші значущі сторінки вашого сайту. Якщо ваша карта сайту містить посилання на сторінки, які містять посилання на зовнішні сайти, то вам обов’язково слід мінімізувати кількість ваги PageRank, якою ці сторінки дозволять зникнути з вашого сайту.

Тому, ось що ви можете зробити…

Розбийте вашу карту сайту на категорії і перейдіть кожної категорії окрему сторінку. Ваша карта сайту зараз стає списком цих сторінок категорій (замість карти всього сайту). В кожну категорію ви можете помістити приблизно до 30 посилань. Вам слід також давати поруч з посиланням опис змісту кожної сторінки. Коли ви розміщуєте серед ваших категорій сторінку, на якій є посилання на зовнішні сайти, вибирайте категорію, в яку входить велика кількість посилань.

Далі, ви повинні зв’язати кожну зі сторінок категорій разом, а також зі списком категорій (колишня сторінка з картою сайту). Щоб зробити це, просто помістіть навігаційне меню, яке посилається прямо на сторінку зі списком категорій або будь-яку іншу сторінку категорій, на кожну з них. Звичайно, додавайте посилання на головну сторінку і інші значущі сторінки на кожну зі сторінок категорій.

Це максимізує зворотний зв’язок і зберігає низьким вага PageRank сторінок карти сайту. Ідея в тому, щоб зменшити вагу PageRank всієї карти сайту, віддавши його сайту в цілому.

Заключне слово

PageRank — це дуже важка тема, яка часто неправильно розуміється. Думаю, варто повторити деякі моменти, що стосуються даної статті і PageRank. Цей документ — ще незавершена робота і, ймовірно, буде залишатися такою ще тривалий час. В даний момент тут недостатньо інформації для нас, щоб бути на 100% впевненим у чому-небудь. Я просто показую припущення, засновані на кращій з доступної інформації, яка здається в значній мірі вірною. Коли Google вирішує дозволити нам побачити інформацію про вагу PageRank, він робить це через панель інструментів Google. Коли ви будете дивитися на тулбар Google, я сподіваюся, що ви згадайте як мінімум одну сходинку з попереднього обговорення: «панель інструментів Google показує вагу сайту не дуже точно, але це єдиний інструмент, який може дати вам прямо зараз хоч якесь уявлення.»

У PageRank є своє місце в процесі ранжирування. Це місце не настільки помітний, як багато можуть думати. Його значимість в алгоритмі ранжирування менше, ніж у багатьох інших факторів, таких як тег Title або текст посилань. Оптимізація сайту тільки для PageRank не дасть вам гарних місць. Сутність PageRank така, що їм важко маніпулювати. Тому, якщо ви отримаєте хороший вага PageRank, вашим конкурентам буде важко зрівнятися з вами. Чи варто ваш час, щоб серйозно зосереджуватися на PageRank, це особисте рішення, яке залежить від рівня вашої конкуренції. Я безумовно вірю, що як мінімум завжди варто зрозуміти, як працює PageRank, і пам’ятати, що всякий раз, коли вносяться зміни або створюються нові сайти — пам’ятати лише як інші фактори, такі як текст посилань і ключові слова, які завжди у нас в думках.

Цей документ викликав справедливу низку запитань та обговорень серед тих, хто його вже прочитав. Можливо, що в якийсь момент в майбутньому я створю список поширених питань. До цієї пори, однак, ті, хто шукають подальшу інформацію можуть писати мені на [email protected] [відповідно, задавати питання мені, Олександру Садовському, можна за адресою [email protected] — прим. А. С.], або ви можете захотіти поглянути на дискусію, що відбулася з-за першої версії цього документа, на http://www.ihelpyouservices.com/forums/t916/s.html.
Післямова від Олександра Садовського

Незважаючи на зауваження, висловлені в бік Кріса, я вдячний йому за такий великий труд, який змусив замислитися і краще зрозуміти цей цікавий алгоритм PageRank. Тим не менше, ряд питань залишився ще за рамками обговорень.

Як краще зрозуміти PageRank?

Народна мудрість свідчить, що краще сто раз помацати, ніж один раз побачити. Тому тільки робота з моделями PageRank дозволяє відчути цей алгоритм до кінця. «А якщо тут додати посилання? Або поставити посилання на зовнішній сайт? Може, краще зробити кільце з посилань?..» Все це реально випробувати на моделі. Я пропоную вам для вивчення дві моделі.

Перша модель зроблена мною в Excel 2000 (завантажити модель) і дає можливість працювати з 12 сторінками (цього достатньо для всіх прикладів з цієї статті). Формули не ховаються, тому, при необхідності, кількість сторінок досить легко розширити до необхідної кількості. Якщо у вас є Excel, це, мабуть, кращий варіант, так як ви можете повністю контролювати обчислення і змінювати структуру модельованого сайту так, як вам завгодно.

Друга модель написана Марком Хоррэлом і працює тільки в онлайні, але вона також вартий уваги. Модель дозволяє задати зв’язку до 50 сторінок, вибрати для них імена, початковий вага PageRank і прорахувати ваги PageRank з кількістю ітерацій аж до 100.

Як утримати вагу PageRank всередині сайту?

Розповідаючи про складних структурах, які допомагають зберегти вага PageRank всередині сайту, Кріс не згадує про двох простих методах.

Перший запропонований мною — використання JavaScript. Пошукові системи не індексують його (причина досить очевидна — інтерпретація JS для кожної сторінки зажадає гігантські обчислювальні ресурси). Отже, будь-яка зовнішня посилання, оформлена на JS буде нормально сприйматися користувачами (99% працюють з включеним JS), але при цьому не враховуватися пошуковими системами, а, значить, і не брати участь у розрахунках PageRank. Таким чином, для пошукової машини ваш сайт буде без єдиної зовнішньої посилання, і проблема втримання ваги зникає повністю.

Другий метод не менш витончений і запропоновано самим Крісом. Якщо всі зовнішні посилання зосереджені на кількох сторінках, то достатньо всього лише заборонити їх індексацію з допомогою файлу robots.txt, і пошукова машина не буде знати, що у вас на сайті є зовнішні посилання.

Безумовно, така поведінка буде нечесним, якщо ви домовляєтеся про обмін посиланнями з яким-небудь сайтом. Однак, у всіх інших випадках, коли ви ставите посилання добровільно, щоб зробити роботу користувачів зручніше, ніхто не заважає вам зберегти вага PageRank всередині сайту.

Як вибирати сайти для отримання посилань?

Рекомендація Кріса була такою: «…отримуйте посилання з сайтів, які здаються слушними і мають хорошу якість, незалежно від їх поточного ваги PageRank». Це вірно, але як оптимізувати співвідношення якості посилань і витрат часу на їх отримання? Рішення є. Якістю посилань, як показав Кріс, управляти практично неможливо, отже, необхідно скоротити витрати часу на їх добування. Для початку згадайте, що тимчасові втрати складаються з двох чинників: по-перше, часу на написання прохання про заслання, і, по-друге, числа позитивних результатів (який відсоток посилань реально додано). Написання прохання про ссылке істотно оптимізувати не можна, так як ризикувати сайтом, розсилаючи спам, часто невиправдано. Отже, прискорити добування посилання можна тільки в тому випадку, коли відсоток позитивних результатів буде максимальним.

І для цього я користуюся своїм методом, який називаю «роби, як усі». Суть його проста: спочатку потрібно отримати відносно великий список конкуруючих сайтів — хоча б 50-100 конкурентів — це можна зробити, наприклад, задавши цільової запит у пошуковій або заглянувши у відповідний розділ каталогу. На основі цих даних легко отримати через пошуковик список сторінок, що посилаються на кожного з конкурентів. Відсортувавши його в порядку убування кількості згадувань і виключивши сторінки, які вже посилаються на ваш сайт, отримуємо перелік сторінок, які погодилися дати посилання великого числа конкурентів. Так чому ж вони відмовляться дати посилання вам? Швидше за все, це будуть тематичні каталоги, огляди, сайти асоціацій і об’єднань, де ви швидко і без праці отримаєте посилання. Якщо при цьому врахувати, що через Google ви можете дізнатися тільки посилання, у яких Тулбаровский PageRank більше або дорівнює 3, то у вашу вибірку автоматично потрапляють сторінки тільки з високим вагою. Непогано, правда?!

Не забувайте про цілі!

Після того як посилання отримані, не забувайте про мету своєї роботи — отримати високий вага PageRank для сайту. Отже, пошукач повинен знати про сторінку, яка додала ваше посилання. Звичайно, можна сподіватися, що рано чи пізно він її сам знайде, але чи не краще додати цю сторінку в базу відразу ж? Якщо посилань виходить дуже багато, має сенс створити сторінку, на якій перерахувати всі посилаються на ваш сайт сторінки, і вносити в пошуковик саме сторінки-список.

Не забувайте також регулярно вивчати логи і дивитися, звідки до вас ходять. Майже третина незнайомих мені посилань, за якими прийшли на мій сайт, виявлялися незареєстрованими в пошуковику.