Интервью Мэтта Каттса Эрику Энджу (2009 год, архив)

05.10.2011
By

Мэтт Каттс работает в Google в качестве тестировщика программного обеспечения с января 2000 года. До этого он работал преподавателем (в статусе кандидата наук) компьютерной графики в Университете Северной Каролины. Имеет научные степени в области математики и компьютерных наук Университета Кентукки.

Мэтт разработал SafeSearch – известный фильтр от Гугла.  Каттс работал в отделе «совершенно секретно» Министерства Обороны США, также участвовал в разработке игровых движков. Сейчас он говорит, что работать в Гугле намного веселее, чем на предыдущих местах работы:)

В данный момент Мэтт возглавляет команду Webspam. О нововведениях Google он рассказывает в своем блоге
Представляем вашему вниманию перевод (не дословный, а скорее литературный, потому что, если перевести дословно – получится бред) интервью Мэтта Каттса, взятое у него Эриком Энджом.

Интервью

Эрик Эндж: Давайте поговорим о концепции сканирования Гуглом. В моем понимании, робот Google посещает определенный сайт, зная сколько страниц он просканирует за день, и если на сайте еще остались непроиндексированные страницы, он ничего с ними делать не будет.

Мэтт Каттс: Вы неправы. Люди, которые думают, что домен может иметь строго определенное число страниц, совершенно не имеют понятия, как работает наш поисковик.

Нет никакого жесткого лимита числа просканированных страниц. Лучшим доказательством моих слов будет то, что количество проиндексированных страниц приблизительно пропорционально Page Rank. Если вы имеете несколько внешних ссылок на свою главную страницу, мы также их проиндексируем. Если ваша главная страница имеет ссылки на другие страницы, и они получили PR, они тоже будут индексироваться.  Чем более сложнее и запутаннее структура вашего сайта, тем больше упадет ваш PR.

Другой причиной снижения общего PR на сайте является передача ссылочного веса страницам с нулевым или очень маленьким Page Rank, на которые есть ссылки с главной. Страницы с низким PR имеют меньший приоритет при сканировании.

Еще одна вещь, которая может быть интересна с точки зрения обхода лимита на индексацию – концепция нагрузки на хост. Нагрузка на хост определяется максимальным количеством одновременных подключений, которые может обеспечить сервер.  Допустим, у нас есть сервер, у которого хватает ресурсов обеспечить работу лишь одного поискового робота в одно время. Такой робот сможет проиндексировать весьма ограниченное количество страниц и создаст очень небольшую нагрузку на хост, в то время как сайты подобные FaceBook или Twitter очень сильно нагружают сервер и выдерживают множество одновременных подключений.

Ваш сайт может быть на виртуальном хосте с множеством других сайтов на одном IP-адресе. Теоретически это может замедлить скорость индексации вашего ресурса. Если поисковик не может, из-за нагрузки на сервер, проиндексировать больше некоторого количества страниц, за определенный промежуток времени, это число и будет границей индексации для этого хоста.

Эрик Эндж: Итак, существует два фактора. Один из них PageRank, который определяет, как долго будет сканироваться сайт. Но на время сканирования также будет влиять нагрузка на сервер.

Мэтт Каттс: Правильно. Более того, в подавляющем большинстве сайтов, PR и некоторые другие факторы будут определять, насколько тщательно пройдет индексация. Допустим, у нас на сайте есть 3 страницы. При индексации мы обнаруживаем, что две из этих страниц являются дубликатами третьей. Мы удалим из индекса 2 страницы и оставим только одну. В дальнейшем поисковик будет приделять меньше внимания этому сайту.

Если у вас большая нагрузка на сервер, поисковик может проиндексировать ограниченное число страниц с вашего сайта. Если при этом у вас есть дублированный контент, вы теряете возможность получить в индексе качественные, уникальные страницы.

Эрик Эндж: Это похоже на классический совет, который вы всегда даете людям – дублированный контент будет расходовать впустую ресурсы поисковых роботов.

Мэтт Каттс: Да, это так. Идея в том, что ваш PageRank – это как кредит доверия к вашему сайту и высокий его показатель заставит поисковик индексировать все больше и больше страниц с вашего сайта. Но это доверие может быть испорчено дублированным контентом и большой загруженностью сканируемого сервера.

Эрик Эндж: Другая концепция о которой стоит поговорить – это пустая трата ссылочного веса. Я собираюсь использовать термин PageRank, но на самом деле подразумеваю более обширное понятие «ссылочный вес», которые определяет концепцию доверия и авторитетности сайта для поисковой машины. Когда мы ссылаемся с одной страницы на её дубль, мы ведь теряем PageRank, правда?

Мэтт Каттс: Есть способ решить эту проблему. Разумеется, дублированный контент не самый значимый фактор, определяющий, как много страниц попадет в индекс, но вполне весомый. Мой стандартный совет, тем, кто пытается добиться лучшей оптимизации архитектуры сайта – используйте 301 редирект для склейки дублирующих URL-ов с основным (какой неожиданный совет:)). Если нет возможности использовать 301 редирект, используйте параметр rel=canonical для ссылок.

Некоторые люди не имеют соответствующих прав на создание 301 редиректа (например, если сайт на бесплатном хостинге). Но если права все же есть, рекомендуется настроить редирект в обязательном порядке или параметр rel=canonical.

Эрик Эндж: Собственно, этот совет уже как негласный стандарт. Давайте уточним, вы имеете страницу, на которую ссылаются десять страниц. Если три страницы из этих десяти являются дубликатами, означает ли, что ваша страница потеряет три «голоса»?

Matt Cutts: Не обязательно. Это одна из тех вещей, ради исследования которых проводят эксперименты. Вместо того чтобы уменьшить доверие поисковика к странице из-за дубликата, мы «склеиваем» дубли и считаем их за одну. То есть, если на страницу ссылаются три дубликата, ей передастся их общий ссылочный вес.

В целом не факт, что PR полностью теряется при неправильной перелинковке. Это зависит от версии поискового движка и его реализации. Каждый новый алгоритм поисковой системы работает по-разному, поэтому универсальным решением будет случай, когда каждая страница ссылается на другую один раз.

Исходники статьи

Tags:

Comments are closed.

Яндекс.Метрика