Категории

Сканирование и индексирование больших веб-страниц.

Сканирование бюджета и индекс бюджета
Ваши враги: веб-разработчики, JavaScript и общий хаос
Выбери свое оружие: robots.txt, noindex, canonical
Noindex заявление
Canonical Примечание
Мониторинг обязателен

Наша команда-партнер Artmisto

Как только веб-сайты превышают типичный размер частной домашней страницы, возникает много новых проблем. Одним из них является то, что существующий контент принадлежит как можно более полно и актуально в индексе Google. То, что звучит так просто, особенно для очень крупных веб-сайтов, контент которых поступает из разных баз данных и от разных поставщиков, имеет неисчислимые возможности для серьезных ошибок. Поскольку Google даже ограничивает ресурсы для захвата и хранения веб-сайтов, Google использует индивидуальные ограничения для каждого домена: сколько URL-адресов сканируется в день, сколько таких страниц разрешено в GoogleIndex? Обширные веб-сайты быстро достигают этих пределов. Поэтому важно использовать доступные ресурсы максимально разумно и продуктивно. В этом посте я хотел бы кратко объяснить предысторию, представить возможные методы контроля и показать их преимущества и недостатки.

Сканирование бюджета и индекс бюджета

Хотя эти два термина тесно связаны с точки зрения содержания, существуют важные различия. Чтобы понять это, взгляните на схематическую (и упрощенную) структуру поисковой системы в Интернете:

Чтобы содержимое домена имело возможность сузить алгоритм ранжирования для искомого термина, он должен сначала быть найден сканером, а также записан и, наконец, включен в индекс.

Google сделал некоторые предположения о поведении робота Googlebot, что позволяет роботу Google достигать двух целей: быстро находить новый контент и надежно читать контент, скрытый глубоко на странице. Как Google это делает, зависит от бюджета сканирования домена. До сих пор Google блокировал атаки на равенство всех доменов и назначал каждому домену свой собственный бюджет сканирования. Этот бюджет обхода в значительной степени определяет, как часто робот Googlebot сканирует первые уровни домена и как часто происходит глубокий обход домена.

Он похож на бюджет индекса: он задает максимальное количество URL-адресов в домене, которое будет включено в индекс Google. Важно помнить, что только те URL-адреса, которые регулярно регистрируются искателем, будут постоянно находиться в индексе.

Ваши враги: веб-разработчики, JavaScript и общий хаос

Теоретически, мир может быть таким простым: каждая часть контента, связанная с контентом, имеет ровно один логический и говорящий URL. URL будет длиться в течение следующих нескольких десятилетий. К сожалению, практика часто выглядит иначе: веб-разработчики только создают третью печатную версию статьи, робот Googlebot снова изучает некоторый JavaScript и, таким образом, изобретает совершенно новые URL-адреса, а после третьего перезапуска CMS через два года также использует исходную концепцию URL-адресов. осталось не так много Общим для всех проблем является то, что они приводят к эффекту: Google будет сканировать URL-адреса, тем самым расходуя бюджет сканирования домена. Особенно в больших проектах, эта сила обхода часто отсутствует в других местах. Это может привести к тому, что домен не будет занимать максимальное количество страниц в индексе Google и, таким образом, останется ниже своего потенциального длиннохвостого потенциала.

Теперь должно стать ясно, что целенаправленный контроль сканирования и индексации домена практически неизбежен для крупных веб-сайтов. В качестве бонуса это дает еще больше преимуществ. Хотя Google годами пыталась утверждать, что дублированный контент для них не является проблемой, в действительности, к сожалению, речь идет о другом языке. Порядок сканирования и систематика помогают своевременно выявлять и устранять возможные проблемы с внутренним дублированием контента. И даже с одним из пушистых распространителей ужасов может помочь довольно мало, но качественный контент в индексе: Google Panda.

Выбери свое оружие: robots.txt, noindex, canonical

Что касается теории, сейчас приходит практика: как сохранить свой домен в чистоте? К счастью, сейчас есть очень большой и обширный арсенал инструментов для достижения цели. Я хотел бы кратко представить наиболее важные с их преимуществами и недостатками.

Инструкции в файл robots.txt являются старейшим инструментом, предотвращающим посещение поисковыми системами определенного контента. Хотя синтаксис поначалу был довольно простым, в частности, в Google теперь реализовано множество улучшений, позволяющих охватить практически все случаи. Преимущество robots.txt: робот Googlebot не будет даже посещать заблокированный контент, поэтому нет никакого обходного бюджета. Недостаток: если Google убежден, что контент по-прежнему важен (поскольку, например, многие внешние ссылки показывают именно этот URL), URL все равно отображается в поисковой выдаче - только без заголовка и фрагмента.

Noindex заявление

Noindex заявление всегда относится к конкретному URL. Он может быть сохранен как метатег в HTML страницы или в заголовке HTTP. Последнее особенно интересно для других форматов файлов, таких как документы PDF или Word. Чтобы знать о директиве Noindex, робот Googlebot должен сначала прочитать URL-адрес. Бюджет сканирования исчерпан, но нет индекса бюджета. Noindex - единственный надежный способ гарантировать, что URL не появится в поисковой выдаче ни при каких обстоятельствах. Убедитесь, что Google также может прочитать инструкцию, чтобы URL-адрес не был дополнительно заблокирован в файле robots.txt.

Canonical Примечание

В самом начале: существует очень мало законных случаев использования Canonical Примечание , Если веб-разработчик предлагает использование, это обычно происходит потому, что настоящая проблема не должна быть решена, а эффекты смягчаются только с помощью тега Canonical. Тег Canonical, как и robots.txt и Noindex, не является обязательным для Google заявлением, а просто подсказкой, по какому URL можно найти содержимое. Google часто следует этому совету, но, конечно, не всегда. Канонические страницы тегов используют бюджеты обхода, чтобы Google мог найти тег и, скорее всего, бюджет индекса, чтобы Google мог сопоставить контент на странице с другим контентом в индексе. Наконец: держитесь подальше от канонического дня, где это возможно.

Мониторинг обязателен

При сканировании больших и динамически растущих страниц существует только одна константа: любые ошибки, которые могут произойти, обязательно произойдут. Поэтому регулярная проверка всех важных параметров имеет важное значение. У Google теперь есть важная поддержка в консоли поиска: количество просканированных и проиндексированных страниц должно быть обязательным показателем. Но также полезна склонность к чтению лог-файлов сервера и умелое использование инструментов оболочки. Позвольте мне также отметить, что наш набор инструментов может взять на себя задачи для контроля.