Наша команда-партнер Artmisto
Поисковая оптимизация вращается вокруг того, чтобы помочь вашему контенту получить высокий рейтинг в поисковых системах, чтобы потенциальные клиенты могли его найти. Однако есть некоторые моменты, когда вы не хотите, чтобы боты сканировали и ранжировали ваши страницы. В этих случаях robots.txt может быть полезным ресурсом, который поможет направить сканеры сайтов к тем страницам, которые вы считаете более полезными.
Подъем Robots.txt
Самая ранняя форма файла robots.txt была разработан в середине 1990-х годов как способ помочь владельцам сайтов контролировать пауков, которые посетили их сайты. С тех пор он был доработан и расширен для обеспечения соответствия современным дизайнерам веб-сайтов. Инструкции, приведенные в коде, будут приняты поисковыми роботами основных поисковых систем, включая Google и Bing.
Robots.txt и SEO
Поскольку robots.txt используется для того, чтобы поисковые роботы не сканировали части сайтов, это может показаться противоположностью SEO, но правильное использование этих файлов иногда может помочь остальным сайтам получить высокий рейтинг.
Например, некоторые сайты генерируют две страницы с одинаковым содержимым, например, версия для печати веб-страницы. Google, однако, осуждает дублированный контент. Чтобы избежать возможных негативных последствий для вашего сайта, может быть полезно запретить роботам Google сканировать печатную версию страницы.
Robots.txt также может быть полезен при разработке нового сайта. Количество времени, которое требуется Google для индексации веб-сайтов, может варьироваться в широких пределах - от нескольких дней до нескольких недель. На расписание влияет несколько факторов, таких как популярность сайта. Учитывая непредсказуемость того, сколько времени потребуется для индексации веб-сайта, большинство людей хотят, чтобы их новые веб-сайты или новые веб-страницы были полностью подготовлены до их запуска. Это может помочь им максимально расширить возможности SEO, прежде чем боты Google будут сканировать новый контент.
Некоторые люди также будут использовать файлы, чтобы сохранить конфиденциальность личной информации. Поскольку страницы не будут сканироваться, они не будут отображаться в поисковых системах. Однако очень важно отметить, что использование файлов Robots.txt не обеспечивает безопасность информации. Думайте о Robots.txt как о просьбе - закрытой, но не закрытой двери. Боты Google не будут сканировать информацию, потому что будут уважать запрос. Однако существует множество вредоносных программ и спам-ботов, которые полностью игнорируют запрос и пробиваются на страницу. Это может привести к публикации или краже этой информации.
Google также может найти информацию на странице с помощью других мер, например, когда заблокированная страница связана с другими веб-сайтами. Сайты, которые содержат очень конфиденциальную информацию, должны убедиться, что она защищена гораздо более безопасными мерами, такими как брандмауэр.
Использование Robots.txt
Создание файла robots.txt не является сложным процессом, но это было сделано именно для того, чтобы избежать ошибок. Простые опечатки в коде могут легко аннулировать его, и вы в конечном итоге будете непреднамеренно сканировать страницы. К счастью, Google разработал инструмент тестирования это позволяет вам по крайней мере проверить, как боты Google будут реагировать на ваш файл robots.txt.
Есть несколько важных правил, которые вы должны помнить при использовании этой системы:
- все буквы 'robots.txt' должны быть написаны в нижнем регистре
- файл должен быть помещен в каталог верхнего уровня веб-сервера
- есть только один «Disallow», который можно использовать для каждого URL на сайте
- субдомены, которые совместно используют общий корневой домен, должны иметь отдельные файлы robots.txt
- Вы не можете использовать пробелы для разделения параметров запроса.
Если одно из этих правил нарушено, файл не будет работать так, как задумано.
Базовый файл robots.txt будет выглядеть так:
пример из http://www.robotstxt.org/robotstxt.html
Указывая user-agent как '*', файл сообщает пауку, что это правило применяется ко всем поисковым роботам. «/» После запрещения означает, что это правило применяется ко всем страницам на этом конкретном сайте.
Однако в определенных ситуациях вам может понадобиться использовать файл для блокировки определенной части веб-сайта, например, каталога. В этой ситуации вам необходимо заменить '/' на имя каталога, например:
пример из http://www.robotstxt.org/robotstxt.html
Если паукам нужно избегать более одного каталога, файл может выглядеть так:
пример из http://www.robotstxt.org/robotstxt.html
Обратите внимание, что в приведенном выше примере в каждой строке указан только один «Запретить» и одна папка каталога.
Также могут быть случаи, когда вы хотите заблокировать только определенных ботов, но пауки с других сайтов могут проходить через страницу. Если это так, то файл должен назвать конкретного бота:
пример из http://www.robotstxt.org/robotstxt.html
Важно знать, что также возможно добиться обратного. Если вы хотите разрешить на сайт только один веб-сканер, а остальные заблокировать, вам понадобятся две части для вашего файла.
пример из http://www.robotstxt.org/robotstxt.html
Первая часть файла выше говорит Google, что разрешено исследовать весь сайт. Поскольку после Disallow ничего нет, Google интерпретирует его как открытый для сканирования. Вторая часть уравнения говорит остальным роботам, что они не могут войти на сайт.
Важно отметить, что вы также можете запретить роботам исследовать определенные страницы - это не обязательно должны быть целые каталоги. Например, вы можете включить это в код своего сайта.
пример из http://www.robotstxt.org/robotstxt.html
Приведенный выше пример говорит всем паукам избегать определенных страниц.
Robots.txt является ценным ресурсом для тех, кто заинтересован в минимизации воздействия определенных частей своего веб-сайта. Изучение того, как использовать эти коды, может помочь людям оптимально создавать свои сайты.