SEO тест: читает ли Google заблокированный контент через robots.txt?

Быстрые ссылки в статье
Перейти к подробным обзорам таблиц
Еще больше интерпретаций на текущем веб-сайте Boosing # 33
Что должен показать и засвидетельствовать тест robots.txt?
Что должен сказать тест
Гипотеза: поисковые системы индексируют заблокированный контент, как только он имеет заголовок
Тестовая среда на nBlogs
Больше контента без WordPress
Третий тест: индексирует ли Google Google Analytics, Android или браузер Chrome?
Подождите, пока robots.txt не будет обновлен в Google
Вторичный тест ключевого слова: сканирует контент Google, который был заблокирован?
Отправлено по почте: Facebook и Google+ сканируют контент
Bing также не работает и сканирует запрещенный контент
Только результаты поиска Google были оптимальными с самого начала до robots.txt
Общий балл № 1: заблокированные статьи блога
Общая оценка №2: статические HTML-страницы
Общий балл № 3: несвязанные страницы с кодом отслеживания Google Analytics
Вывод: Google придерживается robots.txt!
Небольшой Sitekick к выводу: тест Unfairer против Bing и Yahoo !?

Наша команда-партнер Artmisto

В тесте SEO я исследовал, если и как поисковые системы Google, Bing и Yahoo! а также Facebook, Twitter и Google+ через robots.txt блокировали контент, но каким-то образом читали и включали в индекс. Вот результат.

Краткий обзор: 27 марта я разместил 8 статей и еще 10 статических HTML-страниц здесь на nBlogs, все из которых были заблокированы файлом robots.txt для всех ботов. Это выглядит так в robots.txt:

Пользователь-агент: *
Disallow: / reads-google-per-robots-txt-locked-content
Disallow: / testfolder /
Disallow: /? P = 5355
Disallow: /? P = 5357
Disallow: /? P = 5358
Disallow: /? P = 5359
Disallow: /? P = 5360
Disallow: /? P = 5361
Disallow: /? P = 5362
Disallow: /? P = 5363

Быстрые ссылки в статье

Краткое резюме: Кто что оценивает?

Тестовый период составил 6 дней, всего 147 часов. С этого периода можно почерпнуть следующие утверждения об индексируемости robots.txt и для платформ Google, Bing, Yaoo !, Facebook, Twitter и Google+ с 18 протестированными веб-материалами:

Результат веб-службы Google Веб-поиск Google пытается проиндексировать каждый заблокированный контент, как только URL-адрес будет связан с веб-сайта.

Google работает очень быстро и получает контент - несмотря на блокировку - в течение 48 часов в индексе.
Любой контент, который был связан с веб-сайтом, был включен в индекс.
Google использует в поисковом фрагменте синий заголовок текста ссылки на заблокированную страницу.
Описание - классическая ошибка robots.txt.
Весь проиндексированный контент не был просканирован, как robots.txt.
Тег заголовка, Noindex, код Google Analytics и вызов браузера Google Chrome для Android не имели значения. Они не были рассмотрены Google.

Bing Web Search

Bing работает очень медленно с включением новых страниц в их индекс, но все же пытается включить в индекс весь найденный контент.

Bing не включил в статью «статьи, не относящиеся к блогам», хотя они были активно связаны между собой.
Только 7 из 8 статей блога (все связанные) и 0 из 8 статических элементов HTML (4 из 8 связанных) были включены в индекс.
Bing потерпел неудачу в 2 из 8 статей блога и взял название сайта - поэтому просканировал его, несмотря на запрет robots.txt.

Yahoo!Веб-поиск

Yahoo! Как и Bing, он также очень медленный с добавлением нового контента. Хотя Bing для Yahoo! в сочетании друг с другом, результаты немного отличаются. Даже Yahoo! пытается включить весь контент в индекс.

Yahoo! добавил все статьи блога в индекс.
Все статические HTML-страницы, которые были связаны только с веб-сайта, не были включены в индекс.
Yahoo! потерпел неудачу, как Bing в 2 статьях блога (из 8) и потратил там заголовок в качестве результата поиска - поэтому страницы просканировались.

Facebook Share

Facebook не волнует, что говорит robots.txt. Когда что-то публикуется в Facebook, страница все еще проверяется.

Титулы были приняты.
Описания или текст статей были использованы.
Изображения продуктов используются.

Twitter Tweet

В отличие от Facebook, Twitter не предоставляет никакой дополнительной информации о ссылках. Google+ Share Google+ публикует контент с сайта, делясь ссылкой.

Тег заголовка принят.
Изображение из статьи используется.
Но: акции Google+ не влияют на обычные результаты поиска Google.

Перейти к подробным обзорам таблиц

Пропустите тестовую среду и перейдите прямо к оценкам, которые были сведены в таблицы:

В противном случае, тестовая среда следует - и что все это должно (сказать). 😉

Еще больше интерпретаций на текущем веб-сайте Boosing # 33

Дополнительные заметки о результатах тестов и деривациях можно найти в последнем выпуске сайта Boosing # 33. Там я опишу этот тест Noindex и еще два теста для Nofollow атрибут и это Тест Noindex ,

Цена: 9,80 евро (+ почтовые расходы)

Что должен показать и засвидетельствовать тест robots.txt?

Целью этого теста было выяснить, как и каким образом поисковые системы каким-либо образом регистрируют контент в индексе, даже если он был заблокирован файлом robots.txt. Контент обрабатывался по-разному и передавался поисковым системам, как я объясняю более подробно.

Например, что сайты Google по-прежнему включать в свой индекс, даже если они заблокированы robots.txt, это бесспорно. Вместо этого это описание будет выведено в результат поиска:

Содержимое, заблокированное robots.txt, появляется в результатах поиска Google. Собственный скриншот

Из-за robots.txt этого сайта, нет описания для этого результата. дальнейшая информация

Что должен сказать тест

Будет ли заблокированный контент каким-либо образом проиндексирован в Google?
- Какой заголовок Google использует в своих результатах поиска при индексировании?
Контент напрямую проверяется Google, т.е. сканируется, несмотря на запрет ?
Если контент входит в индекс, какие факторы играют роль?

Конечно, у меня были не только все эти точки в моей поисковой системе Google , но также Bing и Yahoo! испытания. Кроме того, я проверил платформы социальных сетей Facebook , Twitter и Google+ и их пригодность для контента. Кто придерживается robots.txt, кто использует трюки, а кто не придерживается его?

Гипотеза: поисковые системы индексируют заблокированный контент, как только он имеет заголовок

Моя гипотеза перед тестом была следующей (скопируйте пасту из тестовых статей):

Google будет включать все страницы, ссылки на которые есть на сайте
- Заголовок результата поиска будет текстом ссылки , а не текущим заголовком веб-страницы.
Google по крайней мере постарается включить все страницы, внесенные в карту сайта.
- Вопрос, однако, заключается в том, записаны ли они на самом деле, если карта сайта упоминает только URL, а не заголовок и не связана иным образом.
- Аналогично поиску картинок Google: изображение в XML-файле Sitemap можно передавать, чтобы оно быстрее включалось в индекс; но он также должен быть включен на видимом веб-сайте, чтобы появиться в поиске изображений.

Bing и Yahoo! будет действовать аналогично.

Как будут вести себя Facebook, Twitter и Google+, я понятия не имел. Тем лучше представить эти результаты сейчас.

Тестовая среда на nBlogs

В этом тесте 18 страниц на nextlevelSEO.de были размещены в сети, и все они были заблокированы файлом robots.txt. Почему 18 страниц? Я хотел убедиться, что все различные варианты приняты во внимание . Со страницы, которая была максимально связана и геширирована, и страниц, которые вообще не были связаны и геширированы.

Он всегда публиковал статью в блоге со следующими свойствами:

robots.txt Тест: статья в блоге Да? Нет? Перевести на XML Sitemap? Raw Отсканировано вручную в Google / Bing Инструменты для веб-мастеров ✔ Мета-роботы: Noindex ✔ ✔

Таким образом, всего 9 статей в блоге 8 статей в блоге. 2³ = 2 × 2 × 2 = 8.

Каждая из этих статей блога имела одно из показанных свойств. Так, например, « В файле сайта YES вручную попытались сканировать в Google / Bing Инструменты для веб-мастеров NO, Meta Robots NOINDEX .

Больше контента без WordPress

Кроме того, я хотел протестировать контент, который не был опубликован непосредственно в WordPress, - который напрямую не связан с домашней страницей в классической области контента, а не в категориях или тегах с заголовком + ссылкой, а не с тизером и изображением статьи. Я проверил это:

robots.txt Тест: статический контент Да? Нет? Перевести на XML Sitemap? ✔ Отсканировано вручную в Google / Bing Tools для веб-мастеров ✔ ed Связано ли с помощью навигации по заголовкам? ✔ ✔

Опять же, «всего» 8 содержимого, так как 2³ = 8 содержимого.

В этих случаях я не проверял метатег роботов "Noindex", потому что первый тест уже должен быть достаточно значимым. Кроме того, Noindex помог бы мне с анализом, потому что я не мог легко проверить, что исследовал поисковик.

Третий тест: индексирует ли Google Google Analytics, Android или браузер Chrome?

Третий тест охватывает всего две страницы, но они очень интересны по-своему. На двух статических HTML-страницах (не на WordPress) я включил код отслеживания Google Analytics. Эти две страницы не были включены в файл Sitemap в формате XML и не были иным образом переданы в Google или Bing, ни связаны, ни предоставлены для совместного использования. Единственный способ, которым Google мог бы рассмотреть эти страницы, - через Google Analytics, позвонив на устройство Android или через браузер Google Chrome. И я делал это чаще разными способами в этот период.

robots.txt Тест: статические страницы с кодом отслеживания Google Analytics Да? Нет? Код Google Analytics включен и иным образом не преднамеренно передан, связан или раскрашен ✔ ✔

Подождите, пока robots.txt не будет обновлен в Google

Конечно, проверка с Google будет небрежно ошибочной, если вы сразу же включите контент, прежде чем Google прочитает текущий файл robots.txt. Кроме того, я не публиковал и не публиковал статьи до того, как не смог убедиться через Инструменты Google для веб-мастеров, что у них был последний файл robots.txt.

Поэтому я обновил файл robots.txt, как описано выше, с заблокированным контентом, повторно отправил его в Инструменты Google для веб-мастеров, перестраховал его на короткое время, проверил, затем опубликовал и загрузил статьи, а затем проверил их вручную страницы заблокированы Google на robots.txt. И они сделали все в конце.

Вторичный тест ключевого слова: сканирует контент Google, который был заблокирован?

В качестве дополнительного теста у меня есть ключевое слово во всех моих собственных материалах, заблокированных robots.txt - все они продаж депозит, который имеет ровно 0 результатов поиска в Google до публикации: "SoYusSEOBoostbyME"

txt - все они продаж депозит, который имеет ровно 0 результатов поиска в Google до публикации: SoYusSEOBoostbyME

Тест по ключевым словам в Google: SoYusSEOBoostbyME - результатов нет даже после теста

В тесте я хотел точно узнать, выводится ли результат поиска для этого «странного» поискового запроса после выполнения теста, и будет ли это одна из моих заблокированных страниц. Ключевое слово присутствовало в статьях, но только для того, чтобы они были опубликованы только на этих страницах. Так что не на тегах, страницах категорий или других страницах ...

Так что я могу легко сказать, Google, Bing или Yahoo! на самом деле видел этот термин. И это будет работать только в том случае, если страница - несмотря на заблокированный контент в robots.txt - все еще будет сканироваться и выводиться как поисковый запрос.

И так много результатов поиска были предоставлены моим сайтом nextlevelSEO.de:

Ключевое слово "SoYusSEOBoostbyME" найдено? Количество найденных результатов поиска. Google 0 Bing 2 Yahoo! 2

Теперь немного подробнее о результатах:

Отправлено по почте: Facebook и Google+ сканируют контент

Меньше чем через час-шесть дней (снова протестировано сегодня) после публикации всего контента (от относительно быстрого до относительно длинного) я увидел, что Facebook и Google+, вероятно, не придерживаются текущего robots.txt. Это понятно по частям, потому что по природе они не боты и не гусеницы в общем технологическом смысле.

Тем не менее, это немного прискорбно, потому что на самом деле, как веб-мастера, можно ожидать или думать, что Facebook и Google+ не проверяют заблокированное содержимое, если вообще пытаются все по robots.txt auszuperren.

Скриншоты об этом:

Facebook полностью игнорирует robots.txt и принимает заголовок, содержание статьи и изображение из статьи

txt и принимает заголовок, содержание статьи и изображение из статьи

Google+ игнорирует robots.txt и получает заголовок и изображение в статье

Только Твиттер только что связал контент, как он должен:

Заблокировано robots.txt: Twitter не читает содержание статьи

Это означает, что Facebook и Google+ не придерживаются текущего файла robots.txt. Они не проверяют их в режиме реального времени.

Bing также не работает и сканирует запрещенный контент

Как описано, robots.txt запрещает всем ботам «входить» в статьи вообще. Похоже, что Bing этого не делает, хотя я сказал через robots.txt, что им запрещено читать статьи.

Конечно, это относится и к тем статьям, которые были связаны с картой сайта XML, и чье сканирование я заказал лично и через несколько минут после публикации в инструментах веб-мастеров Bing. И, конечно, я сделал следующий снимок экрана через некоторое время после релиза. Но знак остановки в файле robots.txt был явно пропущен. Это все равно дало бы очки во Фленсбурге, мой друг ...

BingBot игнорирует файл robots.txt

Кроме того, до вечера понедельника, 20:00, эти две страницы попали в индекс Bing:

Результат поиска Bing с двумя URL-адресами и их содержимым (тег заголовка и раздел содержимого), хотя URL-адреса заблокированы файлом robots.txt. Снимок экрана с понедельника, 8:00 вечера, через 68 часов после выхода заблокированного контента .

Только результаты поиска Google были оптимальными с самого начала до robots.txt

Google был единственной из трех классических поисковых систем, которая могла обрабатывать файл robots.txt, сканируя контент и добавляя его в индекс.

txt, сканируя контент и добавляя его в индекс

Результаты поиска Google по заблокированному контенту от robots.txt

Но я должен еще раз упомянуть об этом, чтобы стало ясно: → Нечестное испытание против Bing и Yahoo!?

Общий балл № 1: заблокированные статьи блога

Следующий анализ включал 8 статей в блогах, которые были опубликованы в WordPress как обычные статьи. Содержимое было связано в течение 6 дней на стартовой странице заголовком статьи, как и теперь другие статьи (заголовок ссылки + тизер).

Содержимое было связано в течение 6 дней на стартовой странице заголовком статьи, как и теперь другие статьи (заголовок ссылки + тизер)

Статьи блога заблокированы в robots.txt в WordPress. Как ведут себя поисковые системы? Кто же индексирует контент? Собственная оценка (CC-BY 3.0 - может использоваться вами!)

Важные заметки к столу
Цвета: зеленый означает «да» или «да, все», красный означает «нет» или «нет всего», желтый означает «частично».
Ссылки в блоге : статья была связана непосредственно на стартовой странице, страницах тегов, страницах категорий - для статей блога в области контента, для статических HTML-страниц (из общего балла № 2), глобальных в главном меню
Сканирование вручную Google WMT : если это так, попытайтесь вручную сканировать страницу в Инструментах Google для веб-мастеров и в Инструментах Bing для веб-мастеров. Конечно, Google WMT выдал ошибку, но все же попробовал.
Приземлился в индексе : за сайт: -вопрос проверен
Noindex учитывает : конечно, метатег роботов <meta name = "robots" содержание = "Noindex" />
Используемый заголовок : использовался ли заголовочный тег <title>? Если нет, то в результатах поиска во всех случаях выводился соответствующий текст ссылки.
Описание = содержимое страницы / описание прочитано : Если да, текст был прочитан с веб-сайта (неважно, мета-описание или контент). Если нет, то была возвращена ошибка по умолчанию "Из-за robots.txt этого веб-сайта описание этого результата недоступно. Дальнейшая информация"
Используемое изображение : Если это так, либо изображение статьи, либо любое другое изображение этой подстраницы было считано и использовано.
Конечно, эти заметки также относятся к следующим двум оценкам!

Общая оценка №2: статические HTML-страницы

Эта оценка включает в себя 8 статических HTML-страниц, которые я загрузил в подпапку. Они были созданы не как «страницы» в WordPress, а как действительно отдельные HTML-страницы и просто соответствуют макету и дизайну nBlogs. Все Java-скрипты и вся область <head> были очищены, так что у них был только один заголовок и CSS.

Все Java-скрипты и вся область <head> были очищены, так что у них был только один заголовок и CSS

Статическое содержимое заблокировано файлом robots.txt, ссылки на который есть только в главном меню. Как ведут себя поисковые системы? Кто индексирует страницы в любом случае? Собственная оценка (CC-BY 3.0 - может использоваться вами!)

* URL = Google использовал URL в поисковом фрагменте в качестве заголовка - поэтому заголовок отсутствует, но также не принят текст ссылки (которого он в любом случае не существовал). Но тем не менее страница попала в указатель.

Общий балл № 3: несвязанные страницы с кодом отслеживания Google Analytics

Как и в оценке # 2, эти страницы также были созданы вручную с помощью HTML. Тем не менее, они нигде не были ни связаны, ни лишены. Единственный вариант индексирования: Google Android, браузер Google Chrome или код Google Analytics . Конечно, страницы вызывались вручную несколько раз в неделю через прокси и даже через сеть TOR. По крайней мере, Google Analytics распознает посетителей на страницах. Оценка в любом случае говорит:

Оценка в любом случае говорит:

Статические HTML-страницы заблокированы файлом robots.txt со встроенным кодом отслеживания Google Analytics. Записал ли Google и проиндексировал ли контент? Собственная оценка (CC-BY 3.0 - может использоваться вами!)

Вывод: Google придерживается robots.txt!

Судя по моим тестам, я не могу сказать, что Google как Google Bot на самом деле читает заблокированный контент. Google, похоже, уважает robots.txt и не заходит на заблокированные страницы.

В отличие от платформы социальных сетей Google+, но и Facebook. Вот доля и сайт вдруг осматривается. Будь что будет. Только Твиттер здесь, чтобы похвалить среди трех размеров социальных сетей.

И это Бинг и Yahoo! выполз содержимое, я хочу закрыть глаза. потому что:

Небольшой Sitekick к выводу: тест Unfairer против Bing и Yahoo !?

К сожалению, я не нашел способа, чтобы Bing своевременно использовал их инструменты для веб-мастеров на текущем robots.txt для уведомления. Это немного несправедливо как по отношению к Bing, так и к Yahoo!, что я взломал опубликованный контент в инструментах Google и для веб-мастеров Bing, внеся изменения в файлы Sitemap XML, а также задание прямого сканирования менее чем за 60 минут. Потому что я поручил им (особенно теперь Bing, но и Yahoo!) сканировать страницы до того, как у них будет последний robots.txt - в отличие от Google, где я явно ждал обновления в инструментах для веб-мастеров.

Так что это немного несправедливо, я признаю.

С другой стороны, меня больше всего интересовал Google и то, как они считают robots.txt. Bing и Yahoo! были с самого начала только в виде сладостей , поэтому считали бонусом к статистике. И результаты действительно хороши, потому что они просмотрели только две статьи в реальном времени за столь короткий промежуток времени. 🙂

Подобные тесты

Txt?
Txt?
Txt, кто использует трюки, а кто не придерживается его?
Почему 18 страниц?
Txt Тест: статья в блоге Да?
Нет?
Перевести на XML Sitemap?
Txt Тест: статический контент Да?
Нет?
Перевести на XML Sitemap?

Категории

Новости