Категории

  • Голосование
  • Право голоса
  • Киев
  • Украина
  • Здоровье
  • Популярное
  • Новости
  • Новости

      Artmisto
      Наша команда-партнер Artmisto. С "Buddy.Bet" азартные игроки найдут идеальное место для развлечений и возможность выиграть крупные суммы.

    SEO тест: читает ли Google заблокированный контент через robots.txt?

    1. Быстрые ссылки в статье
    2. Перейти к подробным обзорам таблиц
    3. Еще больше интерпретаций на текущем веб-сайте Boosing # 33
    4. Что должен показать и засвидетельствовать тест robots.txt?
    5. Что должен сказать тест
    6. Гипотеза: поисковые системы индексируют заблокированный контент, как только он имеет заголовок
    7. Тестовая среда на nBlogs
    8. Больше контента без WordPress
    9. Третий тест: индексирует ли Google Google Analytics, Android или браузер Chrome?
    10. Подождите, пока robots.txt не будет обновлен в Google
    11. Вторичный тест ключевого слова: сканирует контент Google, который был заблокирован?
    12. Отправлено по почте: Facebook и Google+ сканируют контент
    13. Bing также не работает и сканирует запрещенный контент
    14. Только результаты поиска Google были оптимальными с самого начала до robots.txt
    15. Общий балл № 1: заблокированные статьи блога
    16. Общая оценка №2: статические HTML-страницы
    17. Общий балл № 3: несвязанные страницы с кодом отслеживания Google Analytics
    18. Вывод: Google придерживается robots.txt!
    19. Небольшой Sitekick к выводу: тест Unfairer против Bing и Yahoo !?

    Наша команда-партнер Artmisto

    В тесте SEO я исследовал, если и как поисковые системы Google, Bing и Yahoo! а также Facebook, Twitter и Google+ через robots.txt блокировали контент, но каким-то образом читали и включали в индекс. Вот результат.

    Краткий обзор: 27 марта я разместил 8 статей и еще 10 статических HTML-страниц здесь на nBlogs, все из которых были заблокированы файлом robots.txt для всех ботов. Это выглядит так в robots.txt:

    Пользователь-агент: *
    Disallow: / reads-google-per-robots-txt-locked-content
    Disallow: / testfolder /
    Disallow: /? P = 5355
    Disallow: /? P = 5357
    Disallow: /? P = 5358
    Disallow: /? P = 5359
    Disallow: /? P = 5360
    Disallow: /? P = 5361
    Disallow: /? P = 5362
    Disallow: /? P = 5363

    Быстрые ссылки в статье

    Краткое резюме: Кто что оценивает?

    Тестовый период составил 6 дней, всего 147 часов. С этого периода можно почерпнуть следующие утверждения об индексируемости robots.txt и для платформ Google, Bing, Yaoo !, Facebook, Twitter и Google+ с 18 протестированными веб-материалами:

    Результат веб-службы Google Веб-поиск Google пытается проиндексировать каждый заблокированный контент, как только URL-адрес будет связан с веб-сайта.

    • Google работает очень быстро и получает контент - несмотря на блокировку - в течение 48 часов в индексе.
    • Любой контент, который был связан с веб-сайтом, был включен в индекс.
    • Google использует в поисковом фрагменте синий заголовок текста ссылки на заблокированную страницу.
    • Описание - классическая ошибка robots.txt.
    • Весь проиндексированный контент не был просканирован, как robots.txt.
    • Тег заголовка, Noindex, код Google Analytics и вызов браузера Google Chrome для Android не имели значения. Они не были рассмотрены Google.
    Bing Web Search

    Bing работает очень медленно с включением новых страниц в их индекс, но все же пытается включить в индекс весь найденный контент.

    • Bing не включил в статью «статьи, не относящиеся к блогам», хотя они были активно связаны между собой.
    • Только 7 из 8 статей блога (все связанные) и 0 из 8 статических элементов HTML (4 из 8 связанных) были включены в индекс.
    • Bing потерпел неудачу в 2 из 8 статей блога и взял название сайта - поэтому просканировал его, несмотря на запрет robots.txt.
    Yahoo!Веб-поиск

    Yahoo! Как и Bing, он также очень медленный с добавлением нового контента. Хотя Bing для Yahoo! в сочетании друг с другом, результаты немного отличаются. Даже Yahoo! пытается включить весь контент в индекс.

    • Yahoo! добавил все статьи блога в индекс.
    • Все статические HTML-страницы, которые были связаны только с веб-сайта, не были включены в индекс.
    • Yahoo! потерпел неудачу, как Bing в 2 статьях блога (из 8) и потратил там заголовок в качестве результата поиска - поэтому страницы просканировались.
    Facebook Share

    Facebook не волнует, что говорит robots.txt. Когда что-то публикуется в Facebook, страница все еще проверяется.

    • Титулы были приняты.
    • Описания или текст статей были использованы.
    • Изображения продуктов используются.
    Twitter Tweet

    В отличие от Facebook, Twitter не предоставляет никакой дополнительной информации о ссылках. Google+ Share Google+ публикует контент с сайта, делясь ссылкой.

    • Тег заголовка принят.
    • Изображение из статьи используется.
    • Но: акции Google+ не влияют на обычные результаты поиска Google.

    Перейти к подробным обзорам таблиц

    Пропустите тестовую среду и перейдите прямо к оценкам, которые были сведены в таблицы:

    В противном случае, тестовая среда следует - и что все это должно (сказать). 😉

    Еще больше интерпретаций на текущем веб-сайте Boosing # 33

    Еще больше интерпретаций на текущем веб-сайте Boosing # 33

    Дополнительные заметки о результатах тестов и деривациях можно найти в последнем выпуске сайта Boosing # 33. Там я опишу этот тест Noindex и еще два теста для Nofollow атрибут и это Тест Noindex ,

    Цена: 9,80 евро (+ почтовые расходы)

    Что должен показать и засвидетельствовать тест robots.txt?

    Целью этого теста было выяснить, как и каким образом поисковые системы каким-либо образом регистрируют контент в индексе, даже если он был заблокирован файлом robots.txt. Контент обрабатывался по-разному и передавался поисковым системам, как я объясняю более подробно.

    Например, что сайты Google по-прежнему включать в свой индекс, даже если они заблокированы robots.txt, это бесспорно. Вместо этого это описание будет выведено в результат поиска:

    Содержимое, заблокированное robots.txt, появляется в результатах поиска Google. Собственный скриншот

    Из-за robots.txt этого сайта, нет описания для этого результата. дальнейшая информация

    Что должен сказать тест

    • Будет ли заблокированный контент каким-либо образом проиндексирован в Google?
      • Какой заголовок Google использует в своих результатах поиска при индексировании?
    • Контент напрямую проверяется Google, т.е. сканируется, несмотря на запрет ?
    • Если контент входит в индекс, какие факторы играют роль?

    Конечно, у меня были не только все эти точки в моей поисковой системе Google , но также Bing и Yahoo! испытания. Кроме того, я проверил платформы социальных сетей Facebook , Twitter и Google+ и их пригодность для контента. Кто придерживается robots.txt, кто использует трюки, а кто не придерживается его?

    Гипотеза: поисковые системы индексируют заблокированный контент, как только он имеет заголовок

    Моя гипотеза перед тестом была следующей (скопируйте пасту из тестовых статей):

    • Google будет включать все страницы, ссылки на которые есть на сайте
      • Заголовок результата поиска будет текстом ссылки , а не текущим заголовком веб-страницы.
    • Google по крайней мере постарается включить все страницы, внесенные в карту сайта.
      • Вопрос, однако, заключается в том, записаны ли они на самом деле, если карта сайта упоминает только URL, а не заголовок и не связана иным образом.
      • Аналогично поиску картинок Google: изображение в XML-файле Sitemap можно передавать, чтобы оно быстрее включалось в индекс; но он также должен быть включен на видимом веб-сайте, чтобы появиться в поиске изображений.

    Bing и Yahoo! будет действовать аналогично.

    Как будут вести себя Facebook, Twitter и Google+, я понятия не имел. Тем лучше представить эти результаты сейчас.

    Тестовая среда на nBlogs

    В этом тесте 18 страниц на nextlevelSEO.de были размещены в сети, и все они были заблокированы файлом robots.txt. Почему 18 страниц? Я хотел убедиться, что все различные варианты приняты во внимание . Со страницы, которая была максимально связана и геширирована, и страниц, которые вообще не были связаны и геширированы.

    Он всегда публиковал статью в блоге со следующими свойствами:

    robots.txt Тест: статья в блоге Да? Нет? Перевести на XML Sitemap? Raw Отсканировано вручную в Google / Bing Инструменты для веб-мастеров ✔ Мета-роботы: Noindex ✔ ✔

    Таким образом, всего 9 статей в блоге 8 статей в блоге. 2³ = 2 × 2 × 2 = 8.

    Каждая из этих статей блога имела одно из показанных свойств. Так, например, « В файле сайта YES вручную попытались сканировать в Google / Bing Инструменты для веб-мастеров NO, Meta Robots NOINDEX .

    Больше контента без WordPress

    Кроме того, я хотел протестировать контент, который не был опубликован непосредственно в WordPress, - который напрямую не связан с домашней страницей в классической области контента, а не в категориях или тегах с заголовком + ссылкой, а не с тизером и изображением статьи. Я проверил это:

    robots.txt Тест: статический контент Да? Нет? Перевести на XML Sitemap? ✔ Отсканировано вручную в Google / Bing Tools для веб-мастеров ✔ ed Связано ли с помощью навигации по заголовкам? ✔ ✔

    Опять же, «всего» 8 содержимого, так как 2³ = 8 содержимого.

    В этих случаях я не проверял метатег роботов "Noindex", потому что первый тест уже должен быть достаточно значимым. Кроме того, Noindex помог бы мне с анализом, потому что я не мог легко проверить, что исследовал поисковик.

    Третий тест: индексирует ли Google Google Analytics, Android или браузер Chrome?

    Третий тест охватывает всего две страницы, но они очень интересны по-своему. На двух статических HTML-страницах (не на WordPress) я включил код отслеживания Google Analytics. Эти две страницы не были включены в файл Sitemap в формате XML и не были иным образом переданы в Google или Bing, ни связаны, ни предоставлены для совместного использования. Единственный способ, которым Google мог бы рассмотреть эти страницы, - через Google Analytics, позвонив на устройство Android или через браузер Google Chrome. И я делал это чаще разными способами в этот период.

    robots.txt Тест: статические страницы с кодом отслеживания Google Analytics Да? Нет? Код Google Analytics включен и иным образом не преднамеренно передан, связан или раскрашен ✔ ✔

    Подождите, пока robots.txt не будет обновлен в Google

    Конечно, проверка с Google будет небрежно ошибочной, если вы сразу же включите контент, прежде чем Google прочитает текущий файл robots.txt. Кроме того, я не публиковал и не публиковал статьи до того, как не смог убедиться через Инструменты Google для веб-мастеров, что у них был последний файл robots.txt.

    Поэтому я обновил файл robots.txt, как описано выше, с заблокированным контентом, повторно отправил его в Инструменты Google для веб-мастеров, перестраховал его на короткое время, проверил, затем опубликовал и загрузил статьи, а затем проверил их вручную страницы заблокированы Google на robots.txt. И они сделали все в конце.

    Вторичный тест ключевого слова: сканирует контент Google, который был заблокирован?

    В качестве дополнительного теста у меня есть ключевое слово во всех моих собственных материалах, заблокированных robots.txt - все они продаж депозит, который имеет ровно 0 результатов поиска в Google до публикации: "SoYusSEOBoostbyME"

    txt - все они   продаж   депозит, который имеет ровно 0 результатов поиска в Google до публикации: SoYusSEOBoostbyME

    Тест по ключевым словам в Google: SoYusSEOBoostbyME - результатов нет даже после теста

    В тесте я хотел точно узнать, выводится ли результат поиска для этого «странного» поискового запроса после выполнения теста, и будет ли это одна из моих заблокированных страниц. Ключевое слово присутствовало в статьях, но только для того, чтобы они были опубликованы только на этих страницах. Так что не на тегах, страницах категорий или других страницах ...

    Так что я могу легко сказать, Google, Bing или Yahoo! на самом деле видел этот термин. И это будет работать только в том случае, если страница - несмотря на заблокированный контент в robots.txt - все еще будет сканироваться и выводиться как поисковый запрос.

    И так много результатов поиска были предоставлены моим сайтом nextlevelSEO.de:

    Ключевое слово "SoYusSEOBoostbyME" найдено? Количество найденных результатов поиска. Google 0 Bing 2 Yahoo! 2

    Теперь немного подробнее о результатах:

    Отправлено по почте: Facebook и Google+ сканируют контент

    Меньше чем через час-шесть дней (снова протестировано сегодня) после публикации всего контента (от относительно быстрого до относительно длинного) я увидел, что Facebook и Google+, вероятно, не придерживаются текущего robots.txt. Это понятно по частям, потому что по природе они не боты и не гусеницы в общем технологическом смысле.

    Тем не менее, это немного прискорбно, потому что на самом деле, как веб-мастера, можно ожидать или думать, что Facebook и Google+ не проверяют заблокированное содержимое, если вообще пытаются все по robots.txt auszuperren.

    Скриншоты об этом:

    Скриншоты об этом:

    Facebook полностью игнорирует robots.txt и принимает заголовок, содержание статьи и изображение из статьи

    txt и принимает заголовок, содержание статьи и изображение из статьи

    Google+ игнорирует robots.txt и получает заголовок и изображение в статье

    Только Твиттер только что связал контент, как он должен:

    Заблокировано robots.txt: Twitter не читает содержание статьи

    Это означает, что Facebook и Google+ не придерживаются текущего файла robots.txt. Они не проверяют их в режиме реального времени.

    Bing также не работает и сканирует запрещенный контент

    Как описано, robots.txt запрещает всем ботам «входить» в статьи вообще. Похоже, что Bing этого не делает, хотя я сказал через robots.txt, что им запрещено читать статьи.

    Конечно, это относится и к тем статьям, которые были связаны с картой сайта XML, и чье сканирование я заказал лично и через несколько минут после публикации в инструментах веб-мастеров Bing. И, конечно, я сделал следующий снимок экрана через некоторое время после релиза. Но знак остановки в файле robots.txt был явно пропущен. Это все равно дало бы очки во Фленсбурге, мой друг ...

    BingBot игнорирует файл robots.txt

    Кроме того, до вечера понедельника, 20:00, эти две страницы попали в индекс Bing:

    Результат поиска Bing с двумя URL-адресами и их содержимым (тег заголовка и раздел содержимого), хотя URL-адреса заблокированы файлом robots.txt. Снимок экрана с понедельника, 8:00 вечера, через 68 часов после выхода заблокированного контента .

    Только результаты поиска Google были оптимальными с самого начала до robots.txt

    Google был единственной из трех классических поисковых систем, которая могла обрабатывать файл robots.txt, сканируя контент и добавляя его в индекс.

    txt, сканируя контент и добавляя его в индекс

    Результаты поиска Google по заблокированному контенту от robots.txt

    Но я должен еще раз упомянуть об этом, чтобы стало ясно: → Нечестное испытание против Bing и Yahoo!?

    Общий балл № 1: заблокированные статьи блога

    Следующий анализ включал 8 статей в блогах, которые были опубликованы в WordPress как обычные статьи. Содержимое было связано в течение 6 дней на стартовой странице заголовком статьи, как и теперь другие статьи (заголовок ссылки + тизер).

    Содержимое было связано в течение 6 дней на стартовой странице заголовком статьи, как и теперь другие статьи (заголовок ссылки + тизер)

    Статьи блога заблокированы в robots.txt в WordPress. Как ведут себя поисковые системы? Кто же индексирует контент? Собственная оценка (CC-BY 3.0 - может использоваться вами!)

    Важные заметки к столу
    Цвета: зеленый означает «да» или «да, все», красный означает «нет» или «нет всего», желтый означает «частично».
    Ссылки в блоге : статья была связана непосредственно на стартовой странице, страницах тегов, страницах категорий - для статей блога в области контента, для статических HTML-страниц (из общего балла № 2), глобальных в главном меню
    Сканирование вручную Google WMT : если это так, попытайтесь вручную сканировать страницу в Инструментах Google для веб-мастеров и в Инструментах Bing для веб-мастеров. Конечно, Google WMT выдал ошибку, но все же попробовал.
    Приземлился в индексе : за сайт: -вопрос проверен
    Noindex учитывает : конечно, метатег роботов <meta name = "robots" содержание = "Noindex" />
    Используемый заголовок : использовался ли заголовочный тег <title>? Если нет, то в результатах поиска во всех случаях выводился соответствующий текст ссылки.
    Описание = содержимое страницы / описание прочитано : Если да, текст был прочитан с веб-сайта (неважно, мета-описание или контент). Если нет, то была возвращена ошибка по умолчанию "Из-за robots.txt этого веб-сайта описание этого результата недоступно. Дальнейшая информация"
    Используемое изображение : Если это так, либо изображение статьи, либо любое другое изображение этой подстраницы было считано и использовано.
    Конечно, эти заметки также относятся к следующим двум оценкам!

    Общая оценка №2: статические HTML-страницы

    Эта оценка включает в себя 8 статических HTML-страниц, которые я загрузил в подпапку. Они были созданы не как «страницы» в WordPress, а как действительно отдельные HTML-страницы и просто соответствуют макету и дизайну nBlogs. Все Java-скрипты и вся область <head> были очищены, так что у них был только один заголовок и CSS.

    Все Java-скрипты и вся область <head> были очищены, так что у них был только один заголовок и CSS

    Статическое содержимое заблокировано файлом robots.txt, ссылки на который есть только в главном меню. Как ведут себя поисковые системы? Кто индексирует страницы в любом случае? Собственная оценка (CC-BY 3.0 - может использоваться вами!)

    * URL = Google использовал URL в поисковом фрагменте в качестве заголовка - поэтому заголовок отсутствует, но также не принят текст ссылки (которого он в любом случае не существовал). Но тем не менее страница попала в указатель.

    Общий балл № 3: несвязанные страницы с кодом отслеживания Google Analytics

    Как и в оценке # 2, эти страницы также были созданы вручную с помощью HTML. Тем не менее, они нигде не были ни связаны, ни лишены. Единственный вариант индексирования: Google Android, браузер Google Chrome или код Google Analytics . Конечно, страницы вызывались вручную несколько раз в неделю через прокси и даже через сеть TOR. По крайней мере, Google Analytics распознает посетителей на страницах. Оценка в любом случае говорит:

    Оценка в любом случае говорит:

    Статические HTML-страницы заблокированы файлом robots.txt со встроенным кодом отслеживания Google Analytics. Записал ли Google и проиндексировал ли контент? Собственная оценка (CC-BY 3.0 - может использоваться вами!)

    Вывод: Google придерживается robots.txt!

    Судя по моим тестам, я не могу сказать, что Google как Google Bot на самом деле читает заблокированный контент. Google, похоже, уважает robots.txt и не заходит на заблокированные страницы.

    В отличие от платформы социальных сетей Google+, но и Facebook. Вот доля и сайт вдруг осматривается. Будь что будет. Только Твиттер здесь, чтобы похвалить среди трех размеров социальных сетей.

    И это Бинг и Yahoo! выполз содержимое, я хочу закрыть глаза. потому что:

    Небольшой Sitekick к выводу: тест Unfairer против Bing и Yahoo !?

    К сожалению, я не нашел способа, чтобы Bing своевременно использовал их инструменты для веб-мастеров на текущем robots.txt для уведомления. Это немного несправедливо как по отношению к Bing, так и к Yahoo!, что я взломал опубликованный контент в инструментах Google и для веб-мастеров Bing, внеся изменения в файлы Sitemap XML, а также задание прямого сканирования менее чем за 60 минут. Потому что я поручил им (особенно теперь Bing, но и Yahoo!) сканировать страницы до того, как у них будет последний robots.txt - в отличие от Google, где я явно ждал обновления в инструментах для веб-мастеров.

    Так что это немного несправедливо, я признаю.

    С другой стороны, меня больше всего интересовал Google и то, как они считают robots.txt. Bing и Yahoo! были с самого начала только в виде сладостей , поэтому считали бонусом к статистике. И результаты действительно хороши, потому что они просмотрели только две статьи в реальном времени за столь короткий промежуток времени. 🙂

    Подобные тесты

    Txt?
    Txt?
    Txt, кто использует трюки, а кто не придерживается его?
    Почему 18 страниц?
    Txt Тест: статья в блоге Да?
    Нет?
    Перевести на XML Sitemap?
    Txt Тест: статический контент Да?
    Нет?
    Перевести на XML Sitemap?

    Номера

    Номерной фонд гостиницы насчитывает 173 номера различных категорий.

    Забронировать отель можно прямо сейчас: Бронирование онлайн