Выявление дублированного и плохого контента

1. URL
2. Печатные страницы
1. Каноникализация домашней страницы
Как решить тогда проблему относительных ссылок?
3. Зеркальные сайты
4. Теги и категории
5. Пейджинговая страница поиска
6. Подобные названия продуктов

Наша команда-партнер Artmisto

Последнее, что вам нужно, это чтобы Google оштрафовал вас. К сожалению, иногда на вашем сайте может отображаться дублированный контент, а вы об этом не знаете. Часть этого контента может быть сгенерирована потребителями, например, когда клиенты рассказывают о своих продуктах в своих обзорах. В этой статье мы определяем, что такое дублированный контент, почему он важен, что его вызывает и как его решить. Статья послужит исчерпывающим руководством по дублированию контента и SEO.

Дублированный контент может быть определен как один и тот же в разных доменах или в одном домене. Иногда содержание может быть просто слишком похожим. В этом случае Google показывает только один из доменов, которые имеют его в своих результатах поиска. Двойной контент стал серьезной проблемой для веб-сайтов в 2011 году, когда Google запустил первое обновление своего Алгоритм панды , По здравому смыслу, никто не должен больше иметь дублирующийся контент. Но стоит ли беспокоиться о дублировании контента в настоящее время?

Google исключает дублированный контент в результатах поиска.

Google индексирует и отображает четко дифференцированную информацию в своих результатах поиска. Боты работают на основе концепции фильтрации, согласно которой при наличии дублированного контента, например, одной и той же статьи в разных URL-адресах, Google показывает только одну из этих страниц в своих результатах. Второй URL не считается необходимым. Этот контент не сделает ваш сайт в рейтинге результатов поиска. Слишком много дублирующегося контента в домене может фактически предполагать низкую позицию в рейтинге и даже вывод вашей сети из индекса Google.

В то время как некоторые процедуры SEO пытаются использовать дублирующийся контент для манипулирования Google и индексации своих сайтов с приоритетом, большая часть дублирующегося контента является случайной из-за технических проблем в сети. Эти проблемы могут быть трудно идентифицировать, поэтому трекер SEO, такой как WooRank Site Crawl, будет вашим лучшим союзником здесь.

Создайте аккаунт, чтобы начать бесплатную пробную версию!

Давайте углубимся в эти проблемы:

1. URL

В базе данных сети вы можете получить доступ к статье, используя разные URL. Тем не менее, эта статья имеет уникальный идентификатор в базе данных. К статье можно получить доступ через разные URL-адреса, но в этом случае поисковые системы приравнивают каждый URL-адрес к одной статье. Хотя реальность такова, что в базе данных есть только одна статья, поисковые системы «думают», что различные URL, которые ведут к ней, являются дублирующимся контентом. Даже если URL-адреса направлены на одну статью, а не на две с одинаковым содержанием.

Чтобы решить эту проблему, вы можете объяснить эту разницу своему веб-разработчику, чтобы проверить, существуют ли разные URL-адреса, указывающие на один и тот же контент в базе данных. Вы также должны убедиться, что внутренняя ссылка является последовательной. Нет необходимости указывать ссылку, чтобы иметь ссылки, например, на http://www.abc.com/page/ и http://www.example.com/page/index.htm ,

2. Печатные страницы

Существуют системы управления контентом, которые создают разные версии одного и того же контента, обычно это «стандартная» версия и версия для печати. Например, если вы связываете версии для печати, Google проиндексирует эти страницы. Если вы не заблокировали ни одну из версий с метатег "noindex «Google будет индексировать обе версии, поэтому иногда две версии могут быть проиндексированы, создавая дублированный контент.

Давайте посмотрим, как вы можете решить эти и другие проблемы, связанные с дублированием контента.

1. Каноникализация домашней страницы

Канонизация подразумевает указание на предпочтительный URL-адрес везде, где есть страницы с одинаковым содержанием. Весьма вероятно, что у вас есть дублированный контент на вашей домашней странице. Также гораздо более вероятно, что люди ссылаются на свою домашнюю страницу больше, чем на любую другую. Поэтому канонизация домашней страницы очень важна. Есть много способов выполнить канонизацию. Давайте посмотрим на них ниже:

а) Элемент ссылки "rel = canonical"

«Rel = canonical» также известен как «canonical label». Тег сообщает поисковым системам, что страница должна рассматриваться как копия определенного URL (например, домашней страницы). Таким образом, поисковые системы в этом случае будут предоставлять все факторы позиционирования в рейтинге на главной странице.

Канонический тег является частью HTML-заголовка вашей веб-страницы. Попросите вашего веб-разработчика добавить «rel = canonical» в заголовок HTML, где есть повторяющиеся страницы. Вы должны заменить URL исходной страницы ссылкой на каноническую страницу.

Вот общая модель появления кода:

<Head>
... [другой код, который можно найти в заголовке HTML вашего документа] ...
<link href = "URL ОРИГИНАЛЬНОЙ СТРАНИЦЫ" rel = "canonical" />
... [другой код, который можно найти в заголовке HTML вашего документа] ...
</ head>

Замените «URL OF ...» ссылкой на каноническую страницу (оригинальная ссылка)

Если вы используете WordPress, использование плагина верхнего и нижнего колонтитула может помочь вам добавить тег HTML в раздел заголовка.

б) Перенаправляет 301

Это другой способ борьбы с дублированным контентом посредством канонизации. Перенаправление 301 создается со страницы с дублированным контентом в направлении оригинала. Эта техника «объединяет» все дублированные страницы в одну, создавая более сильный сигнал об актуальности и популярности, который может помочь вашему сайту подняться в рейтинге поисковых систем.
Это другой способ борьбы с дублированным контентом посредством канонизации
Чтобы установить перенаправления 301, создайте инструкцию 301 постоянного перенаправления на уровне сервера. Используйте файлы .htaccess в Apache и консоль администрирования в IIS. Это также может быть хорошим шагом для записи изменений, которые вы вносите в свою сеть в Инструментах Google для веб-мастеров.

2. HTTP и относительные ссылки

Чтобы понять эти понятия, нам нужно кое-что понять о URL. У вас может быть URL, начинающийся с HTTP, а другой - с HTTPS. Первому предшествует "www". Второе не сопровождается www.

Понимание этого различия важно, потому что оно является одним из источников дублированного контента. Если версия вашего URL-адреса без www не будет перенаправлена на версию с www, у вас будет две версии URL-адреса вашего сайта в глазах поисковых систем. То же самое происходит, когда ваш HTTPS не перенаправляет на ваш HTTP и наоборот. Это означает, что ваш сайт также будет иметь две версии. Это также означает, что возможно иметь до четырех версий одной и той же сети, что может привести к серьезной проблеме дублированного контента.

Куда входят относительные ссылки? Внутренние ссылки могут решить вышеупомянутую проблему дублированного контента. Существует два типа внутренних ссылок: относительная и абсолютная. Давайте различим оба и посмотрим, как они способствуют дублированию контента.

Вы используете абсолютный URL, когда используете полный веб-адрес страницы, на которую вы ссылаетесь в ссылке. Во время веб-разработки внутренние ссылки кодируются как относительные URL-адреса. Например, страница представлена как "/ page". Предполагается, что поисковая система «понимает, что относительный URL-адрес указывает на страницу в том же домене» (на своем веб-сайте).

Внутренние ссылки - это то, что получается, когда у вас есть четыре разные версии вашего сайта, как упоминалось выше. Это означает, что мне нужно создать в четыре раза больше ссылок, чем страница с таким же уровнем полномочий. Помните, что люди будут связывать любую из четырех версий, и Google может выбрать любую из них для отображения в результатах поиска.

Другая проблема касается сканера Google. С четырьмя версиями Google с меньшей вероятностью будет отслеживать ваш сайт более глубоко и часто. Это стоит им денег, и они не захотят продолжать тратить их на одном сайте. Если сканер проходит через ваш веб меньше раз, он будет отображаться в нижней части результатов поиска.

Как решить тогда проблему относительных ссылок?

Первое, что вы должны сделать, это убедиться, что четыре версии вашего сайта станут одной. Лучшая версия - HTTPS без www. Гугл говорит, что это самый лучший. Вторым будет преобразование их относительных URL-адресов в абсолютные. Здесь также поможет канонизация, если внутренние ссылки не будут исправлены.

3. Зеркальные сайты

Зеркальные сайты, зеркальные сайты или веб-сайты или просто зеркала являются копиями веб-сайтов с другим URL-адресом. В основном они имеют одинаковое содержимое, за исключением небольшой детали, такой как контактный номер или адрес электронной почты. Они обычно создаются для облегчения серверного трафика и используются для разных мест в географически дифференцированном контексте SEO.

Зеркальные сайты порождают проблемы с дублированным контентом. Google не знает, какой URL индексировать. Лучший способ справиться с зеркальными сайтами - использовать домены верхнего уровня, в которых контент специфичен для каждой страны: http://www.abc.de указывает на то, что контент ориентирован на немецкую публику. Еще лучше: вместо того, чтобы «копировать» один и тот же контент в разных доменах, создайте конкретный контент в соответствии с местоположением. Идея состоит в том, чтобы по-разному общаться с людьми в разных местах.

4. Теги и категории

WordPress является основным виновником дублирования контента, созданного метками и категориями. WordPress создает большое количество страниц, и если вы не используете категории и метки должным образом, или если заархивированные страницы не проиндексированы должным образом, может быть создан дублированный контент.

Метки и категории создают дублированный контент несколькими способами:

Файлы с публикациями, которые являются точной копией оригинала
Схожие категории и теги, которые приводят к идентичному содержанию
Несколько индексов категорий, которые копируются много раз при использовании экстрактов
Публикации с наложением
Не используйте выдержки на страницах архива, поэтому они содержат полные статьи

Как решить проблемы дублирования контента, вызванные ярлыками и категориями:

Используйте плагин Term Management Tools для объединения тегов и категорий
Если у вас есть теги, связанные с одним элементом, удалите их и сгруппируйте публикации в более общие теги, применимые к различным материалам.
301 перенаправление
Скажите поисковым системам не индексировать категории и теги файлов

5. Пейджинговая страница поиска

Разбиение на страницы относится к разделению контента на разные страницы и созданию ссылок, обычно в нижней части, с помощью которых вы можете перейти на следующую или предыдущую страницу или раздел. Иногда вы можете выбрать номер страницы, к которой хотите обратиться; Хорошим примером являются результаты поиска Google. Пейджинг часто используется в блогах и на сайтах электронной коммерции. Много раз есть опция «увидеть все», с помощью которой вы можете увидеть содержимое страницы.

Отдельные версии одного и того же разбитого на страницы контента и в режиме «все» генерируют дублированный контент. Есть несколько способов решить эту проблему:

а) Канонизация версии «все»

Если у постраничного сериала есть версия «видеть все», Google пытается обнаружить ее. Страницы с нумерацией страниц будут дублироваться вместо страницы «Посмотреть все». Лучший способ сделать это состоит в том, чтобы канонизировать набор страниц страницы до версии "видеть все".

б) Укажите нумерацию страниц с помощью HTML-разметки.

Использование меток rel = nect и rel = prev является хорошей альтернативой, если у вас нет опции «видеть все» или если вы предпочитаете, чтобы поисковые системы появлялись на страничной странице. Google использует эти метки для обнаружения и индексации постраничного контента в виде последовательности страниц, а не отдельных страниц. Используя метки издания, Google сканирует и индексирует максимально возможное количество страниц. Затем он предложит одну страницу, которая считает наиболее релевантными для запросов в поисковой системе, обычно это первая страница.

Альтернативой подкачке является бесконечная прокрутка. В любом случае, эквивалентный постраничный URL также требуется. Поисковые системы будут использовать резервную копию выгружаемого URL во время сканирования сайта. Использование JavaScript позволяет, когда пользователь прокручивает, URL адресной строки корректируется в соответствии с выгружаемым URL. Страница, предлагаемая поисковой системой, будет содержать «обычные» ссылки на страницы страниц, что позволяет отслеживать и нормально использовать Интернет.

6. Подобные названия продуктов

На сайтах электронной коммерции есть очень, очень похожие продукты, почти с тем же названием. Например: шоколадный торт с орехами и шоколадный торт с фундуком. Эти названия очень легко идентифицировать как дубликаты, хотя на самом деле они относятся к разным продуктам. Лучший способ избежать этого - найти уникальные названия и описания продуктов. Другим способом было бы сгруппировать подобные продукты на одной странице и позволить пользователям выбрать нужный продукт в раскрывающемся меню.

Другой вариант - выбрать версию продукта, сделать ее «канонической» и использовать тег rel = canonical, чтобы другие аналогичные продукты указывали на него. Таким образом, вам нужно будет написать только один текст для канонического продукта.

Это исчерпывающее руководство по SEO для дублированного контента показывает, откуда происходит дублированный контент, от стадии веб-разработки до написания текстов, прохождения процедур, направленных на разную аудиторию на разных платформах или в разных географических точках. Время от времени вам нужно будет делать анализ дублированного контента на вашем сайте. После того, как вы определили любую проблему, вам пригодятся решения, предложенные выше.

Но стоит ли беспокоиться о дублировании контента в настоящее время?
Куда входят относительные ссылки?
Как решить тогда проблему относительных ссылок?

Категории

Новости

Выявить дубликаты и плохое содержание