Как запустить Screaming Frog & URL Profiler на AWS

  1. Почему это происходит?
  2. Войдите в Amazon Web Services
  3. Как настроить Windows Box на AWS с помощью Screaming Frog и URLProfiler
  4. Теперь вы готовы к работе
  5. Что это будет стоить мне?
  6. Завершение

Я являюсь большим поклонником Screaming Frog SEO Spider уже несколько лет. Один будет трудно найти конечное число вариантов использования инструмента , Я также очень признателен Дэну Шарпу и его команде за постоянное внимание к инновациям и улучшениям с помощью инструмента.

Я также люблю много других гусеничных инструментов, которые выскочили в его следе как DeepCrawl а также URLProfiler , Теперь я также знакомлюсь с On-Page.org и призываю вас дать им бесплатную пробную версию.

URL Profiler, тем не менее, зарекомендовал себя как инструмент для нашего процесс аудита контента , Хотя я бы посоветовал вам проверить Новый инструмент Moz для аудита контента также.

Из того, что я знаю о каждом из этих инструментов, я знаю, что все они имеют свои сильные и слабые стороны и варианты использования. Например, если мы проводим аудит контента на основе выборки (по сравнению с выборкой) на миллионах страниц, мы обычно используем DeepCrawl, а затем пакеты из 50 тыс. URL-адресов в URLProfiler.

Однако, несмотря на то, насколько хороши сканеры SaaS, я всегда чувствую, что «лучше знаю» сайт, когда выполняю сканирование Screaming Frog или URLProfiler. Кроме того, один из членов нашей команды сделал так, чтобы в Screaming Frog добавлялись функции безголового просмотра, что является дополнительным стимулом для нас, чтобы заставить его работать. Я хорошо знаю, что это больше отражает то, насколько хорошо я знаю эти продукты, чем недостатки других продуктов. Тем не менее, более важно делать то, что нужно, чтобы сделать работа, которую мы ПРОУДИМ чем использовать самый сложный инструмент.

Все это говорит, сколько раз вы были разочарованы этим диалоговым окном?

Почему это происходит?

Технологически облачные сканеры имеют явное преимущество по сравнению с настольными сканерами. Как правило, облачные сканеры работают с использованием ряда узлов, которые распространяют обход. На каждом из этих узлов запускается небольшое приложение, управляемое другим централизованным приложением, которое делает сканирование отказоустойчивым. Также облачные сканеры сохраняют свои данные сканирования в базу данных, поэтому накладные расходы памяти могут быть очень низкими. Наконец, облачные сканеры имеют практически бесконечный набор вычислительных ресурсов, которые можно использовать для облегчения сканирования. В итоге облачные сканеры могут быть распределены, быстрее и более устойчивы к сбоям. Диаграмма ниже от патент eBay дает наглядное представление о том, как обычно работает облачная распределенная система сканирования.

И наоборот, сканеры рабочего стола ограничены спецификациями вашего компьютера и работают в памяти. Если на вашей машине 4 ядра ЦП, 8 ГБ ОЗУ, вы работаете под управлением Windows 8, у вас открыто 50 вкладок в Chrome и запущено несколько TSR, очень вероятно, что Frog действительно будет кричать от боли, пока ползет за вами. , Сканирование на рабочем столе по своей сути является ограниченным ресурсом. Вот почему он склонен к падению или нехватке памяти, когда сканирует слишком много страниц.

Преимущество Screaming Frog перед URL Profiler заключается в том, что, как только он достигнет ограничения ресурсов, он спросит вас, хотите ли вы сохранить сканирование и продолжить. URL Profiler, с другой стороны, просто потерпит крах, и все эти данные исчезнут. Обычно я наблюдаю за использованием процессов в диспетчере задач и начинаю закрывать другие приложения, когда процессор или память становятся слишком близкими к 100%.

Похоже, шансы против вас для больших сайтов с настольными инструментами? Конечно, они могут быть, но ни один из облачных инструментов не дает мне ту комбинацию данных, которую я хочу, именно такой, какой я хочу. Так что мы можем сделать?

Войдите в Amazon Web Services

Теперь мы собираемся запустить Screaming Frog и URLProfiler на веб-сервисах Amazon. Это позволит нам запускать инструменты на изолированной машине, у которой гораздо больше ресурсов и, вероятно, более стабильная скорость, чем у вас или у меня в наших соответствующих офисах. Моя собственная машина, которая является фантастическим Samsung ATIV-9, имеет 2 ядра, 8 ГБ оперативной памяти и 256 SSD. На AWS мы можем настроить машину, которая имеет 40 ядер, 160 ГБ и практически неограниченное пространство. Мы не будем, потому что это излишне, но вы понимаете.

Скорее всего, вы слышали об Amazon Web Services (AWS), и вы можете использовать его в качестве варианта того, как вы можете делать модные вещи в Интернете. Или, возможно, вы читали о том, как он работает на многих приложениях, которые мы все используем каждый день. В любом случае, Amazon Web Services предоставляет вам виртуальные вычислительные ресурсы различными способами. По сути, вы можете размещать ряд серверов, баз данных, пространства хранения и т. Д. В бесчисленных конфигурациях и манипулировать ими программно по требованию. Например, когда вы запускаете сканирование в DeepCrawl, ему требуется несколько минут, чтобы начать, потому что он должен запустить несколько экземпляров EC2 для облегчения этого сканирования.

Этот вариант использования не относится к тому, что мы здесь делаем, но теперь у вас есть представление о том, как эти инструменты используют AWS в своих интересах. В этом случае мы раскручиваем одну коробку и настраиваем ее так, чтобы она просто запускала именно то, что нам нужно.

Как вы можете видеть ниже, Amazon предлагает множество различных услуг. Больше всего мы сосредоточимся на Elastic Computing Cloud, обычно называемом EC2.
Как вы можете видеть ниже, Amazon предлагает множество различных услуг

Вам также нужно будет немного узнать о VPC, чтобы получить доступ к вашим серверам удаленно, но мы не будем углубляться в это.

Хотя приведенный выше список служб может показаться устрашающим, я обещаю, что процесс настройки будет довольно безболезненным. А не ___ ли нам?

Как настроить Windows Box на AWS с помощью Screaming Frog и URLProfiler

Чтобы начать использовать Amazon Web Services, мы фактически настроим экземпляр Windows Server, установим на него программы, запустим наши сканирования, сохраним образ этого экземпляра и выключим его. Вот так!

  1. Войти в Amazon Web Services - Вы будете использовать свою учетную запись Amazon для этого. Amazon впервые предоставляет пользователям сервис AWS в течение 12 месяцев. Имейте в виду, что бесплатный уровень распространяется только на определенные типы использования. Экземпляры в бесплатном уровне не будут адекватны тому, что мы хотим достичь, но цены за пределами этих типов использования вполне разумны.
  2. Запустите свой экземпляр - сначала убедитесь, что вы находитесь в правильной зоне доступности (в правом верхнем углу, рядом с моим именем). Северная Вирджиния - самый дешевый из дата-центров. После этого нажмите Launch Instance.
  3. Выберите свой AMI - образ машины Amazon (AMI) - это предустановленный набор настроенного программного обеспечения. Вместо настройки пустой машины и необходимости установки операционной системы Amazon позволяет вам клонировать новую машину с уже установленной вами операционной системой. Вы можете настроить свои собственные конфигурации и создать свои собственные AMI, но мы не будем. В этом случае мы будем выбирать Windows Server 2012 R2 Base AMI.
  4. Выберите тип экземпляра - здесь вы можете выбрать свою вычислительную мощность. Как вы можете видеть, бесплатный уровень (t2.micro) дает вам только одно ядро ​​и один ГБ оперативной памяти. Это было бы хорошо для одного узла, если вы пишете скрипт, который выполнял сканирование, но это не так, вы запускаете полнофункциональное приложение Windows, требующее памяти. Выберите тип экземпляра r3.4xlarge с 16 ядрами и 122 ГБ ОЗУ и дайте этим программам дышать. Вы можете узнать больше информации о типах экземпляров, которые AWS предлагает здесь , Оповещение о спойлере: экземпляры R3 «оптимизированы для памяти» и предназначены специально для запуска аналитических программ.
  5. Настроить подробности экземпляра - вы можете оставить их по умолчанию. Что ж, это ваш первый экземпляр, вам придется настроить VPC и настроить сетевой интерфейс, чтобы вы могли фактически войти в систему на своем сервере Windows. Вам также следует проверить защиту от автоматического выключения, поскольку вы впервые играете в AWS; Таким образом, вы точно не потеряете данные.


    Читать это для получения дополнительной информации о настройке VPC ,

  6. Настройте группу безопасности - AWS раздражающе безопасен. Вам нужно будет настроить группу безопасности с помощью мастера запуска. Группы безопасности позволяют предоставлять доступ пользователям на основе их IP-адресов. Однако, поскольку вы не храните в этом окне ничего значительного, вы можете пойти дальше и предоставить группе безопасности доступ с любого IP-адреса. Если вы начнете сохранять что-либо ценное, я бы порекомендовал заблокировать его для IP-адресов, к которым имеют доступ только вы и ваша команда.
  7. Просмотр запуска экземпляра. Как и в случае с любым инструментом, использующим мастер, на данный момент вы просто проверяете свою конфигурацию. Дважды проверьте, что ваш экран выглядит довольно близко к этому. Вы должны увидеть два предупреждающих индикатора вверху, если вы настроили его так, как я. Тип вашего экземпляра будет отражать любые выбранные вами параметры.
  8. Создать новую пару ключей. Пара ключей - это открытый и закрытый ключи, которые AWS использует для входа в систему. Для Windows Server AWS использует это, чтобы вы могли получить пароль администратора. Создайте пару ключей и загрузите файл.

  9. Соединитесь с вашим экземпляром - AWS предоставит вам файл конфигурации для загрузки, чтобы подключиться к вашему экземпляру с помощью Приложение для удаленного рабочего стола , Вам также необходимо сначала загрузить свою пару ключей, чтобы получить пароль администратора здесь. Как только вы это сделаете, пароль администратора не изменится, поэтому, пока вы его сохраните, вам не нужно будет снова подключаться через этот интерфейс. Поэтому сохраните свой пароль и войдите, используя приложение «Подключение к удаленному рабочему столу» напрямую. Вы захотите сохранить файл и пароль, чтобы упростить обмен данными для входа с коллегами.

    После входа в систему вы увидите окно Windows, которое выглядит следующим образом (за исключением Chrome, URL Profiler и моего каталога обходов Screaming Frog) :

    Естественно, что Windows Server отличается от домашних версий, но в основном он работает так же, как и Windows 8. RDC принимает горячие клавиши всякий раз, когда окно максимально развернуто. Если вы используете приложение Remote Desktop впервые, ознакомьтесь с этот пост о том, как сопоставить ваши диски так что вы можете получить доступ к локальным файлам на удаленном компьютере.

  10. Установите Chrome - первое, что вы захотите сделать, это установить Chrome так что вы не обременены мерзостью Internet Explorer.
  11. Измените настройки безопасности в Интернете - вы столкнетесь с некоторыми проблемами, пытаясь установить Java на этой надоедливо «безопасной» установке Windows Server. Зайдите в настройки безопасности и настройте пользовательский уровень, включив все. Вы можете пойти дальше и изменить его обратно после установки Java.
  12. Установите 64-битную версию Java - вам нужно установить 64-битную версию Windows Offline из страница ручной установки на Java.com , 64-битный является важным, потому что опция выделения ломает Screaming Frog в противном случае.

  13. Установите Screaming Frog SEO Spider - поскольку Screaming Frog требуется немного больше настроек, чтобы начать перегрузку, начнем с этого. Скачать Screaming Frog и введите свой лицензионный ключ.

  14. Максимизируйте выделение памяти Screaming Frog - Screaming Frog имеет файл конфигурации, который позволяет вам указать, сколько памяти он выделяет для себя во время выполнения. Этот файл ScreamingFrogSEOSpider.I4j находится вместе с исполняемыми файлами приложения. Откройте его в блокноте и измените выделение памяти по умолчанию на 512 МБ на 120 ГБ. Для тех, кто хочет знать, что это делает, это значение является переменной среды JVM, которая указывает Java выделять указанное количество места для Screaming Frog. Screaming Frog просто передает это в Java при запуске.
  15. Наращивайте темы - по умолчанию Screaming Frog использует только 5 потоков за раз, чтобы быть приятным для веб-мастеров. Давайте увеличим это до 15, чтобы мы могли выполнить эту работу быстрее.

  16. Установите URL Profiler - загрузите URL Profiler, установите его и вставьте свой лицензионный ключ.

  17. Настройте ключи API. Настройте ключи API для всех служб, которые вы хотите использовать.
  18. Создайте образ AMI. Теперь, когда ваш экземпляр полностью настроен, мы хотим создать его образ на случай, если что-то пойдет не так, или если вы захотите создать несколько экземпляров вашего ящика, если вам нужно запустить несколько высокооктановых обходов при один раз.

    Дайте вашему изображению имя.

Теперь вы готовы к работе

Несмотря на то, что я не знаю ограничений этой конфигурации, в настоящее время я смотрю на нее во время сканирования URL с 20 миллионами. Если у вас возникнут какие-либо проблемы, вы всегда можете перейти к большему экземпляру, чтобы получить больше памяти. В идеале вы могли бы добавить большие тома (жесткие диски) к экземплярам, ​​на которые программы могут опираться на виртуальную память, но из тестов и документации видно, что Screaming Frog и URLProfiler используют только физическую память. По сути, вы ограничены тем, что максимальная конфигурация памяти (244 ГБ на случай, если вам интересно) может одновременно удерживаться. Для справки, Документация Screaming Frog указывает что «Вообще говоря, при стандартном выделении памяти в 512 Мб, паук может сканировать между 10K-100K URI сайта. Вы можете увеличить память SEO-паука и, как очень грубое руководство, 64-битная машина с 8 ГБ ОЗУ, как правило, позволяет сканировать пару сотен тысяч URL-адресов ». Хотя я скептически отношусь к этому числу, основываясь на этих спецификациях, предполагая 8 ГБ получает 200 тыс. URL-адресов, тогда 122 ГБ должны получить 3,05 млн. URL-адресов.

Кроме того, прелесть удаленного рабочего стола заключается в том, что вы можете запустить сканирование, закрыть окно, а затем снова вернуться к нему, и он будет работать все время. Помните, что Amazon Web Services платит вам по часам, поэтому не забывайте, что вы запускаете экземпляр, если вас беспокоит, что вы тратите. Что подводит меня к следующему пункту ...

Что это будет стоить мне?

Цены Amazon полностью зависят от вашей конфигурации, и у них есть калькулятор цен а также система оповещения о расходах, чтобы помочь вам оставаться на вершине.

Исходя из выбранной нами конфигурации, если оставить ее на 100 часов (чуть более 4 дней подряд) в месяц, это будет стоить 237,33 доллара. При условии, что вы можете сканировать 3 миллиона URL-адресов за этот период времени (в зависимости от скорости сайта и регулирования), это намного дешевле, чем $ 2980, которые DeepCrawl взимает плату за 3 миллиона URL-адресов с оплатой по мере поступления. ,

,

Завершение

Естественно, существуют различные планы, которые предлагают облачные сканеры, и они выполняют большую часть работы за вас, или вы можете просто создать максимизированный компьютер, который просто запускает Screaming Frog и URLProfiler и экономит деньги. Или вы можете запустить Screaming Frog на Linux-коробке, чтобы сэкономить больше ресурсов и потенциально запустить на меньшем экземпляре, но я предполагаю, что если бы вы могли, вы, вероятно, не читаете этот пост. В любом случае хостинг Screaming и URLProfiler на AWS - это отличное краткосрочное решение, когда вашему настольному сканеру требуется больше энергии.

Теперь твоя очередь. Я хотел бы услышать, как вы преодолели ограничения сканирования на рабочем столе в комментариях ниже!

*** ОБНОВЛЕНИЕ: Фили Вайс на самом деле победил меня в этом. Проверьте его обсуждение о том, как запустить Screaming Frog на серверах Google Gloud! ***

Номера

Номерной фонд гостиницы насчитывает 173 номера различных категорий.

Забронировать отель можно прямо сейчас: Бронирование онлайн