Наша команда-партнер Artmisto
дададзена 2016/04/15
Web Scraping - гэта папулярны метад атрымання кантэнту практычна дарма. У нас такі метад называецца «парсінга кантэнту» або «парсінга сайтаў». Метад складаецца ў тым, што спецыяльна навучаны алгарытм заходзіць на галоўную старонку сайта і пачынае пераходзіць па ўсім унутраным спасылках, старанна збіраючы вантробы названых вамі div дзясяткаў. У якасці выніку працы - гатовы CSV файл, у якім ўся патрэбная інфармацыя ляжыць у строгім парадку.
Навошта?
Атрыманы CSV можна выкарыстоўваць для наступнай генерацыі амаль унікальнага кантэнту. Ды і ў цэлым, як табліца, такія дадзеныя ўяўляюць вялікую каштоўнасць. Уявіце, што ўвесь асартымент нейкага будаўнічага магазіна прадстаўлены ў табліцы, прытым для кожнага вырабы, для кожнага падвіда і маркі вырабы запоўненыя ўсе палі і характарыстыкі. Калі напаўненнем інтэрнэт-крамы займаецца копірайтэр, то ён будзе шчаслівы мець такі CSV файл, і вы можаце ўбачыць на яго вачах слёзы падзякі. Калі стварэннем кантэнту займаецца бяздушны алгарытм і душэўным імем «Ніна», то тэксты набудуць асэнсаванасць, карысць і, вядома ж, сілу зямлі.
Якія кнопкі жаць?
Інструментаў, на самай справе, мора, і паспрабаваць усё няма ні магчымасці, ні жадання. У нашай камандзе мы шчасна карыстаемся ScrapingHub. Давайце-ка паглядзім, як менавіта мы гэта робім.
Спачатку імя або рэгіструемся:
Пасля гэтага распачынаецца идиотичный аватар, які просіць вас ўвесці нейкія дадзеныя. Забіваем на гэтую справу і сутаргава ціснем Next:
Затым вы трапляеце ў асабісты кабінет. Тут вам неабходна стварыць новы праект - вось так:
Тут вам трэба выбраць алгарытм (будзем разглядаць алгарытм Portia), а таксама даць імя праекту. Назавем яго як-небудзь незвычайна. Напрыклад, «111».
Усе, трапляем у працоўную прастору алгарытму, дзе ўжо трэба ўводзіць сайт, які мы будзем парсіць. Націскаем «New Spider».
Затым пераходзім на старонку, якая будзе з'яўляцца прыкладам. У хедэры абновіцца адрас. Ціснем Annotate This Page.
Вядзем курсор мышы направа, пасля чаго з'яўляецца меню. Тут нас цікавіць ўкладка «Extracted item», дзе трэба націснуць «Edit Items».
Адлюстроўваецца пакуль пусты спіс нашых палёў. Ціснем «+ Field».
Тут усё проста: неабходна стварыць спіс палёў. Для кожнага item трэба ўвесці імя (у нашым выпадку, гэта загаловак і кантэнт », пазначыць, ці з'яўляецца гэтае поле абавязковым (« Required ») і ці можа яно змяняцца (« Vary »). Калі вы паказваеце, што нейкі Item з'яўляецца абавязковым, то парсер будзе проста прапускаць старонкі, дзе не зможа запоўніць гэтае поле. Калі галачку ня ставіць, то парсінга можа доўжыцца бясконца доўга. Ціснем Save Changes.
Цяпер тупа пахай пстрыкаем па патрэбным нам полі і паказваем, што гэта такое:
Усе паказалі? Тады ў шапцы сайта ціснем «Save Sample». Пасля гэтага можаце вяртацца ў працоўны кабінет. Цяпер парсер ўмее нешта даставаць, трэба паставіць яму задачу. Для гэтага націскаем "Publish Changes".
Пераходзім да дошкі з заданнямі. Ціснем "Run Spider". Выбіраем сайт і прыярытэт. Пуск! Ой ... гэта значыць RUN! RUN, FOREST, RUN!
Ну, уласна, парсінга пайшоў. На бясплатных версіях ідзе ён доўга: каля 10-50 запытаў у хвіліну, у залежнасці ад хуткасці сервера, надвор'я і знака задыяку, у якім зараз знаходзіцца Меркурый. Хуткасць парсінга паказваецца па навядзенні на колькасць адпраўленых запытаў:
Хуткасць атрымання гатовых радкоў у CSV - па навядзенні на іншае лік.
Каб убачыць спіс ужо зробленых Items - проста пстрыкніце па гэтага ліку. Ўбачыце нешта падобнае:
Калі парсінга скончыцца, вынік можна захаваць вось па гэтай кнопцы:
Як бачыце, тут ёсць усё, што можа спатрэбіцца пачаткоўцу адмыслоўцу ў галіне парсінга.
На гэтым лекцыя скончана. Хатняга задання не будзе. Першы шэраг - вы непараўнальна. Ёсць пытанні?
- Прабачце, а як можна ад гэтага абараніцца?
- Сайт WinStyle.Ru абараняецца ад гэтага хітра: кожны раз пры абнаўленні старонкі ўсе іх div-ы атрымліваюць новыя назвы (соотвественно, мяняюцца і назвы класаў у CSS). Гэтага больш, чым дастаткова для таго, каб парсінга перастаў мець сэнс.
- Колькі доўжыцца парсінга аднаго сайта?
- А колькі каштуе адна таблетка? Гледзячы якія памеры мае сайт, як доўга сервер адказвае на запыты. На нашай практыцы некаторыя сайты цалкам парс амаль за тыдзень. Канкрэтна сайт "Будаўнічыя Саветы" парс 44 хвіліны 10 секунд, было атрымана 1550 запісаў пры 1897 запытах. Такія справы.
- Як рэагуюць пашукавікі на падобнага роду кантэнт?
- Як у далейшым атрыманыя дадзеныя, вырашаць вам. Гатовыя CSV вы можаце выкарыстоўваць для генерацыі новых тэкстаў; як ужо гаварылася вышэй, такой CSV файл будзе вельмі карысны як Копірайтэр, так і алгарытме "Ніна" . Ці можна ўстаўляць такі кантэнт цалкам без апрацоўкі? Мы не ведаем. Калі вам атрымаецца прадставіць гэты кантэнт у больш зручным выглядзе, ваш сайт будзе прасцей і камфортней для карыстальніка, чым крыніца - чаму б не. Але мы б на гэта стаўку не рабілі. Парсенный кантэнт - гэта "сыравіна", якое яшчэ трэба перапрацаваць.
- Прабачце, але красці кантэнт не добра! ..
- Ідзі, я цябе расцелую, мой залаты.
Навошта?Якія кнопкі жаць?
Навошта?
Якія кнопкі жаць?
Ёсць пытанні?
Прабачце, а як можна ад гэтага абараніцца?
Колькі доўжыцца парсінга аднаго сайта?
А колькі каштуе адна таблетка?
Як рэагуюць пашукавікі на падобнага роду кантэнт?
Ці можна ўстаўляць такі кантэнт цалкам без апрацоўкі?