Наша команда-партнер Artmisto
Wysłany 04/15/2016
Web Scraping jest popularną metodą uzyskiwania treści prawie za darmo. Mamy taką metodę zwaną „analizowaniem treści” lub „analizowaniem witryny”. Metoda polega na tym, że specjalnie wyszkolony algorytm trafia na główną stronę witryny i zaczyna śledzić wszystkie wewnętrzne linki, starannie zbierając wnętrza określonych przez siebie divów. W wyniku pracy - gotowy plik CSV, w którym wszystkie niezbędne informacje są w ścisłej kolejności.
Dlaczego?
Wynikowy CSV może być wykorzystany do późniejszej generacji prawie unikalnej zawartości. I ogólnie, jako tabela, takie dane mają wielką wartość. Wyobraź sobie, że cały asortyment sklepu budowlanego jest przedstawiony w tabeli, ponadto dla każdego produktu, dla każdego podgatunku i marki produktu wszystkie pola i cechy są wypełnione. Jeśli sklep internetowy jest wypełniony copywriterem, będzie szczęśliwy, że będzie miał taki plik CSV, a w jego oczach widać łzy wdzięczności. Jeśli bezduszny algorytm i duchowe imię „Nina” są zaangażowane w tworzenie treści, wówczas teksty zyskają sens, korzyść i, oczywiście, moc ziemi.
Jakie przyciski naciskać?
Narzędzia, w rzeczywistości, morze, i spróbuj wszystkiego, nie ma możliwości, nie ma pragnienia. W naszym zespole bezpiecznie używamy ScrapingHub. Zobaczmy, jak to zrobimy.
Najpierw zaloguj się lub zarejestruj:
Po tym pojawia się idiotyczny awatar, który prosi o podanie niektórych danych. Wbijamy ten biznes i konwulsyjnie klikamy Next:
Następnie wchodzisz na swoje konto osobiste. Tutaj musisz utworzyć nowy projekt - w ten sposób:
Tutaj musisz wybrać algorytm (rozważymy algorytm Portia), a także podać nazwę projektu. Nazwijmy to czymś niezwykłym. Na przykład „111”.
Wszystko, dostajemy się do obszaru roboczego algorytmu, gdzie już musisz wejść na stronę, którą będziemy analizować. Kliknij „Nowy pająk”.
Następnie przejdź do strony, która będzie przykładem. Adres zostanie zaktualizowany w nagłówku. Kliknij opcję Opisz tę stronę.
Przesuwamy mysz w prawo, po czym pojawia się menu. Tutaj interesuje nas karta „Wyodrębniony element”, w której należy kliknąć „Edytuj elementy”.
Wyświetlona zostanie pusta lista naszych pól. Kliknij „+ Pole”.
Wszystko jest proste: musisz utworzyć listę pól. Dla każdego przedmiotu, który musisz podać nazwę (w naszym przypadku jest to tytuł i treść), wskaż, czy to pole jest wymagane („Wymagane”) i czy można je zmienić („Zmieniaj”). obowiązkowe, parser po prostu pominie strony, na których nie może wypełnić tego pola.Jeśli nie zaznaczysz tego pola, parsowanie może trwać w nieskończoność Kliknij Zapisz zmiany.
Teraz, głupio myszką, kliknij pole, którego potrzebujemy i określ, co to jest:
Wszystko wskazane? Następnie w nagłówku witryny kliknij „Zapisz próbkę”. Po tym możesz wrócić do biura. Teraz parser może coś dostać, musisz ustawić dla niego zadanie. Aby to zrobić, kliknij „Opublikuj zmiany”.
Przejdź do tablicy z zadaniami. Kliknij „Run Spider”. Wybierz witrynę i priorytet. Zacznij! Oh ... to znaczy, RUN! BIEG, LAS, BIEG!
Cóż, właściwie to parsowanie się zakończyło. W wersjach darmowych zajmuje dużo czasu: około 10-50 żądań na minutę, w zależności od szybkości serwera, pogody i znaku zodiaku, w którym znajduje się teraz Merkury. Szybkość analizowania jest pokazywana przez wskazanie liczby wysłanych żądań:
Szybkość uzyskiwania gotowych linii w CSV zmienia się na inny numer.
Aby zobaczyć listę już utworzonych przedmiotów - wystarczy kliknąć ten numer. Zobacz coś takiego:
Gdy parsowanie się zakończy, wynik można zapisać tutaj za pomocą tego przycisku:
Jak widać, jest wszystko, czego może potrzebować początkujący ekspert w dziedzinie parsowania.
To koniec wykładu. Zadanie domowe nie będzie. Pierwszy rząd - jesteś niepowtarzalny. Masz jakieś pytania?
- Przepraszam, ale jak możesz się przed tym chronić?
- Witryna WinStyle.Ru jest chroniona przed tym chytrze: za każdym razem, gdy strona jest aktualizowana, wszystkie jej div otrzymują nowe nazwy (odpowiednio, nazwy klas w CSS również się zmieniają). Jest to więcej niż wystarczające do analizowania, aby przestać mieć sens.
- Jak długo trwa analiza jednej witryny?
- A ile kosztuje jedna pigułka? To zależy od tego, jak duża jest witryna, jak długo serwer odpowiada na żądania. W naszej praktyce niektóre strony są całkowicie analizowane przez prawie tydzień. W szczególności strona „Porady budowlane” przeanalizowała 44 minuty 10 sekund, otrzymano 1550 rekordów z 1897 żądaniami. Takie przypadki.
- Jak wyszukiwarki reagują na tego rodzaju treści?
- Jak korzystać z danych w przyszłości, decydujesz. Możesz użyć gotowego pliku CSV do wygenerowania nowych tekstów; jak wspomniano powyżej, taki plik CSV będzie bardzo przydatny jako copywriter i algorytm „Nina” . Czy możliwe jest całkowite osadzenie takiej treści bez przetwarzania? Nie wiemy. Jeśli uda Ci się przedstawić tę treść w bardziej wygodny sposób, Twoja strona będzie łatwiejsza i wygodniejsza dla użytkownika niż źródło - czemu nie. Ale nie polegalibyśmy na tym. Przetwarzanie treści jest „surowcem”, który wciąż wymaga recyklingu.
- Przepraszam, ale kradzież treści nie jest dobra! ..
- Idź, pocałuję cię, mój złoty.
Dlaczego?Jakie przyciski naciskać?
Dlaczego?
Jakie przyciski naciskać?
Masz jakieś pytania?
Przepraszam, ale jak możesz się przed tym chronić?
Jak długo trwa analiza jednej witryny?
A ile kosztuje jedna pigułka?
Jak wyszukiwarki reagują na tego rodzaju treści?
Czy możliwe jest całkowite osadzenie takiej treści bez przetwarzania?