Semalt Expert apmācība par Chrome tīmekļa skrāpi

Ja izmantojat pārlūku Google Chrome, jūsu pārlūkprogrammai ir paplašinājums, kas var palīdzēt nokasīt Web lapas. Tas ir pazīstams kā '' Scrapper '', un to var izmantot bez problēmām. Skrāpis palīdzēs nokasīt vietnes saturu un augšupielādēt rezultātus Google dokumentos.

Kā norakstīt vietni, izmantojot paplašinājumu Scraper?

1. Pārlūkprogrammā Google Chrome atlasiet Chrome interneta veikals;

2. Pagarinājumos meklējiet '' Scrapper '';

3. Pirmais meklēšanas rezultāts ir paplašinājums, kas pazīstams kā '' Scrapper '';

4. Atlasiet pogu, kas norādīta kā '' Pievienot pārlūkam Chrome ''.

5. Atgriezieties AK deputātu sarakstā;

6. Noklikšķiniet uz šīs saites ;

7. Tagad meklējiet vienu MP un pārliecinieties, vai ieraksts ir atzīmēts;

8. Ar peles labo pogu noklikšķiniet, lai izvēlētos opciju "Scrape Similar ...";

9. Citā logā parādīsies skrāpja pults;

10. Skatiet nokasīto saturu skrāpju konsolē;

11. Lai nodrošinātu satura saglabāšanu kā Google izklājlapu, atlasiet “Saglabāt Google dokumentos ...”

Pagarināta kasīšana

Pirms pieturēties pie šīs receptes, ir noderīgi izprast HTML pamatus. Piemēram, izmantojot šo saiti , jūs varat izlasīt īsu HTML ievadu

Iedomāsimiesies, ka mūs interesē visas filmas, kurās filmējusies slavenās itāļu aktrises Āzija Argento.

1. IMDB ir ļoti detalizēts dalībnieku arhīvs. Asia Argento vietne ir: http://www.imdb.com/name/nm0000782/;

2. Šeit jūs varat apskatīt visas aktrises spēlētās lomas. Sāksim iznīcināt mūs interesējošo informāciju;

3. Mēģiniet to nokasīt tā, kā aprakstīts iepriekš;

4. Jūs redzēsit, ka saraksts ir nedaudz izkropļots. Tas ir saistīts ar faktu, ka šeit esošo sarakstu var strukturēt atšķirīgi;

5. Dodieties uz skrāpja konsoli. Augšējā kreisajā stūrī redzēsit mazo lodziņu, kurā rakstīts XPath;

6. Xpath ir sava veida vaicājumu valoda, kas darbojas XML un HTML;

7. XPath var palīdzēt atrast tās lapas daļas, kuras jūs interesē. Nākamā lieta ir atrast piemērotu elementu un uzrakstīt tam XPath;

8. Tagad sakārtosim mūsu galdu;

9. Jūs redzēsit, ka mūsu esošais XPath, kurā ir visi nepieciešamie dati, ir "// div [3] / div [3] / div [2] / div";

10. XPath informē sistēmu, lai apskatītu HTML dokumentu un izvēlētos trešo elementu, pēc tam otro elementu un pēc tam visus;

11. Bet mēs vēlamies, lai mūsu dati tiktu nodalīti;

12. Lai to izdarītu, izmantojiet pults kolonnu sadaļu konsolē;

13. Vispirms atradīsim savu virsrakstu Ђњ Izmantojiet Pārbaudīt elementu, lai apskatītu virsrakstu;

14. Pārbaudiet nosaukuma tagu. Pievienojiet atzīmi XPath;

15. Šķiet, ka izteiciens darbojas atbilstoši, tāpēc padariet to par mūsu pirmo kolonnu;

16. Iedaļā “Kolonnas” pirmās slejas nosaukumu aizstāt ar “nosaukums”;

17. Pievienojiet tam XPath;

18. Kolonnu sadaļā XPaths ir relatīvi, un tas nozīmē, ka "./b" izvēlēsies elementu <b>

19. Nosaukuma kolonnas XPath pievienojiet "./b" un atlasiet "nokasīt";

20. Tagad turpināsim gadu. Gadi ir atrodami viena perioda laikā;

21. Izveidojiet jaunu kolonnu, atlasot nelielu plusu blakus nosaukuma slejai;

22. Izmantojot XPath "./span", izveidojiet kolonnu "gads";

23. Noklikšķiniet uz nokasīt un apskatiet, kā tika pievienots gads;

24. Gatavs!