Semalt leggur til 5 skref til að skafa vefsíður

Scrapy er opinn uppspretta og rammi til að vinna úr upplýsingum frá mismunandi vefsíðu. Það notar API og er skrifað í Python. Scrapy er nú viðhaldið af vefur skrap fyrirtæki sem heitir eins Scrapinghub Ltd.

Þetta er einföld kennsla um hvernig á að skrifa vefskriðara með því að nota Scrapy, greina Craigslist og geyma upplýsingar á CSV sniði. Nokkur fimm skref þessarar kennslu eru nefnd hér að neðan:

1. Búðu til nýtt Scrapy verkefni

2. Skrifaðu kónguló til að skríða vefsíðu og vinna úr gögnum

3. Flytðu út úr skrapuðum gögnum með skipanalínunni

4. Skiptu um kónguló til að fylgja tenglum

5. Notaðu kóngulórök

1. Búðu til verkefni

Fyrsta skrefið er að búa til verkefni. Þú verður að hlaða niður og setja upp Scrapy. Í leitarstikunni ættirðu að slá inn heiti möppunnar þar sem þú vilt geyma gögnin. Scrapy notar mismunandi köngulær til að vinna úr upplýsingum og þessir köngulær gera fyrstu beiðnir um að búa til möppur. Til að setja kónguló í vinnuna þarftu að fara á lista yfir möppur og setja þar sérstakan kóða. Fylgstu með skráunum í núverandi skrá og taktu eftir tveimur nýjum skrám: tilvitnunum-a.html og tilvitnunum-b.html.

2. Skrifaðu kónguló til að skríða vefsíðu og vinna úr gögnum:

Besta leiðin til að skrifa kónguló og vinna úr gögnum er að búa til mismunandi val í skel Scrapy. Þú ættir alltaf að láta vefslóðirnar fylgja með tilvitnunum; annars mun Scrapy breyta eðli eða nöfnum þessara vefslóða þegar í stað. Þú ættir að nota tvöfalda tilvitnanir í kringum slóðina til að skrifa kónguló á viðeigandi hátt. Þú ættir að nota.extract_first () og forðast vísitöluvillu.

3. Flytðu niður skrap gögn með skipanalínunni:

Það er mikilvægt að flytja skafa gögn með skipanalínunni. Ef þú flytur það ekki út færðu ekki nákvæmar niðurstöður. Kóngulóinn mun búa til mismunandi möppur sem innihalda gagnlegar upplýsingar. Þú ættir að nota Python lykilorð til að flytja þessar upplýsingar út á betri hátt. Innflutningur gagna í JSON skrár er mögulegur. JSON skrárnar eru gagnlegar fyrir forritara. Verkfæri eins og JQ hjálpa til við að flytja skrapp gögn án vandræða.

4. Skiptu um kónguló til að fylgja tenglum:

Í litlum verkefnum geturðu skipt um köngulær til að fylgja tenglum á viðeigandi hátt. En það er ekki nauðsynlegt með stórum stærðum skrappa verkefnum. Staðsetningarskrá fyrir hlutalagnir verður sett upp þegar þú skiptir um kónguló. Þessa skrá er að finna í námskeiðinu / pipelines.py hlutanum. Með Scrapy geturðu smíðað háþróuð köngulær og breytt staðsetningu þeirra hvenær sem er. Þú getur dregið út margar síður í einu og framkvæmt ýmis gögn útdráttar verkefna.

5. Notaðu kóngulórök:

Parse_author svarhringing er köngulærrök sem hægt er að nota til að vinna úr gögnum frá kraftmiklum vefsíðum. Þú getur einnig komið með skipanalínurit til köngulæranna með tilteknum kóða. Kóngulórökin verða kóngulóseiginleikar á skömmum tíma og breyta heildarútliti gagnanna þinna.

Í þessari kennslu náðum við aðeins til grundvallaratriða Scrapy. There ert a einhver fjöldi af lögun og valkostur fyrir þetta tól. Þú þarft bara að hala niður og virkja Scrapy til að vita meira um forskriftir þess.