Strganje spletnih strani s Python in BeautifulSoup - Semalt nasveti

Na internetu je več kot dovolj informacij o tem, kako pravilno strgati spletna mesta in bloge. Potrebujemo ne le dostop do teh podatkov, ampak razširljive načine zbiranja, analiziranja in organiziranja. Python in BeautifulSoup sta dve čudoviti orodji za striženje spletnih strani in pridobivanje podatkov. Pri spletnem strganju lahko podatke enostavno izvlečete in predstavite v želeni obliki. Če ste navdušen vlagatelj, ki ceni svoj čas in denar, vsekakor morate pospešiti postopek spletnega strganja in ga narediti čim bolj optimiziranega.

Uvod

Uporabili bomo Python in BeautifulSoup kot glavni jezik strganja.

  • 1. Za uporabnike Mac je Python predhodno nameščen v OS X. Le odpreti morajo Terminal in vnesti python –verzijo . Tako si bodo lahko ogledali različico Python 2.7.
  • 2. Za uporabnike sistema Windows priporočamo, da namestite Python prek njegovega uradnega mesta.
  • 3. Nato morate s knjižico dostopati do knjižnice BeautifulSoup. To orodje za upravljanje paketov je bilo narejeno posebej za Python.

V terminal morate vstaviti naslednjo kodo:

easy_install pip

pip namestite BeautifulSoup4

Pravila strganja:

Glavna pravila strganja, ki jih morate paziti, so:

  • 1. Preden začnete z njenim zapisovanjem, morate preveriti pravila in predpise spletnega mesta. Zato bodite zelo previdni!
  • 2. Podatkov s spletnih mest ne smete zahtevati preveč agresivno. Prepričajte se, da se orodje, ki ga uporabljate, obnaša razumno. V nasprotnem primeru lahko spletno mesto razbijete.
  • 3. Ena zahteva na sekundo je prava praksa.
  • 4. Postavitev spletnega dnevnika ali spletnega mesta lahko kadar koli spremenite in morda boste morali obiskati to spletno mesto in po potrebi napisati svojo kodo.

Oglejte si stran

Premaknite kazalec na stran Cena, če želite razumeti, kaj je treba storiti. Preberite besedilo, povezano z HTML in Python-om, iz rezultatov pa boste videli cene znotraj oznak HTML.

Izvozi v Excel CSV

Ko izvlečete podatke, je naslednji korak shranjevanje brez povezave. V tem pogledu je najboljša izbira ločen format Excel z vejicami in ga lahko preprosto odprete v Excelovem listu. Najprej pa bi morali pravilno uvoziti podatke Python CSV modulov in datumsko-časovnih modulov. V uvozni del lahko vstavite naslednjo kodo:

uvoz csv

od uvoza datuma do datuma

Napredne tehnike strganja

BeautifulSoup je eno najpreprostejših in celovitejših orodij za strganje po spletu. Če pa želite pridobiti velike količine podatkov, razmislite o drugih možnostih:

  • 1. Praskanje je močan in neverjeten okvir strganja pitona.
  • 2. Kodo lahko integrirate tudi z javnim API-jem. Učinkovitost vaših podatkov bo pomembna. Na primer, lahko preizkusite Facebook Graph API, ki pomaga skriti podatke in jih ne prikaže na Facebook straneh.
  • 3. Poleg tega lahko z nadomestnimi programi, kot je MySQL, shranjujete podatke v veliki količini z veliko natančnostjo.
  • 4. DRY pomeni "Ne ponavljaj se" in s to tehniko lahko poskusite avtomatizirati redne naloge.