După 5 luni, Zelist … #2

În articolul precedent am explicat cum se pot extrage date din paginile web ale saitului Zelist, cu demonstraţie practică obţinerea topului curent în format text. Astăzi voi chiar şi folosi datele respective.

~*~

Spre exemplu, să satisfacem curiozitatea de la care a pornit întreaga discuţie: câte saituri care apăreau în Aprilie nu mai apar astăzi deloc în top? Este chiar simplu de aflat:

sort f4.txt > present(i)
sort forig.txt > past(ii)

comm past present -23 > pastonly(iii)
comm past present -13 > presentonly(iv)

Deschizând fişierele în Notepad++, găsim că fişierul pastonly are 477 de linii. Admiţând ipoteza că există motiv întemeiat pentru a scoate domenii din top (e.g. a dispărut blogul de suficientă vreme), ne rezultă că dispar ~95 de bloguri într-o lună. Lăsăm ca exerciţiu cititorului să verifice datele din fişier şi să confirme sau infirme ipoteza.

Studiind fişierul presentonly, descoperim 1377 de noi bloguri, adică ~275 bloguri noi care au apărut în fiecare lună. Iată deci că sporul natural, dacă putem vorbi de aşa ceva, este pozitiv în cazul blogurilor, şi anume ~180 bloguri noi lunar! Desigur, admiţând că Treeworks au păianjeni (spiders) care ating toate colţurile internetului de limbă română, fără latenţă semnificativă; lăsăm exerciţiu cititorului să apere sau să infirme presupunerea. Mai sunt şi alte presupuneri implicite în aceste calcule, ca atare numerele se vor lua cu un gram de sare.

De final, să remarcăm că numărătoarea liniilor se poate face şi cu comanda wc a linux:

wc -l pastonly(v)
477 pastonly(vi)

wc -l presentonly
1377 presentonly

wc -l forig.txt
63932 forig.txt

Dacă tot suntem la faza asta, numărăm câte bloguri avea Zelist în Aprilie, şi vedem care-s procentele: au dispărut 477/63932, adică 0,746%. Idem, raportat la numărul de atunci, vedem că au apărut 1377/63932, deci sunt 2,153% bloguri noi în 5 luni. E puţin ca rată de creştere? Lăsăm pe alţii să decidă(vii).

Cam atât pentru astăzi, mulţumiri pentru atenţie, etc.

----------
  1. comanda sort e necesară pentru a putea efectua comm []
  2. înainte de a rula, am adus fişierul cu rezultatele din Aprilie în dosarul de lucru şi l-am numit forig.txt []
  3. comanda comm dă 3 seturi de date: liniile specifice primului fişier, liniile specifice celui de-al doilea fişier, respectiv liniile prezente în ambele ; parametrul -23 elimină deci seturile 2 şi 3, lăsându-ne cu domeniile ce între timp au fost scoase []
  4. aici rămânem cu domeniile ce au fost adăugate []
  5. parametrul -l cere numărarea liniilor []
  6. în lipsa altor precizări, rezultatele comenzii vor fi afişate pe ecran []
  7. am adăugat în arhiva de pe server fişierele rezultate în urma comm []
----------
După 5 luni, Zelist ...
Alternativ Quartet, sau o trupă ce merită promovată

Comments 4