Plagiatul pe agregatoarele româneşti: astăzi, Fain

Discuţia ce urmează este meta- , despre chestiunile ce se întâmplă pe saitul fain@polimedia.us. Prefer să anunţ eu clar şi răspicat, ştiind că aceste chestiuni interesează pe prea puţini dintre oamenii ce ajung pe bloguri. Astfel avertizată populaţia, să purcedem!

~*~

Mircea, administratorul saitului în discuţie, este curios de câteva metrici asupra saitului său. Să-i dăm cuvântul, pentru a şti asupra căror chestiuni mă voi apleca mai apoi:

1. Alegeti la intimplare o pagina de articole-n asteptare.

2. Pornind de-acolo si mergind inapoi verificati un numar de 120 de articole (asta vine 10 pagini) sub aspectul ca daca textul introdus ca descriere aici face parte sau nu face parte din articolul respectiv asa cum apare pe blogul autorului original.

3. Publicati o statistica din care sa rezulte :
3.a. Nr. articole in care descrierea consta integral in preluari, nr total de cuvinte astfel preluate ; Nr. articole in care descrierea consta partial in preluari, nr. total de cuvinte preluate si nr total de cuvinte din descriere ; Nr. articole in care descrierea nu contine preluari
3.b. Statistica introducatorilor, dupa urmatorul format : nume, nr articole cu descrierea preluata integral, nr articole cu descrierea preluata partial, nr articole in care partea preluata nu apare intre ghilimele, nr articole introduse in total.
3.c. Primul si ultimul articol din serie.

Mnoa bine. Am ales aleatoriu şi mi-a dat cu pagina 51 (la acel moment), prin urmare setul meu de date are următoarele capete:

primul articol : http://polimedia.us/fain/societate/este-activitatea-bancara-moderna-inflationista-cristian-paun/
ultimul articol : http://polimedia.us/fain/societate/sa-inveti-nu-mai-e-la-moda-blogoteque/

De altfel, aveţi la dispoziţie arhiva fişierelor cu rezultatele – unul în format CSV pentru procesare mai uşoară în mod text, şi unul în format XLS (Excel, compatibil 97-2003) pentru a putea folosi uneltele oferite de softul respectiv. Coloanele sunt în număr de 7, precum urmează:

URL fain – adresa la care articolul respectiv se găseşte pe Fain, desigur
Introdus de – numele utilizatorului care l-a introdus, desigur
Tip descriere – valoare O pentru “complet originală”, CP pentru “copiată parţial” respectiv CC pentru “copiată complet”
Cuvinte copiate – numărul de cuvinte copiate, va fi 0 dacă descrierea este originală
Cuvinte originale – exact ce spune numele
Total cuvinte – adunarea coloanelor precedente
Marcaj copiere – n/a dacă nu s-au folosit cuvinte copiate, Ghilimele pentru marcare corectă a citatului, Nemarcat pentru aceia ce-au comis păcatul plagiatului

Am folosit unealta de numărat cuvinte de la adresa http://www.wordcounttool.com/, care din păcate numără greşit cuvintele cu diacritice. Am numărat manual o bună parte din articolele listei – şi chiar dacă pot spune că în principal numerele sunt corecte, nu mă apuc să bag mâna în foc. Doritorii sunt liberi să verifice cu mâna lor. O atenţionare pentru cititor, cuvintele scrise cu cratimă le-am considerat ca fiind unul singur – asta e şi tendinţa limbii, din moment ce ele-s alipite înseamnă că fac o singură unitate.

Şi acum, să ne apucăm a răspunde cerinţelor. Este chiar simplu, ajungând o simplă aplicare de filtre şi sortări în Excel.

Numărul total de descrieri complet copiate: 28. Descrieri parţial copiate: 26. Descrieri originale: 66. Numărul total de cuvinte copiate (suma coloanei C, valoare CC) este de 1327 – ca o curiozitate, totalul general al cuvintelor este 3623. Avem 923 de cuvinte în descrierile copiate parţial, versus 348 cuvinte originale în acest descrieri, totul conducând la un total de 1271 cuvinte în descrierile tip CP. Asta a fost cerinţa 3a) …

Acum, pentru punctul 3b) , vom face statistica introducătorilor, fix pe formatul din cerinţă:

Nume – CC – CP – O – plagiaturi – Total
00101010 – 0 – 0 – 3 – 0 – 3
angel – 0 – 0 – 1 – 0 – 1
Cassyus – 1 – 0 – 0 – 1 – 1
chironescul – 1 – 0 – 0 – 1 – 1
cosminmaricari – 4 – 4 – 0 – 0 – 8
Cristian008 – 1 – 0 – 1 – 1 – 2
Eldur – 1 – 2 – 0 – 0 – 3
ElenaCamelia2 – 0 – 0 – 2 – 0 – 2
Eliza – 2 – 0 – 0 – 0 – 2
Engineered – 0 – 0 – 1 – 0 – 1
Freud – 0 – 0 – 3 – 0 – 3
ipascu – 0 – 0 – 1 – 0 – 1
iulysa – 2 – 0 – 0 – 2 – 2
mircea_popescu – 12 – 19 – 46 – 2 – 77
Mystic – 4 – 0 – 5 – 0 – 9
Nelumbo – 0 – 1 – 2 – 0 – 3
Parazitull – 0 – 0 – 1 – 0 – 1

Sunt în total 7 pasaje plagiate, dintr-un total de 120, ceea ce revine la un fulminant 5,8(3)%. Campioană este iulysa, cu procentaj 100% (2/2), iar strict numeric vine Mircea după ea, tot cu două bucăţi – ce-i drept, din 77.

Pentru alte procesări aveţi la dispoziţie fişierele originale. Corecturile şi observaţiile sunt binevenite.

Doo vorbe să vă spun
Last.fm şi pretenţiile de meloman

Comments 6