De Banglasdesh Rippers

Door Vold op dinsdag 3 januari 2012 19:50 - Reacties (15)
Categorie: Programmeren, Views: 4.524

Succes komt helaas ook met de nodige onvoorziene problemen. Zo vond ik het onderstaande terug in mijn statistieken en het is sindsdien niet meer weg gegaan:

http://dodoworks.nl/files/freelancer.PNG

De url freelancer.com trok vooral mijn aandacht, dus ik ben eens op onderzoek uit gegaan. Na wat zoeken kwam ik erachter dat onbekende opdracht hebben gegeven om onze complete website te rippen en om te zetten naar een excel bestandje. De directe verwijzing is helaas al weer op prive gezet/ verwijderd, maar wat denken jullie hiervan:

https://www.freelancer.co...ry-from-website-into.html

Een quote:
"I will produce a list in a sheet with probably 100 websites.
They all have the same structure with their fees
I like to have one excel sheet with all the practices on a horizontal row and their fee according to the codes on the left side in the column below their number"


Ik heb nog overwogen om de iprange voor Banglasdesh te gaan blokkeren, maar ik ben bang dat het straks dweilen met de kraan open wordt. Wij hebben het geluk dat de tandartsen zelf de tarieven toevoegen, dus onze data zal toch wat meer te vertrouwen zijn dan die van onze (aanstaande?) concurrenten. Toch kriebelt het wel een beetje nu ik constant een stipje met naam "Dhaka" bij de statistieken zie..

Heeft iemand al eens eerder met zoiets te maken gehad? En zo ja, doen jullie er iets mee?

Volgende: 5. Installatie van Ruby on Rails op Ubuntu 11.10 04-'12 5. Installatie van Ruby on Rails op Ubuntu 11.10
Volgende: Je site op het NOS 20:00 journaal 01-'12 Je site op het NOS 20:00 journaal

Reacties


Door Tweakers user Blokker_1999, dinsdag 3 januari 2012 20:37

Wanneer die concurent natuurlijk eenmaal live gaat kan je eventueel wel op zoek gaan in je access.log naar zijn/haar IP adres en gewoon dat adres blokkeren, uiteindelijk moeten zij een bot opzetten die op regelmatige basis je website gaat crawlen en meestal zet je daarvoor een dedicated systeem in en niet iets van thuis uit op dynamisch IP.

Moet eerlijk toegeven dat ik wel al vanuit de andere kant gewerkt heb en zelf een crawler gemaakt die dageliijks van een bepaalde site 10000 paginas ging opvragen om dan waarden naar een mysql db weg te schrijven.

En heb op het werk zelfs een systeem lopen dat op eenzelfde wijze werkt maar zelfs om de 10 minuten omdat men tegen de gemaakte afspraken in weigert om ons read-only toegang te geven (direct of via API) van de onderliggende database.

[Reactie gewijzigd op dinsdag 3 januari 2012 20:39]


Door Tweakers user Gomez12, dinsdag 3 januari 2012 21:01

Blokker_1999 schreef op dinsdag 03 januari 2012 @ 20:37:
Wanneer die concurent natuurlijk eenmaal live gaat kan je eventueel wel op zoek gaan in je access.log naar zijn/haar IP adres en gewoon dat adres blokkeren, uiteindelijk moeten zij een bot opzetten die op regelmatige basis je website gaat crawlen en meestal zet je daarvoor een dedicated systeem in en niet iets van thuis uit op dynamisch IP.
Dat is leuk voor de officiele bedrijven, de hobbyisten crawlen eerst met hun thuisadres en gaan dan als die geblokt is rustig verder via proxy's etc.

De freelancer uit bangladesh die kan als heel bangladesh geblokkeerd is de opdracht weer uitzetten naar freelancers buiten bangladesh.

Onderschat het vernuft van een willend persoon niet

Door Tweakers user Fiander, dinsdag 3 januari 2012 21:42

Kun je niet een paar fake tantartsen toevoegen, zodat je later weet, en ook kunt aantonen wie jou data ript ?

Door Tweakers user damnyankee, dinsdag 3 januari 2012 22:05

Fiander schreef op dinsdag 03 januari 2012 @ 21:42:
Kun je niet een paar fake tantartsen toevoegen, zodat je later weet, en ook kunt aantonen wie jou data ript ?
Dat is een goed idee, kaartenmaker werkten vroeger op die manier. Ze zetten een niet bestaande plaats/monument/etc op een kaart, als een concurent die er dan ook op zou zetten wisten ze dat hij gekopieerd was.

Maar goed, ik denk niet dat je er verder heel veel aan kan doen.

Door Tweakers user i-chat, dinsdag 3 januari 2012 23:38

damnyankee schreef op dinsdag 03 januari 2012 @ 22:05:
[...]


Dat is een goed idee, kaartenmaker werkten vroeger op die manier. Ze zetten een niet bestaande plaats/monument/etc op een kaart, als een concurent die er dan ook op zou zetten wisten ze dat hij gekopieerd was.

Maar goed, ik denk niet dat je er verder heel veel aan kan doen.
gewoon zijn of haar domein(en) en beslag laten nemen - dat gaat bij data diefstal volgens mij vrij makkelijk..

Door Tweakers user Blokker_1999, woensdag 4 januari 2012 05:57

Gomez12 schreef op dinsdag 03 januari 2012 @ 21:01:
[...]

Dat is leuk voor de officiele bedrijven, de hobbyisten crawlen eerst met hun thuisadres en gaan dan als die geblokt is rustig verder via proxy's etc.

De freelancer uit bangladesh die kan als heel bangladesh geblokkeerd is de opdracht weer uitzetten naar freelancers buiten bangladesh.

Onderschat het vernuft van een willend persoon niet
Die freelancer in Bangladesh die geeft zijn project af eenmaal het af is, de traffiek uit bangladesh zal na een tijd dus terug verdwijnen. En als je iemand wenst te betalen voor zo een project dan zal je uiteindelijk ook wel van plan zijn om een degelijke hosting op te zetten voor je site. Je zou zelfs een detectiesysteem kunnen opzetten waarbij je automatisch toegang tot de site gaat blokkeren wanneer je merkt dat iemand tegen een razendsnel tempo paginas aan het opvragen is.

Door Tweakers user Tim_bots, woensdag 4 januari 2012 08:18

Kun je geen contact opnemen met die "DV235" en vragen waarom hij die data in excel wil hebben?

Aangezien deze persoon ervoor wil betalen kun je misschien iets afspreken ;)

Door Tweakers user jbdeiman, woensdag 4 januari 2012 09:00

Misschien is er wel iemand die op een simpele manier probeert een vergelijkingssite voor tandartsen op te zetten. Gewoon regelmatig wat dingetjes wijzigen in de structuur van je bestanden (opbouw van tabellen) gedurende een bepaalde tijd.
Op gegeven moment is het voor hun ook niet leuk meer.

Overigens kan je wel vanuit Bangladesh blokkeren, de kans dat iemand daar op jou website terecht komt om daar informatie op te vragen is maar klein.

Maar als zij een bot schrijven is die gebouwd op je huidige structuur, dus de structuur dan wat wijzigen is een leuke.

Door Tweakers user Kecin, woensdag 4 januari 2012 12:09

Ik zou iets met php maken dat elke keer dat de website opgevraagd word je tabellen/html structuur anders is zodat die bij elke 5 requests die die doet slechts 1 goed kan rippen.

Door Tweakers user Dreeke fixed, woensdag 4 januari 2012 12:53

Je zou een tabel kunnen toevoegen met tekst in de achtergrond kleur met dezelfde headers maar andere data, dit is misschien makkelijk te filteren maar het is we een extra obstakel.
En zoals aangegeven, je tabellen regelmatig wijzigen, wel zodat de gebruiker dit niet ziet maar de crawler wel.

Door Tweakers user Vold, woensdag 4 januari 2012 13:22

Kecin schreef op woensdag 04 januari 2012 @ 12:09:
Ik zou iets met php maken dat elke keer dat de website opgevraagd word je tabellen/html structuur anders is zodat die bij elke 5 requests die die doet slechts 1 goed kan rippen.
Ze crawlen niet, ze hebben gewoon een aantal man er op staan die het handmatig aan het overkloppen zijn. Crawler activiteit is inderdaad nog wel aan te pakken, maar dit..

Door Tweakers user DRaakje, woensdag 4 januari 2012 14:03

Als je de persoon kan onderschijden op bijv user agent dan kan je hem valse data geven, lastig voor hem te vinden en je ondermijnt zijn geloofwaardigheid.

Je kan ook kijken naar hoeveel requests er worden gemaakt, en extreme gebruikers filteren/valse data sturen.

Door Tweakers user Dragor, woensdag 4 januari 2012 15:51

Je kan wel manieren verzinnen om ze tegen te werken (wat best leuk kan zijn :+ ), maar volgensmij kun je het beste dit aanpakken bij de bron.

Ik zou gewoon, zoals Tim_bots al aangeeft, contact opnemen met die "DV235", vragen waar hij die data voor wil gebruiken. Aangezien hij nu wat gasten uit Bangladesh heeft ingehuurt, zou hij misschien best wel voor die data willen betalen. Waarom zou jij dan niet een database dump aan kunnen leveren voor een bedrag? :*)

Als dat allemaal geen zin heeft kun je hem altijd nog gaan proberen te dwarsbomen. Dat zou ik dan doen door valse data toe te voegen. Dat is namelijk het moeilijkste (als het niet onmogelijk is) om uit te filteren met scripts of moeten er mensen echt tijd in gaan steken om alles te verifieren.

Door Tweakers user Johnny, woensdag 4 januari 2012 16:51

Als een request uit een bepaalde IP-range (Bangladesh) de tarieven vermenigvuldigen met een willekeurig getal tussen 0.8 en 1.5. Dat hebben ze waarschijnlijk niet door en nemen alles foutief over.

Door Tweakers user -DarkShadow-, donderdag 26 januari 2012 12:05

Ik zou een goede API voor de data beschikbaar stellen. De concurrentie komt toch wel aan de data, dus zorg er voor dat jij er zo veel mogelijk profijt aan hebt.

De concurrent betaalt liever voor degelijke API toegang, dan een Indische programmeur voor het stelen van een database. Met een API beschikken zij over accuratere data en voorkomen ze juridische problemen.

Daarnaast kun je natuurlijk nog allerlei leuke features inbouwen om scrapers te blokkeren en zo je API te promoten. Het leukste is om bots gewoon heel veel fake data te laten scrapen.

P.S. Je concurrent leest dit natuurlijk ook :)

[Reactie gewijzigd op donderdag 26 januari 2012 12:06]


Reageren is niet meer mogelijk