Netarkivet – hvem og hvad høstes?

For snart et år siden skrev jeg om Netarkivets brutale indeksering af mine hjemmesider, som fuldstændig åd al min dyrebare båndbredde. Jeg beskrev, hvordan jeg greb til hårdhændede midler og simpelthen inkludere Netarkivets ip-adresser i min firewalls drop-regel for http-trafik. Lidt provokerende, for Netarkivet læser selvfølgelig med.

En reaktion udeblev da heller ikke; den 15. oktober 2009 modtog jeg en mail fra Netarkivets daglige leder, Claus Lomborg:

Hej Uffe Andersen

Vi er kede af at vi er kommet til at genere dig med vores crawler.

Derfor vil vi fremover høste dig mindre agressivt.

Og vi vil også bede dig åbne op for vores høstere igen, som du selv foreslår på din blog.

I øvrigt er det korrekt at vi prøver at være så servicevenlige som muligt. Vores opgave er jo netop helt legitim. Vi høster de danske internetdomæner for kulturministeriet under pligtafleveringsloven. Dvs at vi har pligt til at høste de offentlige websider, og webejerne har pligt til at åbne op for vores høstere. Og det hører med til historien at vi selvfølgeligt ikke må genere webstederne. Hvis du har flere domæner som vi skal tage højde for, så sig til.

Venlig hilsen
Claus Lomborg
Daglig leder http://netarkivet.dk

Svaret gav anledning til flere spørgsmål, men det blev dog først i december, at jeg fik forfattet et svar:

Hej Claus

Lad mig først og fremmest takke for din henvendelse og beklage mit manglende svar.

Kan jeg få dig til at uddybe, hvilke domæner I høster? Du skriver nemlig “danske internetdomæner”, men i det konkrete tilfælde høstede I mit “blog.andersen.nu”-domæne og det er jo ikke just dansk. Så mener du i virkeligheden domæner hosted på danske ip-adresser? Hvad gør I så med .dk-domæner, der er hosted i udlandet?

Jeg har følgende domæner hosted på min server:
crystaldragon.dk
klippehjornet.dk
sommerhuset.nu
brokblog.dk
ljungqvist.dk
teamholmracing.dk
teamrnracing.dk
rydtoften.dk
stopdown.dk
87z.dk
ufoto.dk

andersen.nu
traumatic.com
twe.net

– flere af domænerne har flere hosts, f. eks. www.andersen.nu, blog.andersen og galleri.andersen.nu.

Når jeg modtager en bekræftelse på, at I har droslet ned for jeres robotter, vil jeg igen åbne op for jeres crawlere. Afhængigt af din uddybning af jeres høstnings-politik, forbeholder jeg mig retten til fortsat at blokere for mine ikke-.dk-domæner.

Netarkivets svar kom senere på måneden:

Hej Uffe

Tak for mail.

Nu har vi sat høstningen af dine websites til vores allermest forsigtige.

Det handler om en lang række parametre, så jeg vil helst ikke ind i detaljer.

Vi har aldrig modtaget kritiske henvendelser på denne høstningsskabelon, så i givet fald vil du blive den første – men det tror jeg ikke.

Mht hvilke domæner vi høster i Netarkivet, søger vi det, vi kalder danica. Det betyder her websites (eller dele heraf) på dansk sprog eller som har tilknytning til Danmark og et dansk publikum.

I praksis betyder det .dk domæner, domæner der hostes på IP adresser i Danmark (men også .com, .net, .info, .org osv, hvis det er danica), samt danske websider der fx hostes i andre lande – igen forudsat at det er danica. Vi ønsker kun at høste danica. Som du kan regne ud har vi visse problemer med at “opdage” danica på udenlandske IP adresser, vi følger typisk link fra danske IP-adresser og laver en maskinel undersøgelse på dem. Desuden ændrer hostingsmønstret sig ret hurtigt. Fx hoster danske hostingsfirmaer efterhånden mange domæner fra vore nabolande, som vi sjældent er interesseret i.

Håber at dette er tilstrækkeligt svar. Og tak fordi din positive holdning til arkivet.

Vores høstere kommer forbi 2-3 gange om året.

venlig hilsen
Claus Lomborg
Daglig leder http://netarkivet.dk

Det var sådan set den information jeg havde søgt, men som ikke fandtes i Netarkivets FAQ. Din hjemmeside kan og vil blive høstet, hvis den er på dansk eller med tilknytning til Danmark, uanset hvor i verden den befinder sig og uanset hvilket TLD den ligger under.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *