Links von der Startseite…
Es ist erstaunlich was man herausfinden kann, wenn man dazu in der Lage ist ein kleines Stück Software zu schreiben. Letzeres habe ich gestern getan. Heraus kam ein sehr rudimentärer, aber dafür sehr schneller Linkcrawler. Er tut nichts weiter als sich eine Domain aus unserer Domaindatenbank zu ziehen, die Startseite abzuholen und die darauf befindlichen Links zu extrahieren.
Das Ganze läuft von meinem Office-PC so schnell, dass jede Sekunde 1500 interne und externe Links in die Datenbank geschrieben werden. Das macht immerhin 129 Mio. pro Tag bei einer CPU-Auslastung von zehn Prozent auf einem Computer, der kein Webserver ist. Ich habe mir die ersten Ergebnisse vorgenommen, weil mich interessiert hat, wie viele Links üblicherweise von einer Startseite aus irgendwohin zeigen. 2000 Startseiten habe ich versucht abzurufen. 1766 davon waren erreichbar.
Diese verfügen zusammen über 212.342 Links aller Art (interne und externe). Das macht im Durchschnitt 121 Links, was mir recht viel erschien, bis ich mir einige Seiten genauer angesehen habe.
163 davon (das sind neun Prozent) weisen mehr als 300 ausgehende Links auf. Allein die Top 10 bringen es zusammen auf mehr als 13.000 ausgehende Links.
1114, also 63 Prozent, kommen mit weniger als 100 Links aus.
171, also etwa zehn Prozent, sogar mit weniger als 10 Links.
So viel zu den Vorabinformationen. Eine ausführliche Analyse folgt in Kürze.
(Artikel erstmals 2012 veröffentlicht – Inhalt möglicherweise nicht mehr aktuell)