Ti rimbalzo questo interessante articolo segnalato da Dave Winer, che spiega come Google, che indicizza circa il 30% di tutte le pagine su internet, segue dei criteri:
- Google does not index every page of the Internet;
- That Google tends to drop (or not index) pages from three to six months ago and older)
- That Google tends to have near 98% of recent pages ( pages created in the last 3 months) indexed in blogs, educational sites and news and information sites;
- That Google tends to have 80% of main stream website pages indexed that were created in the last 3 months;
- That Google tends to ignore some types of sites that have little information on them.
Naturalmente c’è un’altra categoria che Google non indicizza: le pagine che stanno dietro un abbonamento a pagamento o quelle che non hanno un permalink, come ad esempio gli archivi dei giornali. Te lo spiega Doc Searls qui e qui.
In base a questi criteri, Google indicizzerebbe (sottolineo che si tratta di risultati empirici) circa la metà dei weblogs, il 37% dei siti .edu, il 29% dei siti “mainstream”, il 45% delle news, l’8% delle pagine-spazzatura, tipo Geocities e simili.
Ne parla anche Paolo qui.