Survey Data Mining:   Home | FAQ | Archive | Glossary
Free Reports
  
Häufig gestellte Fragen


Vorgehensweise der Untersuchung - ein Überblick

Unsere Untersuchungen erfassen nur solche Daten, die für die Öffentlichkeit gedacht sind. Beispielsweise sammeln wir Internet Seiten und speichern die Antwort, die der Server zu uns schickt - vergleichbar mit einer beliebigen Anfrage, die ein Benutzer des Internets Ihrem Server schicken könnte. Das gleiche gilt für DNS-Anfragen.

All unsere Untersuchungsberichte setzen sich in vollkommen legitimer Weise aus Daten zusammen, die für alle frei zugänglich sind. Was also macht unsere Untersuchung einzigartig? Einfach gesagt, ist es die Bandbreite und Ausdauer unserer Untersuchungsaktivität. Wir sammeln unsere Daten schon seit Mai 1998 und zeichnen jeden Monat die Daten VIELER Internet Sites auf. In manchen Fällen durchsuchen unsere Crawler (engl. 'Kriechtier' - im Sprachgebrauch des Internets ein Programm, das das Internet absucht, indem es jedem verfügbaren Link folgt) gründlich ein Teilstück des Internet; in anderen Fällen besuchen wir alle uns bekannten Server - je nachdem, welche Daten wir sammeln wollen.

Indem wir die Ergebnisse der verschiedenen Suchmethoden vereinigen, verfügen wir über eine Vielfalt von Gutachten, von denen wir einige kostenlos auf unserer Web Site veröffentlichen.

Was ist eine "HEAD"-Anfrage?

Jeden Monat besuchen wir alle uns bekannten Web Server und stellen immer dieselbe http-Anfrage, die etwa so aussieht:

    HEAD / HTTP/1.0
    User-Agent: Mozilla/4.0 (compatible; SecuritySpace WebSurvey;
            http://www2.securityspace.com )
    Accept: text/plain,text/html
Kurz gesagt ist dies eine Anfrage nach der in Frage stehenden Web Site. Um jedoch die Bandbreite der Untersuchung zu optimieren, verlangen wir nur die http - Kopfkomponente (den 'Header') der Site. Dies erklärt den Gebrauch der Anweisung "HEAD", wo im normalen Gebrauch "GET" stehen würde. Dies kommt sowohl unserer Vielfalt, als auch der Ihren zu gute. In einigen Fällen behandeln Internet Server eine HEAD-Anfrage genau gleich wie eine GET-Anfrage und schicken uns zusätzlich die komplette Internet Seite zurück. In solchen Fällen löschen wir das zurückgegebene html-Dokument und speichern nur den http-Header.

Die User-Agent - Zeile der Anfrage bezeichnet im häufigsten Fall den Typ des Browsers, den der Benutzer verwendet. Hier, in unserem Fall, haben wir unseren Crawler in diese Zeile geschrieben.

Welche Seiten besucht ihr?

Wir besuchen Sites, die wir als weitläufig bekannt betrachten. Als weitläufig bekannt definieren wir eine Internet Site dann, wenn wir einen Link zu dieser Site von mindestens einer anderen weitläufig bekannten Site finden konnten. Falls wir also Sie besuchen bedeutet das, dass wir durch einen Link von einer anderen Site von Ihnen gehört haben.

Falls eine Site drei Monate nacheinander nicht mehr auf unsere Anfrage antwortet, nehmen wir sie automatisch aus der Untersuchung heraus. Auf diese Weise bleibt unsere Auflistung bekannter Server immer auf dem neuesten Stand.

Durch diese Vorgehensweise sehen wir, dass wir in Wirklichkeit nur etwa 10% der tatsächlich im Internet verfügbaren Sites besuchen. Der Grund dafür ist, dass rund 90% aller Seiten im Internet 'Anhängsel' sind, wie etwa Domain-Platzhalter, persönliche Internet Seiten usw., die vom Rest der Internetgemeinschaft als 'unwichtig' angesehen werden (oder zumindest nicht wichtig genug um sie zu referenzieren).

Gewöhnliche Crawler

Wir benutzen einen gewöhnlichen Crawler, der sich in seinem Verhalten nicht von einem beliebigen anderen Crawler unterscheidet und monatlich die Seiten eines Teils des Internet besucht. Dieser Crawler lädt gesamte Web Seiten und achtet auf verschiedene Eigenschaften der Seiten (etwa Adressen, von denen eingebettete Objekte, wie Bilder, Frames usw. abgeholt werden).

Die Aufgabe des Crawlers ist es, Links zu neuen Seiten im Internet zu entdecken, die uns bislang noch nicht bekannt waren, und dabei verschiedene Merkmale aufzuzeichnen, die in Internet Sites auftauchen. Die Aufzeichnungen ermöglichen es uns, unsere Berichte zu veröffentlichen, wie etwa wie etwa unseren Bericht über Web Bugs oder über die Häufigkeit des Einsatzes bestimmter Techniken.

Wir besuchen Sites nach dem Zufallsprinzip, d.h. wir nehmen die vollständige Liste aller uns bekannten Sites, bringen sie in eine zufällige Reihenfolge und beginnen dann, eine nach der anderen zu besuchen. Wir konfigurieren unsere Crawler so, dass sie sich einmal pro Jahr durch die gesamte Liste arbeiten - das heißt, dass wir Ihre Seite höchstens etwa alle 12 Monate einfangen.

Server Gruppen

Wenn wir unsere Untersuchungsberichte und Tortendiagramme erstellen, fassen wir verschiedene Servertypen eines speziellen Anbieters in einer Gruppe zusammen. Die nachfolgende Aufstellung zeigt die verschiedenen Server, die wir unter einem Begriff gruppiert haben:

Netscape Netscape ist der Überbegriff für die folgenden verschiedenen Server: Netscape-Enterprise, Netscape-Commerce, Netscape-Communications, Netscape-FastTrack, Netscape-Catalog und Netscape-Administrator.
Microsoft Microsoft ist der Überbegriff für die folgenden verschiedenen Server: Microsoft-IIS, Microsoft-PWS, Microsoft-PWS-95, Microsoft-ELG und Microsoft-Internet-Information-Server.
WebSite WebSite (von O'Reilly) ist der Überbegriff für WebSite und WebSitePro.

DNS-Anfragen

Unsere Untersuchungen erzeugen jeden Monat eine Anzahl von DNS-Anfragen. Diese schließen ein:

  • Auflösung der IP-Adresse jedes Wirtsrechners (oder Hosts), den wir besuchen.
  • Bestimmung des Speicherortes aller DNS und Mail Server jeder Domain
  • Bestimmung des maßgeblichen DNS Servers für Subdomains der in-addr.arpa Domain

    Die oben genannten Aktivitäten erlauben uns, eine Anzahl von Berichten zu erstellen, eingeschlossen unsere frei erhältlichen Berichte über ISP Marktanteile und über DNS Load Balancing, die jeden Monat veröffentlicht werden.

    Zeitplan der Veröffentlichungen

    Wir veröffentlichen unsere Untersuchungsergebnisse regelmäßig und geben die Berichte jeden Monat am jeweils Ersten heraus. Beispielsweise haben wir am 1. Juli 2001 die Ergebnisse der Untersuchungen veröffentlicht, die wir während des Monats Juni gemacht hatten.

    Kommentare? Vorschläge?

    Bitte schreiben Sie uns! Wir freuen uns, von Ihnen zu hören!



© 1998-2024 E-Soft Inc. Alle Rechte vorbehalten.