Effektiv Suchen im Internet

From C3D2
Revision as of 16:43, 31 December 2006 by Sven (Talk | contribs)

Jump to: navigation, search
Veranstaltung
Titel Effektiv Suchen im Internet
Untertitel
Termin 13.02.2004
Ort Medienkulturzentrum Pentacon
Thema
Vortragende(r)
Referenten: Mark Neis
Links
C3D2 Webseite http://www.c3d2.de/news/ta-suchen_im_netz.html
Thema
Folien

Contents

erste Stichpunkte und eine grobe Strukturierung des Vortrages

  • Einstieg
  • Probleme beim Suchen im Netz
    • Internet ist mehr als WWW: gopherspace, FTP, Usenet, P2P, IRC, ...
    • exponentielles Wachstum (Netz wächst wesentlich schneller als die Datenbanken der SE)
      • schlechte Signal-Noise-Ratio
      • nur ein Bruchteil der existenten indizierbaren Seiten ist erfasst
    • aus nicht indizierbaren Quellen dynamisch generierte Seiten ("Invisible Web")
    • nicht verlinkte Seiten
  • Suchmaschinen
    • Technik
      • genereller Aufbau
      • Spider
      • evt. Datenbanken _=> habe über diesen Punkt wenig bis keine Informationen_
  • wesentliche Unterschiede
    • "eigentliche" Suchmaschinen
    • Kataloge/Verzeichnisse
    • Metasuchmaschinen
  • Markt
    • Wer hängt mit wem zusammen
    • Wer kauft Daten von wem

(Das folgende sind erst einmal nur "Notes to self", muss erst noch ausgearbeitet werden)

  • Verbesserung der eigenen Effektivität beim Suchen
    • erste Maßnahmen
    • SE richtig bedienen
  • es gibt mehr als Google
    • spezielle SE für spezielle Zwecke
  • die richtigen Tools
    • Die Vorzüge von Opera ;)
    • wget/pavuk
    • Copernic
  • ein paar Tricks
    • Beispiele
  • Fragen
    • Die Gegenseite: "Google Spamming"
    • Linkfarmen: was man mit Perl alles so machen kann...
    • Cloaking: Wie lassen sich Produkte eines Webshops richtig indizieren?

Linkliste

  • Seiten über das Suchen und über Suchmaschinen
    • searchlores.org, Fravias großartige Seite mit unglaublich vielen verschiedenen Dingen rund ums Suchen im Netz und anderes. Kommt etwas ausgefallen daher, ist imo aber ein Must-read für jeden Computerinteressierten.


diverse Literatur

  • Informationsverteilung im Internet
wwwmetrics.com (auch: http://www.searchlores.org/library/search-science98.pdf])
Accessibility and Distribution of Information on the Web, a study by Steve Lawrence and Lee Giles (1998)
"The coverage of any one engine is significantly limited: No single engine indexes more than about one-third of the “indexable Web,” the coverage of the six engines investigated varies by an order of magnitude, and combining the results of the six engines yields about 3.5 times as many documents on average as compared with the results from only one engine."


Der saarländische Ansatz: Wer hilft mir, mein Problem zu lösen?

G. W. Flake, S. Lawrence, C. Lee Giles, F. M. Coetzee: *Self-Organization of the Web and Identification of Communities* (1999)
"Despite the decentralized and unorganized nature of the web, we show that the web self-organizes such that communities of highly related pages can be efficiently identified based purely on connectivity. This discovery allows the identification of communities independent of, and unbiased by, the specific words used by authors."
Gary William Flake, Steve Lawrence, C. Lee Giles: *Efficient Identification of Web Communities* (2000)
"We define a community on the web as a set of sites that have more links (in either direction) to members of the community than to non-members. Members of such a community can be efficiently identified in a maximum flow / minimum cut framework, where the source is composed of known members, and the sink consists of well-known non-members. "


Suchmaschinen

  • Metasuchmaschinen
    • Ixquick sucht nicht einfach nur nach dem kleinsten gemeinsamen Nenner, sondern setzt die Suchanfragen in die Syntax der einzelnen Engines um.
    • fravia.2113.ch/phplab/scroll.htm, Eine Sammlung PHP-basierter Metasuchmaschinen, z.B. Indigo für eine Metasuche über die großen Gratis-Webspaceanbieter (Xoom, Geocities, ...). Die Sourcen sind natürlich verfügbar!
    • MetaGer: Die Metasuchmaschine des niedersächsischen Rechenzentrums in Hannover
    • Meta Crawler
  • spezielle SE
    • suchlexikon.de: Durchsuchbares Verzeichnis spezieller deutschsprachiger Suchmaschinen, Kataloge, Verzeichnisse und Linksammlungen
    • Visimo: Ordnet Suchergebnisse nicht als Liste sondern nach Clustern von Dokumenten

Tipps & Tricks

  • Ben's Beta Blog
    • Abusing Amazon "Search Inside the Book"
    • Kreatives Suchen: Wie man die Amazon-Suche _auch_ benutzen kann...

robots.txt

Vielleicht ist ja gerade das interessant, was die Spider nicht sehen sollen?


Mark Neis

Personal tools
Namespaces

Variants
Actions
Navigation
Tools