Hallo zusammen,
also ich bin der festen Überzeugung, dass man eine robot.txt im root Verzeichnis haben sollte.
Dadurch können verschiedene robots ec. ausgeschlossen bzw. geführt werden. Es halten sich zwar nicht alle robots daran, aber besser als keine robots.txt zu haben und zur Datenschleuder zu werden.
Beispiel:
User-agent: EmailCollector
Disallow: /
(hält eine der größten Email-Robots auf)
User-agent: ia_archiver
Disallow: /
(sorgt dafür, dass alle Einträge bei archive.org gelöscht werden ec.)
User-agent: *
Disallow: /cgi-data
(verschiedene Verzeichnisse nicht crawlen lassen)