WordPress ignoriere Init für Crawler

Ich habe gerade gemerkt, dass Crawler wie Google eine massive Aktivität von allen add_action im Zusammenhang mit ‘init’ auslösen.

Ist das normales Verhalten? Ist es möglich, ‘init’ nur für legitime Besucher auszulösen?

Solutions Collecting From Web of "WordPress ignoriere Init für Crawler"

Habe das einfach zu functions.php hinzugefügt:

// Returns TRUE if it's a crawler function check_is_crawler() { if (isset($_SERVER['HTTP_USER_AGENT']) && preg_match('/bot|wget|crawl|google|slurp|spider/i', $_SERVER['HTTP_USER_AGENT'])) { return true; } else { return false; } } 

Und ich verwende es bei kritischen functionen, um die Ressourcennutzung zu verringern.

Außerdem wurde eine robots.txt mit folgendem Inhalt erstellt:

 User-agent: * Crawl-delay: 10 

Es stoppt Crawler, damit sie Ihre Website nicht “spammen” und alle Ihre Ressourcen verbrauchen

Sei gewarnt ! Allerdings mag Google das überhaupt nicht. Wenn Google beim Zugriff auf Ihre Seite ein anderes Verhalten für Crawler und Besucher Ihrer Website feststellt, wird Ihre Website möglicherweise als Spam eingestuft.

Danke für den Tipp @Jack Johansson, ich werde ihn nur auf interne functionen anwenden. Es ist eine Werbeseite und es gibt eine Menge Dinge, die unter die Haube gehen, die nicht an den Benutzer ausgegeben werden.

Wenn Ihre Website bei jedem Pagerload viele Ressourcen verbraucht, sollten Sie auch eine Caching-Lösung in Betracht ziehen, damit Ihre Seiten schneller geladen werden und die allgemeine Serverauslastung reduziert wird.

Wenn Caching nicht möglich ist, wäre die Verwendung von zurückgestellten Cronjobs (dh nicht WordPress-Crons, aber guten alten Server-Crons) eine gute Sache, die es Ihren Besuchern ermöglicht, die Daten immer bereit zu haben, anstatt auf das Kompilieren / Auffrischen warten zu müssen.

Kurze Antwort auf beide Fragen ist: Ja.

  • Ein Google-Crawler-Bot soll jede Seite Ihrer Website crawlen und den Inhalt indexieren. Wenn also ein Crawler von Google auf Ihre Website zugreift, ist es legitim. Wenn Sie nur einige Ihrer Seiten von Google ausschließen möchten, verwenden Sie die Google Webmaster-Konsole.
  • Sie können die add_action für Crawler deaktivieren. Sie müssen den Benutzeragenten abrufen und dann ein einfaches if() in der functions.php Ihres Themes functions.php , um es für Crawler zu deaktivieren. Es gibt viele Führer im Internet, die Ihnen dabei helfen können.

Sei gewarnt ! Allerdings mag Google das überhaupt nicht. Wenn Google beim Zugriff auf Ihre Seite ein anderes Verhalten für Crawler und Besucher Ihrer Website feststellt, wird Ihre Website möglicherweise als Spam eingestuft.

Sie haben vielleicht bemerkt, dass es in Fetch as google 2 Render-Ausgaben in der Google Webmaster-Konsole gibt. Einer ist die gerenderte Ausgabe für Besucher, einer wird von Google Bot gerendert. Diese 2 müssen so nah wie möglich beieinander sein. Sogar ein einfaches fehlendes CSS kann dazu führen, dass Ihre Website Google-Bot unordentlich gemacht wird. Im Laufe der Zeit wird Google das Erscheinungsbild Ihrer Website als Mist betrachten.

Viele Websites versuchen die Suchmaschinen zu täuschen, indem sie verschiedene Ausgaben für Besucher und Crawler bereitstellen. Zumindest weiß Google dies nicht zu schätzen, und Ihre Website kann von dieser Aktion bestraft werden.