サイトにどのくらいクローラーがきてるのか?
ってのは、サーチコンソールである程度わかるけど
どのページに?どの階層配下に?っていう詳細になると
アクセルログを解析する必要が、、、
でも、ログの何を見ればいいのか?
一番単純なのは、UAに「googlebot」とかの文字列で判断、、、
でもUAなんていくらでも偽装できるし、なんか
偽ボットに悩まされてるなんて記事もあったりして
UAで判断するのはベストではないと思われる
そんな中、こんなページを発見!
Googlebot かどうかの確認
ログに書かれてるIPから、hostコマンドでhost名を取得して
googlebot.comまたはgoogle.comであることを確認。
そしたら、host名から今度はIPを取得して、そのIPが元のIPと
等しければ、そのアクセスはGooglebotだ~!
GoogleがGooglebotをこう見分けろというのだから間違いないw
これをpythonでやる場合のサンプル
-- coding: utf-8 --
import socket
import sys
hostname => IP
print(socket.gethostbyname(hostname))
IP => hostname
print(socket.gethostbyaddr(ip))
コメント