Googlebot かどうかの確認

サイトにどのくらいクローラーがきてるのか?
ってのは、サーチコンソールである程度わかるけど
どのページに?どの階層配下に?っていう詳細になると
アクセルログを解析する必要が、、、

でも、ログの何を見ればいいのか?

一番単純なのは、UAに「googlebot」とかの文字列で判断、、、
でもUAなんていくらでも偽装できるし、なんか
偽ボットに悩まされてるなんて記事もあったりして
UAで判断するのはベストではないと思われる

そんな中、こんなページを発見!
Googlebot かどうかの確認

ログに書かれてるIPから、hostコマンドでhost名を取得して
googlebot.comまたはgoogle.comであることを確認。
そしたら、host名から今度はIPを取得して、そのIPが元のIPと
等しければ、そのアクセスはGooglebotだ~!

GoogleがGooglebotをこう見分けろというのだから間違いないw

これをpythonでやる場合のサンプル

-- coding: utf-8 --

import socket
import sys

hostname => IP

print(socket.gethostbyname(hostname))

IP => hostname

print(socket.gethostbyaddr(ip))

コメント

タイトルとURLをコピーしました