Blow Up by Black Swan

Tag Archive

タグ: robots.txt  :1件

Python-urllib.robotparser による robots.txt の解析

クローリングするとき、そのサイトの利用規約やクロールルールを守るのは非常に重要です。ドメイン直下に置かれるrobot.txtは多くのサイトが活用していますが、Pythonのurllib.robotparserモジュールを利用することで、このrobots.txtを解析しクロールに活用していくことができます。