タグ: crawling-scraping :8件
スクレイピングプログラムは様々な書籍やブログで紹介されており、勉強環境は非常に充実しています。一方でそのプログラムをどのように運用するかについては、情報量ははるかに少なくなります。この記事ではその1つの解としてGASとスプレッドシート、Cloud Functionsを使った自動実行システム構築の方法を解説しています。
クラウドソーシングサイトといえば、クラウドワークスとランサーズが有名です。私もこの2つに登録しています。前回クラウドワークスのサイトからスクレイピングする記事を書きましたが、今回はランサーズをスクレイピングして案件を発掘するプログラムについてまとめました。
フリーランサーや副業をされている方には、クラウドソーシングサイトで定期的に案件を探されている方が多いと思います。ただ、毎日同じような条件で検索をかけるのは正直手間です。この記事ではPythonのスクレイピング技術を用いて、クラウドワークスから案件を取得するプログラムについて解説しています。
クローリングするとき、そのサイトの利用規約やクロールルールを守るのは非常に重要です。ドメイン直下に置かれるrobot.txtは多くのサイトが活用していますが、Pythonのurllib.robotparserモジュールを利用することで、このrobots.txtを解析しクロールに活用していくことができます。
Cloud Functionsでは昨年からnode.jsとpupeteerを使ってJavaScriptに対応したサイトをスクレイピングするためのヘッドレスブラザの利用が可能となりましたがこの記事ではpythonで主流のheadless Chromeとseleniumを使ったスクレイピング方法について記載しています。
最近作ったクローラー、スクレイピングプログラムのコーディング過程で学んだTipsについてまとめています。seleniumやrequestsから些細なtipsまで幅広く扱っています。
JavaScriptを使っているサイトからスクレイピングを行うには、seleniumを利用する必要があります。ZOZOタウンで有名なWEARもJavaScriptを使っていますが、seleniumを使ってこのサイトから店舗一覧を取得する方法について記載しました。
googleスプレッドシートのスクレイピング機能を利用し、ZOZOのファッションコーディネートサイト、WEARからセレクトショップ一覧を取得し、googleマップにプロットしてみた。