Subscribed unsubscribe Subscribe Subscribe

javascriptもクローリングしたい場合

クローリングするときは以下のようなコマンドを使用すると思います。

$ wget -r -nc -t 3 -W 10 -U ユーザーエージェント http://example.com

しかし、こちらではjavascriptを多用しているサイトではうまくクローリングができません。

Googlejavascriptもクローリングの対象としているので、SEO的には問題ありませんが、自前でクローリングする際には中途半端なクローリングになってしまいます。

そこで以下のいずれかを使用すればいい感じになりそうです。

github.com

Scrapy | A Fast and Powerful Scraping and Web Crawling Framework