2015-01-01から1年間の記事一覧

『Rubyによるクローラー開発技法』第x章サンプルコード wikipeda-category.rb がWindowsでエラーになる場合の対処法

310ページ @base_url = "http://ja.wikipedia.org" http ではなく https にすれば実行できる。出版したのちにWikipediaがhttps化したのだろう。

『Rubyによるクローラー開発技法』第2章サンプルコード just-crawling2.rb がWindowsでエラーになる場合の対処法

just-crawling2.rb のソースに、余計な半角スペースがあるためエラーになる。 Anemone.crawl (urls,:depth_limit => 1, :skip_query_strings => true) do |anemone| Anemone.crawl と (urls,:depth_li~)のあいだにある半角スペースを削除すれば動作する。 …

『Rubyによるクローラー開発技法』第2章サンプルコード rss-reader.rb がWindowsでエラーになる場合の対処法

SBクリエイティブ:「Rubyによるクローラー開発技法」サンプルスクリプト ここからダウンロードした、このサンプルソース。 \RubyCrawlerSample\chapter2\rss-reader.rb item_nodes.each do |item| のあとに、インデントかスペースが含まれているために実行す…

Rubyによるクローラー開発技法に掲載されている capybara-amazon.rb がエラーになる場合の対処法

select('アソシエイトID-22', :from => 'idbox_tracking_id') 本では idbox_store_id になっているからエラーになる。出版後に仕様変更があったのかもしれない。

RubyでスクレイピングするときAmazonアソシエイト等のSSL証明書でつまずくけど、とりあえずSSL認証しない方向で学習したほうがいい

Google検索をもちいたスクレイピングもSSL証明書を要求されるが、こちらを解決するのは簡単。Amazonあたりは中級者向けである。 require 'openssl' OpenSSL::SSL::VERIFY_PEER = OpenSSL::SSL::VERIFY_NONE require 'mechanize' とりあえず、上記の方法でス…

rubyでブラウザ操作の準備

DEVELOPMENT KIT のセットアップ方法 - 君の瞳はまるでルビー - Ruby 関連まとめサイト Ruby installer Downloads PhantomJS | PhantomJS

mechanizeを使ったスクレイピングの学習をはじめる

参考書を読みながらだが、AmazonアソシエイトログインにおけるSSLエラーで手こずった。まだまだ理解できていない。 Windows7でNokogiriを使えるようになるまで~RubyInstaller | Scimpr Blog http://blog.scimpr.com/2015/03/14/windows7%E3%81%A7nokogiri%E…

wgetで取得できない場合どうするか? ユーザーエージェントやリファラーの設定

wget --referer=http://www.google.com/ -U "Mozilla/4.0 (compatible; MSIE 4.0; MSN 2.5; Windows 95)" [ダウンロード出来ないページのURL] このコマンドで取得できた。要するにブラウザ以外のアクセスを弾いている設定なのだろう。そもそもクローラーでア…

wgetをインストールした

Wget for Windowshttp://gnuwin32.sourceforge.net/packages/wget.htm 『Rubyによるクローラー開発技法』を参考書にしている。 あらかじめCドライブ直下に wget フォルダを新規作成した。インストールした。 C:\wget/bin/wget.exe という構成になった。 Path…