「JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック」を買ってみた。
【買った動機】
1, node.js(サーバ側で動くjavascript)は、覚えなきゃな~と思いつつ、あんまり触った事がなかった
2, Webクローラーに興味があったから
やっぱり目的があった方が、言語も覚えやすい。
【ナナメ読みした感想】
わりと最近のトレンドである要素を、広く浅く分かりやすく解説していてよい。
読みながらサンプルコードを実行するだけでも、けっこう勉強になります。
ログインが必要なサイトからの収集
CoffeeScript
DB・PDF出力
日本語の形態素解析(文章→単語→品詞に分類して、意味解釈する)
twitter,FB,Aamazon,youtube,wikipediaなど代表的なサイトからのデータ収集
機械学習
データの視覚化(グラフ化)
【詰まった所】
60ページ目にある、wikipediaからイヌの画像を抜いてくる所でタイムアウト…。imgフォルダを作成する権限がないのが原因だったみたい。
画像ファイルは生成されるようになったけど、0バイトのファイルが大量に生成された。
Error: socket hang up
何が原因か分からないけど、さっさと無視して別のサンプルをやろう(^_^;)
サンプルソースを実行するだけだから気楽なもんだ~。
92ページ目のPhantomJS/CasperJSのインストールでもエラー。こっちは解決できた。
1 2 3 4 5 |
npm WARN unmet dependency /usr/lib/node_modules/block-stream requires inherits@'~2.0.0' but will load npm WARN unmet dependency undefined, ## inheritsってのが必要ってエラーなので、インストールしてみたら問題なく動いた npm install -g inherits |
あと急にnodeじゃなくなったのに、何も書いてなくて中々気づかなかった(^_^;)
☓ node screenshot.js
◯ casperjs screenshot.js
flickerの検索も、qなんて見つからないよ~とエラー。
【注意点】
まえがきにも書いてあるけど、プログラミング中級者向けに書かれていて、CentOSのコマンドもある程度分かっていないと、サンプル実行も出来ない。