メサイア・ワークス

「JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック」を買ってみた。

「JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック」を買ってみた。

【買った動機】
1, node.js(サーバ側で動くjavascript)は、覚えなきゃな~と思いつつ、あんまり触った事がなかった
2, Webクローラーに興味があったから
やっぱり目的があった方が、言語も覚えやすい。

【ナナメ読みした感想】
わりと最近のトレンドである要素を、広く浅く分かりやすく解説していてよい。
読みながらサンプルコードを実行するだけでも、けっこう勉強になります。

ログインが必要なサイトからの収集
CoffeeScript
DB・PDF出力
日本語の形態素解析(文章→単語→品詞に分類して、意味解釈する)
twitter,FB,Aamazon,youtube,wikipediaなど代表的なサイトからのデータ収集
機械学習
データの視覚化(グラフ化)

【詰まった所】
60ページ目にある、wikipediaからイヌの画像を抜いてくる所でタイムアウト…。imgフォルダを作成する権限がないのが原因だったみたい。
画像ファイルは生成されるようになったけど、0バイトのファイルが大量に生成された。
Error: socket hang up

何が原因か分からないけど、さっさと無視して別のサンプルをやろう(^_^;)
サンプルソースを実行するだけだから気楽なもんだ~。

92ページ目のPhantomJS/CasperJSのインストールでもエラー。こっちは解決できた。

あと急にnodeじゃなくなったのに、何も書いてなくて中々気づかなかった(^_^;)
☓ node screenshot.js
◯ casperjs screenshot.js

flickerの検索も、qなんて見つからないよ~とエラー。

【注意点】
まえがきにも書いてあるけど、プログラミング中級者向けに書かれていて、CentOSのコマンドもある程度分かっていないと、サンプル実行も出来ない。

モバイルバージョンを終了