本文主要参考Nutch Tutorial
Nutch 2.2.1目前性能没有Nutch 1.7好,参考这里,NUTCH FIGHT! 1.7 vs 2.2.1. 所以我目前还是使用的Nutch 1.7。
##1 下载已编译好的二进制包,解压
$ wget http://psg.mtu.edu/pub/apache/nutch/1.7/apache-nutch-1.7-bin.tar.gz
$ tar zxf apache-nutch-1.7-bin.tar.gz
##2 验证一下
$ cd apache-nutch-1.7
$ bin/nutch
如果出现”Permission denied”请运行下面的命令:
$ chmod +x bin/nutch
如果有Warning说 JAVA_HOME
没有设置,请设置一下JAVA_HOME
.
##3 添加种子URL
mkdir ~/urls
vim ~/urls/seed.txt
http://movie.douban.com/subject/5323968/
##4 设置URL过滤规则
如果只想抓取某种类型的URL,可以在 conf/regex-urlfilter.txt
设置正则表达式,于是,只有匹配这些正则表达式的URL才会被抓取。