Crawl 用法 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN] 必须是一个已存在的目录,目录中含有 URL 地址的文本文件 [-dir ]:保存爬行文件的目录,默认值是./crawl-[date],[date]是当前日期 [-threads ] Fetcher 要使用的线程数,覆盖 fetcher.threads.fetch 的配置值,默认为 10 [-depth ] nutch 要爬行的迭代数,默认是 5 [-topN :在每次迭代中限制爬行的头几个链接数,默认是 Integer.MAX_VALUE 配置文件 hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml,crawl-tool.xml 其他文件 Crawl-urlfilter.txt Inject 用法 Bin/nutch inject 爬行数据库所在的目录路径 包含 url 文本文件的目录路径 配置文件 hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml 配置值 下 面 的 属 性 直 接 影 响 了 注 射 器 如 果 注 入 网 址 : db.default.fetch.interval:设置每两次 fetch 之间的时间间隔天数,默认是 30.0f db.score.injected:设置 URL 的默认范围,默认是 1.0f urlnormalizer.class : 规 范 化 注 入 的 urls 的 类 名 称 , 默 认 是 org.apache.nutch.net.BasicUrlNormalizer 例子: nutch-0.8-dev/bin/nutch inject /path/to/crawldb /path/to/url/dir Files: /path/to/url/dir/nutch.txt /path/to/url/dir/hadoop.txt /path/to/url/dir/wikis.txt nutch.txt contents: http://lucene.apache.org/nutch/ http://lucene.apache.org/nutch/tutorial.html hadoop.txt contents: http://lucene.apache.org/hadoop/ http://lucene.apache.org/hadoop/docs/api/ wikis.txt contents: http://wiki.apache.org/hadoop/ http://wiki.apache.org/nutch/
http://wiki.apache.org/lucene/ 在上面的例子中,有 7 个网址会被注射器注入位于/path/to/crawldb 的爬行数据库 Generator 用法 Bin/nutch generate <segments_dir> [-topN ] [-numFetchers ] [-adddays ] crawldb 目录 <segments_dir> 创建 Fetcher Segments 的目录 [-topN ]选择每个段的前条,默认 Long.MAX_VALUE [-numFetchers ]fetch 分区数,默认是 Configuretion key->mapred.map.tasks->1 [-adddays ] 当 前 时 间 天 后 爬 行 已 被 fetched 的 url 地 址 , 比 db.default.fetch.interval 快,默认是 0 配置文件 hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml 配置值 下面属性会影响 Generator 生成 fetch segments generate.max.per.host :本次 fetch 运行中,从一个单一主机上生成 urls 最大数,默认值 是 unlimited fetch 用法