Nutch翻译

  • Uploaded by: Dony
  • 0
  • 0
  • August 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Nutch翻译 as PDF for free.

More details

  • Words: 191
  • Pages: 2
Crawl 用法 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN] 必须是一个已存在的目录,目录中含有 URL 地址的文本文件 [-dir ]:保存爬行文件的目录,默认值是./crawl-[date],[date]是当前日期 [-threads ] Fetcher 要使用的线程数,覆盖 fetcher.threads.fetch 的配置值,默认为 10 [-depth ] nutch 要爬行的迭代数,默认是 5 [-topN :在每次迭代中限制爬行的头几个链接数,默认是 Integer.MAX_VALUE 配置文件 hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml,crawl-tool.xml 其他文件 Crawl-urlfilter.txt Inject 用法 Bin/nutch inject 爬行数据库所在的目录路径 包含 url 文本文件的目录路径 配置文件 hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml 配置值 下 面 的 属 性 直 接 影 响 了 注 射 器 如 果 注 入 网 址 : db.default.fetch.interval:设置每两次 fetch 之间的时间间隔天数,默认是 30.0f db.score.injected:设置 URL 的默认范围,默认是 1.0f urlnormalizer.class : 规 范 化 注 入 的 urls 的 类 名 称 , 默 认 是 org.apache.nutch.net.BasicUrlNormalizer 例子: nutch-0.8-dev/bin/nutch inject /path/to/crawldb /path/to/url/dir Files: /path/to/url/dir/nutch.txt /path/to/url/dir/hadoop.txt /path/to/url/dir/wikis.txt nutch.txt contents: http://lucene.apache.org/nutch/ http://lucene.apache.org/nutch/tutorial.html hadoop.txt contents: http://lucene.apache.org/hadoop/ http://lucene.apache.org/hadoop/docs/api/ wikis.txt contents: http://wiki.apache.org/hadoop/ http://wiki.apache.org/nutch/

http://wiki.apache.org/lucene/ 在上面的例子中,有 7 个网址会被注射器注入位于/path/to/crawldb 的爬行数据库 Generator 用法 Bin/nutch generate <segments_dir> [-topN ] [-numFetchers ] [-adddays ] crawldb 目录 <segments_dir> 创建 Fetcher Segments 的目录 [-topN ]选择每个段的前条,默认 Long.MAX_VALUE [-numFetchers ]fetch 分区数,默认是 Configuretion key->mapred.map.tasks->1 [-adddays ] 当 前 时 间 天 后 爬 行 已 被 fetched 的 url 地 址 , 比 db.default.fetch.interval 快,默认是 0 配置文件 hadoop-default.xml,hadoop-site.xml,nutch-default.xml,nutch-site.xml 配置值 下面属性会影响 Generator 生成 fetch segments generate.max.per.host :本次 fetch 运行中,从一个单一主机上生成 urls 最大数,默认值 是 unlimited fetch 用法

Related Documents

How To Install Nutch 0 8
October 2019 19
How To Install Nutch 0 7 2
October 2019 16

More Documents from "Sharjeel Sayed"

August 2019 38
Jesus We Love You-chord.pdf
December 2019 33
3. Gloria Cantemos.pdf
December 2019 26
December 2019 28
Undangan Rapat Intern.docx
October 2019 33