李岩的博客

转：各大搜索引擎蜘蛛的UserAgent

2013-07-09T10:59:01+08:00

GOOGLE
---------------------------------------------------------------------
66.249.70.212 - - [11/Jan/2009:00:03:35 -0700] "GET www.vidun.com/user-f2fc990265c712c49d51a18a32b39f0c.html?umid=f2fc990265c712c49d51a18a32b39f0c HTTP/1.1" 200 8148 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Referer: ""
UserAgent: "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.70.212 - - [11/Jan/2009:03:27:23 -0700] "GET www.youxigao.com/images/pink/demo.gif HTTP/1.1" 200 2367 "-" "Googlebot-Image/1.0"
Referer: ""
UserAgent: "Googlebot-Image/1.0"

209.85.238.7 - - [11/Jan/2009:00:02:58 -0700] "GET www.youxigao.com/rss/c/1009 HTTP/1.1" 404 37 "-" "Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 10 subscribers; feed-id=8474979256887526569)"
Referer: ""
UserAgent: "Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 10 subscribers; feed-id=8474979256887526569)"

百度
---------------------------------------------------------------------
60.28.22.38 - - [11/Jan/2009:01:28:09 -0700] "GET www.vidun.com/vwsoft-vwantileechs-download.html?pr=vwantileechs&vi=download HTTP/1.1" 200 27406 "http://www.vidun.com/" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
Referer: ""
UserAgent: "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

YAHOO
---------------------------------------------------------------------
202.160.180.81 - - [11/Jan/2009:00:02:44 -0700] "GET www.vidun.com/ HTTP/1.0" 200 14250 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)"
Referer: ""
UserAgent: "Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)"

67.195.37.167 - - [11/Jan/2009:00:23:00 -0700] "GET www.vidun.com/postmsg-tech-2-120.html?type=tech&id=2&tid=120 HTTP/1.0" 200 12609 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
Referer: ""
UserAgent: "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

有道
---------------------------------------------------------------------
2008-03-04 09:54:12 W3SVC226223753 222.33.192.54 GET /index.php - 80 - 61.135.219.7 Mozilla/5.0+(compatible;+YodaoBot/1.0;+http://www.yodao.com/help/webmaster/spider/;+) - 200 0 0
Referer: ""
UserAgent: "Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )"

61.135.249.120 - - [11/Jan/2009:09:44:46 -0700] "GET vidun.com/robots.txt HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )"
Referer: ""
UserAgent: "Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )"

SOSO
---------------------------------------------------------------------
58.61.164.207 - - [11/Jan/2009:03:13:53 -0700] "GET www.vidun.com/robots.txt HTTP/1.1" 404 - "http://www.vidun.com/robots.txt" "Sosospider+(+http://help.soso.com/webspider.htm)"
Referer: ""
UserAgent: "Sosospider+(+http://help.soso.com/webspider.htm)"

2008-03-04 10:48:28 W3SVC226223753 222.33.192.54 GET /index.php - 80 - 124.115.4.218 Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm) http://www.tatabao.com/ 200 0 0
Referer: ""
UserAgent: "Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)"

Sogou
---------------------------------------------------------------------
219.234.81.41 - - [11/Jan/2009:03:26:49 -0700] "GET www.vidun.com/ HTTP/1.0" 200 14250 "-" "Sogou Web Sprider(compatible; Mozilla 4.0; MSIE 6.0; Windows NT 5.1; SV1; Avant Browser; InfoPath.1; .NET CLR 2.0.50727; .NET CLR1.1.4322)"
Referer: ""
UserAgent: "Sogou Web Sprider(compatible; Mozilla 4.0; MSIE 6.0; Windows NT 5.1; SV1; Avant Browser; InfoPath.1; .NET CLR 2.0.50727; .NET CLR1.1.4322)"

220.181.61.217 - - [11/Jan/2009:13:10:57 -0700] "GET www.youxigao.com/play/3615?id=3615 HTTP/1.1" 302 5 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
Referer: ""
UserAgent: "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

220.181.19.74 - - [11/Jan/2009:06:20:37 -0700] "GET www.vidun.com/vwsoft-vwantileechs-download.html?pr=vwantileechs&vi=download HTTP/1.1" 200 27406 "-" "Sogou Orion spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
Referer: ""
UserAgent: "Sogou Orion spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

220.181.19.78 - - [11/Jan/2009:10:55:18 -0700] "GET www.vidun.com/robots.txt HTTP/1.1" 404 - "http://pic.sogou.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"
Referer: "http://pic.sogou.com/"
UserAgent: "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"

219.234.81.27 - - [11/Jan/2009:23:53:41 -0700] "GET www.vidun.com/ HTTP/1.1" 200 14271 "-" "Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98)"
Referer: ""
UserAgent: "Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98)"

2008-03-04 17:23:59 W3SVC226223753 222.33.192.54 HEAD /index.php - 80 - 220.181.19.107 Sogou+head+spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07) - 200 0 0

转：网络爬虫之网页更新的判断策略

2013-03-08T15:35:24+08:00

摘要：做搜索引擎的时候，网络爬虫（WebSpider)对于有更新的页面才会重新下载。如何判断网页是否更

新就需要采取一定的方法，本文简要的探讨了判断网页跟新的2个策略。

关键字：网页跟新，LastModified,ETag,MD5数字签名

编写搜索引擎程序的时候，我们需要判断一个网页是否已经更新。有更新的页面就得重新下载再次

建立索引，而没有更新的页面就没必要重新索引，从而节约系统资源。

1、使用HTTP协议头

通产情况下，下载网页我们使用HTTP协议，向服务器发送HEAD请求，可以得到页面的最后修改时

间LastModifed,或者标签ETag。将这两个变量和上次下载记录的值的比较就可以知道一个网页是否跟新。

这个策略对于静态网页是有效的。但是对于绝大多数动态网页如ASP，JSP来说，LastModifed就是服务器

发送Response的时间，并非网页的最后跟新时间，而Etag通常为空值。所以对于动态网页使用

LastModifed和Etag来判断是不合适的。

2、使用MD5数字签名

每次下载网页时，把服务器返回的数据流ResponseStream先放在内存缓冲区，然后对

ResponseStream生成MD5数字签名S1，下次下载同样生成签名S2,比较S2和S1，如果相同，则页面没有

跟新，否则网页就有跟新。需要说明的是用md5算法对文本刘签名的速度是极快的，M级的数据可以在毫秒

内完成。这种策略虽然也把页面数据从服务器传输到了本地机，但是省掉了页面的I/O操作，对系统性能的

提升是很有帮助的。

java去除网页中的注释

2013-01-29T12:49:10+08:00

/**去除注释
* @param 原始内容
* @return 过滤后内容
*/
public static String trimComment(String content) {
String regEx = "";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

java去除网页中的css style样式

2013-01-29T12:48:39+08:00

抓取下来的网页中有多余信息。如果储存的话浪费大量磁盘空间。预处理去掉

/**去除style
* @param 原始内容
* @return 过滤后内容
*/
public static String trimStyle(String content) {
String regEx ="<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";

Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content.toLowerCase());
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

java去除网页中的javascript

2013-01-29T12:47:49+08:00

抓取下来的网页中有多余信息。如果储存的话浪费大量磁盘空间。预处理去掉

/**去除script
* @param 原始内容
* @return 过滤后内容
*/
public static String trimScript(String content) {
String regEx = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";

Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content.toLowerCase());
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}

Nutch Crawler工作流程及文件格式详细分析

2012-09-25T14:58:24+08:00

Nutch Crawler工作流程及文件格式详细分析

Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。

一、总体介绍

1、先注入种子urls到crawldb
2、循环：

[ul][li]generate 从crawldb中生成一个url的子集用于抓取[/li][li]fetch 抓取上一小的url生成一个个segment[/li][li]parse 分析已抓取segment的内容[/li][li]update 把已抓取的数据更新到原先的crawldb[/li][/ul]

3、从已抓取的segments中分析出link地图
4、索引segment文本及inlink锚文本

二、相关的数据结构

Crawl DB

● CrawlDb 是一个包含如下结构数据的文件:
<URL, CrawlDatum>

● CrawlDatum:
<status, date, interval, failures, linkCount,...>

● Status:
      &#123db_unfetched, db_fetched, db_gone,linked,
      fetch_success, fetch_fail, fetch_gone&#125
　爬虫Crawler：
Crawler的工作流程包括了整个nutch的所有步骤－－injector,generator,fetcher,parseSegment,updateCrawleDB,Invert links, Index ,DeleteDuplicates,IndexMerger
Crawler涉及的数据文件格式和含义，和以上的各个步骤相关的文件分别被存放在物理设备上的以下几个文件夹里，crawldb,segments,indexes,linkdb,index五个文件夹里。
那么各个步骤和流程是怎么，各个文件夹里又是放着什么呢？观察Crawler类可以知道它的流程。
1、Injector injector =new Injector(conf); //Crawl.java line  104
   Usage: Injector<crawldb><url_dir>
   首先是建立起始url集，每个url都经过URLNormalizers、filter和scoreFilter三个过程并标记状态。首先经过normalizerplugin,把url进行标准化，比如basic　nomalizer的作用有把大写的url标准化为小写，把空格去除等等。然后再经过的plugin是filter，可以根据你写的正则表达式把想要的url留下来。经过两个步骤后，然后就是把这个url进行状态标记，每个url都对应着一个CrawlDatum,这个类对应着每个url在所有生命周期内的一切状态。细节上还有这个url处理的时间和初始时的分值。
　　同时，在这个步骤里，会在文件系统里生成如下文件夹crawlDB\current\part-00000，　　这个文件夹里还有.data.crc, .index.crc, data, index四个文件
● MapReduce1: 把输入的文件转换成DB格式
In:包含urls的文本文件
Map(line) →<url, CrawlDatum>;status=db_unfetched
Reduce() isidentity;
Output:临时的输出文件夹
● MapReduce2: 合并到现有的DB
Input:第一步的输出和已存在的DB文件
Map() isidentity.
Reduce:合并CrawlDatum成一个实体(entry)
Out:一个新的DB
2、Generator generator = newGenerator(conf);

      //Generates a subset of a crawl db tofetch
Usage: Generator <crawldb><segments_dir> [-force] [-topN N][-numFetchers numFetchers] [-adddays numDays] [-noFilter]
   在这个步骤里，Generator一共做了四件事情，
1、给前面injector完成的输出结果里按分值选出前topN个url,作为一个fetch的子集。
2、根据第一步的结果检查是否已经选取出一些url,CrawlDatum的实体集。
3、再次转化，此次要以url的host来分组，并以url的hash来排序。
4、根据以上的步骤的结果来更新crawldb(injector产生)。
● MapReduce1: 根据要求选取一些要抓取的url
In: Crawl DB文件
Map() → ifdate≥now, invert to <CrawlDatum,url>
   Partition以随机的hash值来分组
Reduce:
   compare() 以CrawlDatum.linkCount的降序排列
output onlytop-N most-linked entries
● MapReduce2: 为下一步抓取准备
Map() isinvert; Partition() by host, Reduce() is identity.
Out:包含<url,CrawlDatum> 要并行抓取的文件
3、Fetcher fetcher = newFetcher(conf);

//The fetcher. Most of the work is done byplugins
   Usage: Fetcher<segment> [-threads n][-noParsing]
   这个步骤里，Fetcher所做的事情主要就是抓取了，同时也完成一些其它的工作。首先，这是一个多线程的步骤，默认以10个线程去抓取。根据抓取回来后的结果状态来进行不同的标记，存储，再处理等等行为。输入是上一步骤Generator产生的segment文件夹，这个步骤里，考虑到先前已经按照ip或host来patition了，所以在此就不再把input文件进行分割了。程序继承了SequenceFileInputFormat重写了inputFormat来达到这点。这个类的各种形为都是插件来具体完成的，它只是一个骨架一样为各种插件提供一个平台。它先根据url来取出具体的protocol，得到protocolOutput，进而得到状态status及内容content。然后，根据抓取的状态status来继续再处理。再处理时，首先会将这次抓取的内容content、状态status及它的状态标记进行存储。这个存储的过程中，还会记下抓取的时间，再把segment存过metadata，同时在分析parsing前经过scoreFilter，再用parseUtil(一系列的parse插件)进行分析，分析后再经过一次score插件的处理。经过这一系列处理后，最后进行输出（url,fetcherOutput）。
之前讲到根据抓取回来的各种状态，进行再处理，这些状态一共包括12种，比如当抓取成功时，会像上刚讲的那样先存储结果，再判断是否是链接跳转，跳转的次数等等处理。

● MapReduce:抓取
In:<url,CrawlDatum>, 以host分区,以hash值排序
Map(url,CrawlDatum) → <url,FetcherOutput>
   多线程的,同步的map实现
调用已有的协议protocol插件
FetcherOutput: <CrawlDatum,Content>
Reduce isidentity
Out: 两个文件:<url,CrawlDatum>,<url,Content>
4、ParseSegment parseSegment= new ParseSegment(conf);

//Parse content in a segment
Usage: ParseSegmentsegment
对于这个步骤的逻辑比较简单，只是对抓取后上一步骤存储在segment里的content进行分析parse。同样，这个步骤的具体工作也是由插件来完成的。

MapReduce: 分析内容
In:<url, Content> 抓取来的内容
Map(url,Content) → <url, Parse>
调用分析插件parserplugins
Reduce isidentity.
Parse:<ParseText, ParseData>
Out:分割成三个文件: <url,ParseText>,<url,ParseData>和<url,CrawlDatum> 为了outlinks.

5、CrawlDb crawlDbTool = newCrawlDb(conf);

//takes the output of the fetcher and updates the crawldbaccordingly.
Usage: CrawlDb<crawldb> (-dir<segments> |<seg1><seg2> ...) [-force] [-normalize][-filter] [-noAdditions]
这个类主要是根据fetcher的输出去更新crawldb。map和reduce分别做了两方面的事情，在map里是对url的nomalizer,和filte,在reduce里是对新抓取进来的页面(CrawlDatum)和原先已经存在的进行合并。

MapReduce:合并抓取的和分析后的输出到crawldb里
In:<url,CrawlDatum>现有的db加上抓取后的和分析后的输出
Map() isidentity
Reduce()合并所有实体(entry)成一个，以抓取后的状态覆盖原先的db状态信息，统计出分析后的链接数
Out: 新的crawldb
6.LinkDb linkDbTool = newLinkDb(conf);

//Maintains an inverted link map, listing incoming links foreach url.
Usage: LinkDb<linkdb> (-dir<segmentsDir> |<seg1><seg2> ...) [-force] [-noNormalize][-noFilter]
这个类的作用是管理新转化进来的链接映射，并列出每个url的外部链接(incominglinks)。先是对每一个url取出它的outLinks，作map操作把这个url作为每个outLinks的incominglink，在reduce里把根据每个key来把一个url的所有incominglink都加到inlinks里。这样就把每个url的外部链接统计出来了。然后一步是对这些新加进来的链接进行合并。
● MapReduce: 统计每个链接的外部链接
In:<url,ParseData>, 包含所有链接的分析后的结果
Map(srcUrl,ParseData> → <destUrl,Inlinks>
为每个链出链接收集一个入链。
Inlinks:<srcUrl, anchorText>*
Reduce()加上外部入链数量
Out:<url, Inlinks>, 一个相关完整的链接地图
7.Indexer indexer = newIndexer(conf);

//Create indexes for segments
   Usage:<index><crawldb><linkdb><segment> ...
　　这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。这里的输入就比较多了，有segments下的fetch_dir,parseData和parseText，还有crawldb下的current_dir和linkdb下的current_dir。在这个类里，map也不做，在reduce时处理。当然要把这些数据体组合成一个lucene的document让它索引了。在reduce里组装好后收集时是<url,doc>，最后在输出的OutputFormat类里进行真正的索引。

● MapReduce: 生成lucene的索引文件
In: 外个文件,values 以 <Class, Object>包装
   <url, ParseData> from parse, 有title,metadata, 等等信息.
   <url, ParseText> from parse, 文本text
   <url, Inlinks> from invert,锚文本anchors
   <url, CrawlDatum> fromfetch,用于抓取
Map() isidentity
Reduce()生成Lucene Document
   调用index插件
Out:建立Lucene 索引; 最后存储到文件系统上

  8.DeleteDuplicates dedup = new DeleteDuplicates(conf);

//这个类的作用就是它的名字了。
   Usage: DeleteDuplicates<indexes> ...
　　这个类的作用就是这它的名字所写的意思－－去重。前面索引后（当然不是一次时的情况）会有重复，所以要去重。为什么呢，在一次索引时是不重复的，可是多次抓取后就会有重复了。就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准，一种是以内容的md5值为标准。
  9.IndexMerger merger= new IndexMerger(conf);
   IndexMerger [-workingdir<workingdir>] outputIndexindexesDir...
　　这个类就比较简单了，把所有的小索引合并成一个索引。在这一步没有用到map-reduce。
　　在这九大步骤中generator,fetcher,parseSegment,crawlDbTool会根据抓取的层数循环运行，当抓取的层数大于1时会运行linkInvert,index,dedup,和merge。

nutch 命令

2012-09-25T14:49:09+08:00

nutch 命令

关键字: nutch 命令
Nutch采用了一种命令的方式进行工作，其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下：

1. Crawl
Crawl是“org.apache.nutch.crawl.Crawl”的别称，它是一个完整的爬取和索引过程命令。
使用方法：
Shell代码
bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]

bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]
参数说明：
    <urlDir>：包括URL列表的文本文件，它是一个已存在的文件夹。
    [-dir <d>]：Nutch保存爬取记录的工作目录，默认情况下值为：./crawl-[date]，其中[date]为当前目期。
    [-threads <n>]：Fetcher线程数，覆盖默认配置文件中的fetcher.threads.fetch值（默认为10）。
    [-depth <i>]：Nutch爬虫迭代的深度，默认值为5。
    [-topN <num>]：限制每一次迭代中的前N条记录，默认值为 Integer.MAX_VALUE。

配置文件：
hadoop-default.xml
    hadoop-site.xml
    nutch-default.xml
    nutch-site.xml
    crawl-tool.xml

其他文件：
crawl-urlfilter.txt

2. Readdb
    Readdb命令是“org.apache.nutch.crawl.CrawlDbReader”的别称，返回或者导出Crawl数据库（crawldb）中的信息。
   使用方法：
Shell代码
bin/nutch rseaddb <crawldb> (-stats | -dump <out_dir> | -url <url>)

bin/nutch rseaddb <crawldb> (-stats | -dump <out_dir> | -url <url>)
参数说明：
<crawldb>：crawldb目录.
[-stats]:：在控制台打印所有的统计信息
[-dump <out_dir>]：导出crawldb信息到指定文件夹中的文件
[-url <url>]：打印指定URL的统计信息
实例：
Shell代码
$ bin/nutch readdb fullindex/crawldb -stats

$ bin/nutch readdb fullindex/crawldb -stats

CrawlDb statistics start: fullindex/crawldb
Statistics for CrawlDb: fullindex/crawldb
TOTAL urls:     468030
retry 0:        467361
retry 1:        622
retry 2:        32
retry 3:        15
min score:      0.0
avg score:      0.0034686408
max score:      61.401
status 1 (db_unfetched):        312748
status 2 (db_fetched): 80671
status 3 (db_gone):     69927
status 4 (db_redir_temp):       1497
status 5 (db_redir_perm):       3187
CrawlDb statistics: done
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

说明：
-stats命令是一个快速查看爬取信息的很有用的工作，其输出信息表示了：
DB_unfetched：链接到已爬取页面但还没有被爬取的页面数（原因是它们没有通过url过滤器的过滤，或者包括在了TopN之外被Nutch丢弃）
DB_gone：表示发生了404错误或者其他一些臆测的错误，这种状态阻止了对其以后的爬取工作。
DB_fetched表示已爬取和索引的页面，如果其值为0，那肯定出错了。

3. readlinkdb
它是"org.apache.nutch.crawl.LinkDbReader"的别称，导出链接库中信息或者返回其中一个URL信息。
使用方法：
Shell代码
Bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

Bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
参数说明：
<linkdb>：linkdb工作目录
[-dump <out_dir>]：导出信息到文件夹下
[-url <url>]：打印某个URL的统计信息
实例：
Shell代码
$ bin/nutch readlinkdb fullindex/linkdb -url www.ccnu.edu.cn - no link information

$ bin/nutch readlinkdb fullindex/linkdb -url www.ccnu.edu.cn - no link information
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

4. inject
它是"org.apache.nutch.crawl.Injector"的别称，注入新URL到crawldb中。
使用方法：
Shell代码
bin/nutch injector <crawldb> <urldir>

bin/nutch injector <crawldb> <urldir>
参数说明：
<crawldb>：crawldb文件夹
<urldir>：保存有URL的文件的文件夹目录
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

以下配置文件参数影响到了注入方式：
db.default.fetch.interval——按天设置爬取间隔，默认值30.0f
db.score.injected——设置URL的默认打分，默认值1.0f
urlnormalizer.class——规范化URL的类，默认值为 org.apache.nutch.net.BasicUrlNormalizer

5. generate
它是“org.apache.nutch.crawl.Generator”，从Crawldb中抓取新的Segment。
使用方法：
Shell代码
bin/nutch generator <crawldb> <segments_dir> [-topN <num>] [-numFetchers <fetchers>] [-adddays <days>]

bin/nutch generator <crawldb> <segments_dir> [-topN <num>] [-numFetchers <fetchers>] [-adddays <days>]
参数说明：
<crawldb>：crawldb目录
<segments_dir>：新建的爬取Segment目录
[-topN <num>]：选取前多少个链接，默认值为Long.MAX_VALUE
[-numFetchers <fetchers>]：抓取分区数量。 Default: Configuration key -> mapred.map.tasks -> 1
[-adddays <days>]: 添加 <days>到当前时间，配置crawling urls ，以将很快被爬取db.default.fetch.interval默认值为0。爬取结束时间在当前时间以前的。
示例：
Shell代码
bin/nutch generate /my/crawldb /my/segments -topN 100 -adddays 20

bin/nutch generate /my/crawldb /my/segments -topN 100 -adddays 20
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
generate.max.per.host – 设置单个主机最大的URL数量，默认情况下：unlimited。

6. fetch
它是“org.apache.nutch.fetcher.Fetcher”的代称，它负责一个segment的爬取。
使用方法：
Shell代码
bin/nutch fetcher <segment> [-threads <n>] [-noParsing]

bin/nutch fetcher <segment> [-threads <n>] [-noParsing]
参数说明：
<segment>：segment目录
[-threads <n>]：运行的fetcher线程数默认值为 Configuration Key -> fetcher.threads.fetch -> 10
[-noParsing]：禁用自动解析segment数据
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
Fetcher依赖于多个插件以爬取不同的协议，目前已有的协议及支撑插件如下：
http:
protocol-http
protocol-httpclient
https:
protocol-httpclient
ftp:
protocol-ftp
file:
protocol-file
当爬取网上文档的时候，不应该使用protocol-file，因为它是用于爬取本地文件的。如果你想爬取http、https，应当使用protocol-httpclient。
7. parse
它是“org.apache.nutch.parse.ParseSegment”的代称，它对一个segment运行ParseSegment。
使用方法：
Shell代码
bin/nutch parse <segment>

bin/nutch parse <segment>
参数说明：
<segment>：Segment文件夹
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
它依赖于多个插件来解析不同格式的内容，支持的格式及插件有：
内容格式插件备注
text/html parse-html 使用NekoHTML 或者TagSoup解析HTML
application/x-javascript parse-js 解析JavaScript 文档(.js).
audio/mpeg parse-mp3 解析MP3 Audio文档(.mp3).
application/vnd.ms-excel parse-msexcel 解析MSExcel文档 (.xls).
application/vnd.ms-powerpoint parse-mspowerpoint 解析MSPower!Point 文档
application/msword parse-msword 解析MSWord文档
application/rss+xml parse-rss 解析RSS文档(.rss)
application/rtf parse-rtf 解析RTF文档(.rtf)
application/pdf parse-pdf 解析PDF文档
application/x-shockwave-flash parse-swf 解析Flash 文档 (.swf)
text-plain parse-text 解析Text文档(.txt)
application/zip parse-zip 解析Zip文档(.zip)
other types parse-ext 通过基于content-type或者路径前缀的外部命令来解析文档
默认情况下只有txt、HTML、JS格式的插件可用，其他的需要在nutch-site.xml中配置使用。
8 . segread
"segread" 是"org.apache.nutch.segment.SegmentReader"的代称，它读取并导出Segment数据。
使用方法：
Shell代码
bin/nutch segread <segment>

bin/nutch segread <segment>
参数说明：
<segment>：Segment文件夹
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
在Nutch0.9后的版本中改为了readseg
9 . updatedb
它是“org.apache.nutch.crawl.CrawlDb”的代称，用fetch过程中获取的信息更新crawldb。
使用方法：
Shell代码
bin/nutch updatedb <crawldb> <segment> [-noadditions]

bin/nutch updatedb <crawldb> <segment> [-noadditions]
参数说明：
<crawldb>：crawldb目录
<segment>：已经爬取的segment目录
[-noadditions]：是否添加新的链接到crawldb中
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

10. invertlinks
它是“org.apache.nutch.crawl.LinkDb”的代称，它用从segment中获取到的信息更新linkdb。
使用方法：
Shell代码
bin/nutch invertlinks <linkdb> (-dir segmentsDir | segment1 segment2 ...)

bin/nutch invertlinks <linkdb> (-dir segmentsDir | segment1 segment2 ...)

参数说明：
<linkdb>: linkdb目录
<segment>: segment目录，可以指定至少一个的文件夹

配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
11. index
它是“org.apache.nutch.indexer.Indexer”的代称，创建一个segment的索引，利用crawldb和linkdb中的数据对索引中的页面打分。
使用方法：
Shell代码
bin/nutch index <index> <crawldb> <linkdb> <segment> ...

bin/nutch index <index> <crawldb> <linkdb> <segment> ...
参数说明：
<index>: 索引创建后的保存目录
<crawldb>: crawldb目录
<linkdb>: linkdb目录
<segment>: segment目录，可以指定多个
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

12. merge
Merge是“org.apache.nutch.indexer.IndexMerger”的代称，它合并多个segment索引。
使用方法：
bin/nutch merge [-workingdir <workingdir>] <outputIndex> <indexesDir> ...

参数说明：
[-workingdir <workingdir>]：提定工作目录
<outputIndex>：合并后的索引存储目录
<indexesDir>：包含待合并的索引目录，可以指定多个

配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
13. mergedb
它是“org.apache.nutch.crawl.CrawlDbMerger”的代称，合并多个CrawlDb，URLFilter可选择性地过滤指定内容。
可以合并多个DB到一个中。当你分别运行爬虫并希望最终合并DB时，它会相当有用。可选择地，可以运行当前URLFilter过滤数据库中的URL，以滤去不需要的URL。当只有一个DB时也很有用，它意味着你可以通过这个工作去滤掉那些DB中你不想要的URL。
只用这个工具来过滤也是可能的，在这种情况下，只指定一个crawldb。
如果同一个URL包括在多个CrawlDb中，只有最近版本的才会被保留，即由org.apache.nutch.crawl.CrawlDatum.getFetchTime()值决定的。然而，所有版本的元数据被聚合起来，新的值代替先前的值。
使用方法：
bin/nutch merge output_crawldb crawldb1 [crawldb2 crawldb3 ...] [-filter]
参数说明：
output_crawldb：CrawlDb输出文件夹
crawldb1 [crawldb2 crawldb3 ...]：一个或者多个CrawlDb(s).
-filter：采用的URLFilters
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

14. mergelinkdb
它是“org.apache.nutch.crawl.LinkDbMerger”的代称，用于合并多个linkdb，可以选择性的使用URLFilter来过滤指定内容。
当分别从多个segment群中分布式建立LinkDb而又需要合并为一个时很有用。或者，也可以指定单个LinkDb，只是用它来过滤URL。
只用这个工具来过滤也是可能的，在这种情况下，只指定一个LinkDb。
如果一个URL包含在多个LinkDb中，所有的内部链接被聚合，但是最多db.max.inlinks 指定的内链数会添加进来。如果被激活，URLFilter可以应用到所有的目标URL及其内链中。如果目标链接被禁止，所有的该目标链接的内链将和目标链接一起被移去。如果某些内链被禁止，那么只有他们会被移去，在校验上面提到的最大限制数时他们不会被计算在内。
使用方法：
bin/nutch mergelinkdb output_linkdb linkdb1 [linkdb2 linkdb3 ...] [-filter]
参数说明：
output_linkdb：输出linkdb
linkdb1 [linkdb2 linkdb3 ...]: 多于一个的输入LinkDb(s)
-filter: Actual URLFilters to be applied on urls and links in LinkDb(s).
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
15. mergesegs
它是“org.apache.nutch.segment.SegmentMerger”的代称，用于合并多个segment，可以选择性地输出到一个或者多个固定大小的segment中。
使用方法：
Shell代码
bin/nutch mergesegs output_dir (-dir segments | seg1 seg2 ...) [-filter] [-slice NNNN]

bin/nutch mergesegs output_dir (-dir segments | seg1 seg2 ...) [-filter] [-slice NNNN]

参数说明：
output_dir：结果segment的名称或者segment片的父目录
-dir segments：父目录，包括多个segment
seg1 seg2 ...：segment目录列表
-filter：通过URLFilters过滤
-slice NNNN: 创建多个输出segment，每一个中包括了NNNN个URL。

配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
16. dedup
“dedup”是“org.apache.nutch.indexer.DeleteDuplicates”的别名，它segment indexes中去掉重复的页面。
使用方法：
Shell代码
bin/nutch dedup <indexes> ...

bin/nutch dedup <indexes> ...
参数说明：
<indexes>：indexes索引文件
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
17. plugin
它是“org.apache.nutch.plugin.PluginRepository”的代称，用于从插件库中加载一个插件并执行其主方法。
使用方法：
Shell代码
bin/nutch plugin <pluginId> <className> [args ...]

bin/nutch plugin <pluginId> <className> [args ...]参数说明：
<pluginId>：期望执行的插件ID
<className>：包含主方法的类名
[args]：传入插件的参数
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

nutch java.io.UTFDataFormatException: Invalid byte 1 of 1-byte UTF-8 sequence

2012-09-25T14:48:46+08:00

nutch java.io.UTFDataFormatException: Invalid byte 1 of 1-byte UTF-8 sequence

2) 修改配置文件指定索引库.( WEB-INFclasses下的nutch-site.xml):

<?xml version="1.0"?>
　　<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

　　　<nutch-conf>
　　　<property>
　　　　<name>searcher.dir</name>
　　　　<value>G:/nutch-0.9/crawled</value>
　　　</property>
　　 </nutch-conf>

注意，当复制上述配置文件时，如果出现下列错误，是因为复制文件时带有空格或编码格式，重敲一遍即可: java.io.UTFDataFormatException: Invalid byte 1 of 1-byte UTF-8 sequence

nutch 配置

2012-09-25T14:48:30+08:00

nutch 配置

我的jdk 是1.5.x ，Tomcat是5.0.x

1 下载0.9版本的包：里面已经包含了war文件，所以不需要Ant编译了

2 安装Cygwin，这个没什么好说的（可以到网上搜到相关资料）。

3 把Nutch借压缩到D:/nutch

4 在D:/nutch下面建立一个文件 urls （没有后缀）

http://www.xxx.edu.cn/

5 在D:\nutch\conf\crawl-urlfilter.txt里面，加入

+^http://www.xxx.edu.cn/

6 环境变量加入

NUTCH_JAVA_HOME = D:/jdk1.5.0_06   (注意 / 不要写成 \    否则出现找不到路径 )

7 打开cygwin窗口，

cd D:\nutch

在D:\nutch下面执行

bin/nutch crawl urls -dir crawled -depth 3 >& crawl.log
这个命令会在当前目录下建立一个crawled的文件夹，然后对刚才的http://www.xxx.edu.cn/的网站开始检索。
层数是3层，一般最好10层。然后结果输出在crawl.log里面
8 将nutch-0.7.2.war拷贝到tomcat/webapps下面，改名nutch
9 在D:\tomcat\conf\Catalina\localhost\ 建立nutch.xml
<Context path="" debug="5" privileged="true" docBase="nutch"/>
10 启动tomcat，等war解开以后，打开
D:\tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml
修改如下
<nutch-conf><property>     <name>searcher.dir</name>     <value>D:/nutch/crawled/</value></property></nutch-conf>
11 D:\tomcat\webapps\nutch\zh\include 下面新建header.jsp，内容就是复制header.html，但是
前面加上
<%@ page    contentType="text/html; charset=UTF-8"   pageEncoding="UTF-8"%>
在D:\tomcat\webapps\nutch\search.jsp里面，找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>
顺便把下面js注释掉
function queryfocus() {
//search.query.focus();   }
12 D:\tomcat\conf\server.xml 找到以下段，并修改
     <Connector port="8080"                maxThreads="150" minSpareThreads="25" maxSpareThreads="75"                enableLookups="false" redirectPort="8443" acceptCount="100"                debug="0" connectionTimeout="20000"                 disableUploadTimeout="true"                 URIEncoding="UTF-8" useBodyEncodingForURI="true" />
好了，到此，重启tomcat，访问 http://localhost:8080/ 就可以看到搜索主页了，而且搜索支持中文
和分词，虽然分得不是很好。