在windows下需要使用cygwin 模拟linux环境
下载地址 : www.cygwin.com
下载之后安装
一路默认 下一步(切记不要断开网络这个安装包只是一个下载器,安装需要联网)
选择一个地址,继续下一步,我这里选择的是163的地址
继续默认下一步,会自动下载需要的文件
安装完成
双击快捷图标,会出现
输入命令试试吧
下面开始nutch之旅吧
nutch下载地址如下:
http://nutch.apache.org
解压nutch包之后会发现有如下内容
我们需要修改conf中的文件1. 编辑conf/crawl-urlfilter.txt
修改MY.DOMAIN.NAME为
+^http://([a-z0-9]*.)*.*/
2.修改conf/nutch-site.xml
增加http.agent.name值
<property> <name>urlfilter.regex.file</name> <value>crawl-urlfilter.txt</value> <description>Name of file on CLASSPATH containing regular expressions used by urlfilter-regex (RegexURLFilter) plugin.</description> </property>
指定过滤文件未crawl-urlfilter.txt
3.编写url.txt文件
在nutch的根目录,编写url.txt 比如我要抓取sina.com.cn
http://www.sina.com.cn/ http://www.sina.com.cn
4.安装tomcat
下载tomat,将nutch目录下的nutch.war包放入tomcat的webapps文件夹下,启动tomcat,然后在地址栏输入
http://localhost:8080/nutch
然后输入要搜索的内容,点击search测试一下吧
注意事项
1. 在 nutch-1.2 目录下建url.txt
里面输入:
http://www.sina.com.cn/ http://www.sina.com.cn
必须输入两行,否则会出错(这个问题,楼主也找了很久没找到解决方法)
2. 使用cygwin,进入nutch-1.2目录
cd /cygdrive/c/nutch-1.2
设置编码集,否则在采集的时候会报错
export LANG="zh_CN.GBK"
这是因为windows编码集合linux不一致导致
输入以下命令 即可执行
bin/nutch crawl url.txt -dir sina -depth 4 -threads 5 -topN 1000 >&sina.log
-dir 后面跟文件名 我这里是放在sina目录下
-depth 后面是深度 4 是指采集深度为4层
-threads 后面跟的是线程数 5 是指最大线程数为5
-topN 后面跟数量 1000 是最大采集1000
最后面的就不解释了,是将日志输出到sina.log 中,可以通过这个文件看,是否执行完成
ps:
在网上找到相关的nutch视频教程,提供下载地址(同时在此感谢此视频的作者 杨尚川老师 )
http://pan.baidu.com/share/home?uk=3157595467
由于此视频是在土豆网上下载的,找的是720P的源,视频还是很清晰的
在此也贴出源地址吧
nutch平台搭建 http://www.tudou.com/programs/view/4aEaYZsdq0k/ nutch相关框架视频教程 http://www.tudou.com/programs/view/9V6Al3dHEpo/
其他的链接(摘自杨尚川老师的博客)
http://115.com/lb/5lbqfm5w (需要115账号) 360云盘 http://yunpan.cn/QE6Ju2N3V8wQJ 金山快盘 http://www.kuaipan.cn/file/id_132146595985621011.htm 土豆在线播放 http://www.tudou.com/home/yangshangchuan 优酷在线播放 http://i.youku.com/yangshangchuan 杨尚川老师的博客地址: http://yangshangchuan.iteye.com/blog/1837935
相关推荐
Nutch入门教程PDF下载,apache项目
Nutch入门教程 高清 带书签
nutch入门教程,nutch入门安装流程
nutch使用&Nutch;入门教程 pdf
Nutch入门教程,对搜索引擎有兴趣的同学,可以好好学习下,
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当...7、 nutch入门重点在于分析nutch脚本文件
教程名称:Nutch相关框架视频教程(20集)课程目录:【】Nutch相关框架视频教程01【】Nutch相关框架视频教程02【】Nutch相关框架视频教程03【】Nutch相关框架视频教程04【】Nutch相关框架视频教程05【】Nutch相关...
nutch入门学习不错的一本书,有代码,有截图,解释清晰详细。更有助与于了解搜索引擎。
Nutch开发入门 Nutch安装和使用 Nutch二次开发 很不错
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...
Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch文件系统工作架构...43 8. nutch应用.45 8.1 修改源码.....45...
nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling