-
Nutch 分布式爬虫。(Highly extensible, highly scalable Web crawler.)
-
Jsoup Jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.(Jsoup是一个用于处理真实HTML的Java库。 它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法)
-
[图书]开发自己的搜索引擎
-
[图书]自己动手写网络爬虫
-
[图书]Lucene Nutch搜索引擎开发
-
Heritrix 一款网络爬虫。(Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.)