Skip to content

Latest commit

 

History

History
21 lines (13 loc) · 907 Bytes

File metadata and controls

21 lines (13 loc) · 907 Bytes

Nutch

学习指南

推荐资料

  • Nutch 分布式爬虫。(Highly extensible, highly scalable Web crawler.)

  • Jsoup Jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.(Jsoup是一个用于处理真实HTML的Java库。 它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法)

  • [图书]开发自己的搜索引擎

  • [图书]自己动手写网络爬虫

  • [图书]Lucene Nutch搜索引擎开发

  • Heritrix 一款网络爬虫。(Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.)

学习步骤

知识点

项目实战

参考文献