Spider

由于学校网络中心出问题了,第一个项目原来的域名暂时访问不了,然后新开了一个URL:https://jinshuai86.github.io/EtrizDoc

HitCount

Spider是一个基于Java的简易多线程爬虫框架,并且提供了默认组件。用户也可以根据需要实现自己的组件

流程图

使用

开发环境

使用

项目结构

├── logs                                          // 系统日志
├── spider-consumer                               // 消费模块(消费4XX 3XX状态码对应URL)
├── spider-core                                   // 爬虫模块
│   ├── src                                       // 源码
│   ├── |——main
│   ├── ├──|——java/com/jinshuai                          
│   ├── ├──├──|——core                             // 核心组件
│   ├── ├──├──|————downloader                     // 下载器
│   ├── ├──├──|————parser                         // 解析器
│   ├── ├──├──|————saver                          // 持久器
│   ├── ├──├──|————scheduler                      // URL调度器
│   ├── ├──├──|——entity                           // 实体
│   ├── ├──├──|——util                             // 工具
│   ├── ├──|——resources                           // 资源目录
│   ├── ├──|——|——application.properties           // 配置文件

进度

Finished

TODO

参考