GeneralCrawler:聚焦爬虫通用框架-源码

上传者: 42127835 | 上传时间: 2021-06-08 18:04:56 | 文件大小: 11.95MB | 文件类型: ZIP
GeneralCrawler 聚焦爬虫通用框架 ###项目描述: 本项目旨在通过使用JAVA语言实现一个基于目标网页特征(网页内容特征和URL正则特征)和广度优先搜索策略的多线程聚焦爬虫程序框架。通过使用此框架可以简单、高效地完成具备个性化需求的爬虫程序的开发定制。 ###项目特性: 1)HttpClient模拟浏览器发送请求(目前只支持get请求) 2)集成Jsoup解析器,用于HTML页面解析 3)使用Redis对URL快速去重 4)使用slf4j作为日志门面 ###项目功能: 1)支持个性化性质 2)支持定时任务增量爬取数据 3)支持使用cookie模拟登录 4)支持设置代理列表并随机切换 5)集成SpringJDBC和JDBC,支持数据持久化 6)集成ICTCLAS,支持关键词提取

文件下载

资源详情

[{"title":"( 134 个子文件 11.95MB ) GeneralCrawler:聚焦爬虫通用框架-源码","children":[{"title":"版本描述.txt <span style='color:#111;'> 1.01KB </span>","children":null,"spread":false},{"title":"CnblogsCrawler.java <span style='color:#111;'> 4.57KB </span>","children":null,"spread":false},{"title":"WeiboCrawler.java <span style='color:#111;'> 1.64KB </span>","children":null,"spread":false},{"title":"GdagriAppCrawler1.java <span style='color:#111;'> 5.16KB </span>","children":null,"spread":false},{"title":"AgriculturalNewsCrawler.java <span style='color:#111;'> 3.62KB </span>","children":null,"spread":false},{"title":"......","children":null,"spread":false},{"title":"<span style='color:steelblue;'>文件过多,未全部展示</span>","children":null,"spread":false}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明