开源
bbs
源码
java
playfish
Automatically
exported
from
code.google.com/p/playfish
playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具。
应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在war包的lib下。
这个项目目前还很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正则表达式。目前通过这个工具可以抓取各类论坛,贴吧,以及各类CMS系统。像Discuz!,phpbb,还有javaeye的论坛跟博客的文章,通过本工具都可以轻松抓取。抓取定义完全采用XML,适合Java开发人员使用。本人并非高手,欢迎广大群众提出各类意见与建议。
使用方法:
1.下载右边的.war包导入到eclipse中。
2.使用WebContent/sql下的wcc.sql文件建立一个范例数据库。
3.修改src包下wcc.core的dbConfig.txt,将用户名与
2021-06-07 16:04:06
1.44MB
系统开源
1