View on GitHub

Httpclientdemo

利用htmlparse实现的一个简单的网页链接爬取工具

Download this project as a .zip file Download this project as a tar.gz file

Welcome to kyrin's httpclientDemo!

这仅仅是一个简单的网页链接爬取分析工具,利用htmlparse和httpclient实现.这是个"先头"项目,也就是在以后的项目做铺垫的一个demo!

这个demo可以对一个网站进行链接爬取分析,用list实现了深度优先的遍历原则,对链接的提取主要归功于htmlparse! 这个项目中拿lagou.com作测试,实现了对拉钩网的所有公司的爬取,计算出公司的数目位20000左右,这也和百度百科上的介绍一致!

其他

更多项目查看(zeq9069)kyrin' github !