本文共 1093 字,大约阅读时间需要 3 分钟。
是门语言就能做爬虫,早期写爬虫的时候就用最简单的脚本语言TC
,直接使用系统底层组件,速度上快,但是大部分普通爬虫可能对快没有什么概念。所以无所谓快不快,但是系统底层组件来抓数据,就需要自己用正则去解析document
。
java
中有直接给你封装了html
文档解析的包jsoup
,jsoup
使用起来也很简单。它使得你能像jquery
操作document
那样操作请求回来的html
。 2、关于http
请求可以使用hutool
工具包,hutool
你可以做简单的扩展将cookie
保存到redis
或者文件中,这样即使你对象销毁了,后面在创建还可以继续保留之前的状态,就像一个真正的浏览器。 maven 项目中引入如下依赖既可以使用这两个方便快捷的包。再也不用去写各种各样的正则了。 org.jsoup jsoup 1.13.1
cn.hutool hutool-all 5.3.2
public static void csdnCrawler(){ //请求个人主页 HttpResponse response = HttpUtil.createGet("https://blog.csdn.net/a807719447").execute(); //将请求回来的html转成文档 Document document = Jsoup.parse(response.body()); //文档的操作。。。。 Elements elements = document.getElementsByClass("article-item-box csdn-tracking-statistics"); for (Element element : elements) { System.out.println(element.children().get(0).children().get(0).text()); } }
对就是这么简单。以上脚本就能拿到我的文章列表。