java五行代码爬到文章列表-白红宇

java五行代码爬到文章列表

阅读量：2216 次

发布时间：2019-05-07

本文共 1093 字，大约阅读时间需要 3 分钟。

是门语言就能做爬虫，早期写爬虫的时候就用最简单的脚本语言TC，直接使用系统底层组件，速度上快，但是大部分普通爬虫可能对快没有什么概念。所以无所谓快不快，但是系统底层组件来抓数据，就需要自己用正则去解析document。

1、关于文档解析，java中有直接给你封装了html文档解析的包jsoup，jsoup使用起来也很简单。它使得你能像jquery操作document那样操作请求回来的html。

2、关于http请求可以使用hutool工具包，hutool 你可以做简单的扩展将cookie保存到redis或者文件中，这样即使你对象销毁了，后面在创建还可以继续保留之前的状态，就像一个真正的浏览器。

maven 项目中引入如下依赖既可以使用这两个方便快捷的包。再也不用去写各种各样的正则了。

public static void csdnCrawler(){
           //请求个人主页        HttpResponse response = HttpUtil.createGet("https://blog.csdn.net/a807719447").execute();        //将请求回来的html转成文档        Document document = Jsoup.parse(response.body());        //文档的操作。。。。        Elements elements = document.getElementsByClass("article-item-box csdn-tracking-statistics");        for (Element element : elements) {
               System.out.println(element.children().get(0).children().get(0).text());        }    }

对就是这么简单。以上脚本就能拿到我的文章列表。

你可能感兴趣的文章