博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
java五行代码爬到文章列表
阅读量:2216 次
发布时间:2019-05-07

本文共 1093 字,大约阅读时间需要 3 分钟。

是门语言就能做爬虫,早期写爬虫的时候就用最简单的脚本语言TC,直接使用系统底层组件,速度上快,但是大部分普通爬虫可能对快没有什么概念。所以无所谓快不快,但是系统底层组件来抓数据,就需要自己用正则去解析document

1、关于文档解析,java中有直接给你封装了html文档解析的包jsoupjsoup使用起来也很简单。它使得你能像jquery操作document那样操作请求回来的html
2、关于http请求可以使用hutool工具包,hutool 你可以做简单的扩展将cookie保存到redis或者文件中,这样即使你对象销毁了,后面在创建还可以继续保留之前的状态,就像一个真正的浏览器。
maven 项目中引入如下依赖既可以使用这两个方便快捷的包。再也不用去写各种各样的正则了。

org.jsoup
jsoup
1.13.1
cn.hutool
hutool-all
5.3.2
public static void csdnCrawler(){
//请求个人主页 HttpResponse response = HttpUtil.createGet("https://blog.csdn.net/a807719447").execute(); //将请求回来的html转成文档 Document document = Jsoup.parse(response.body()); //文档的操作。。。。 Elements elements = document.getElementsByClass("article-item-box csdn-tracking-statistics"); for (Element element : elements) {
System.out.println(element.children().get(0).children().get(0).text()); } }

对就是这么简单。以上脚本就能拿到我的文章列表。

你可能感兴趣的文章
TensorFlow-7-TensorBoard Embedding可视化
查看>>
轻松看懂机器学习十大常用算法
查看>>
一个框架解决几乎所有机器学习问题
查看>>
特征工程怎么做
查看>>
机器学习算法应用中常用技巧-1
查看>>
机器学习算法应用中常用技巧-2
查看>>
通过一个kaggle实例学习解决机器学习问题
查看>>
决策树的python实现
查看>>
Sklearn 快速入门
查看>>
了解 Sklearn 的数据集
查看>>
用ARIMA模型做需求预测
查看>>
推荐系统
查看>>
TensorFlow-11-策略网络
查看>>
浅谈 GBDT
查看>>
如何选择优化器 optimizer
查看>>
一文了解强化学习
查看>>
CART 分类与回归树
查看>>
seq2seq 的 keras 实现
查看>>
seq2seq 入门
查看>>
什么是 Dropout
查看>>