java网络爬虫

发布网友发布时间：2022-04-22 13:36

共3个回答

热心网友时间：2022-05-13 02:54

源代码如下
package com.cellstrain.icell.util;

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
* java实现爬虫
*/
public class Robot {
public static void main(String[] args) {
URL url = null;
URLConnection urlconn = null;
BufferedReader br = null;
PrintWriter pw = null;
// String regex = "http://[\\w+\\.?/?]+\\.[A-Za-z]+";
String regex = "https://[\\w+\\.?/?]+\\.[A-Za-z]+";//url匹配规则
Pattern p = Pattern.compile(regex);
try {
url = new URL("网址");//爬取的网址、这里爬取的是一个生物网站
urlconn = url.openConnection();
pw = new PrintWriter(new FileWriter("D:/SiteURL.txt"), true);//将爬取到的链接放到D盘的SiteURL文件中
br = new BufferedReader(new InputStreamReader(
urlconn.getInputStream()));
String buf = null;
while ((buf = br.readLine()) != null) {
Matcher buf_m = p.matcher(buf);
while (buf_m.find()) {
pw.println(buf_m.group());
}
}
System.out.println("爬取成功^_^");
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
br.close();
} catch (IOException e) {
e.printStackTrace();
}
pw.close();
}
}
}

热心网友时间：2022-05-13 04:12

1，网络机器人Java编程指南，浅显易懂，有点过时，但适合新手
2，自己动手写网络爬虫，有点基础还可以看看，写的有点乱，很多内容交代不清楚，并且大篇幅代码抄袭。。。
3，搜索引擎 ——原理、技术与系统，北大天网为案例，很好很强大，有点学术味道
4，Web数据挖掘 Bing Liu，刘兵的书，强烈推荐
5，搜索引擎：信息检索实践，很好的书，强烈推荐
还有一些论文，自己去找吧
案例的话，可以研究下Nutch爬虫部分代码，写的很清晰
有了以上这些，应该算是入门了~追问我现在根据《自己动手写网络爬虫》上面的代码写了一下，不过有bug只能爬取首页，您能有空帮我改下吗？QQ：5411767

热心网友时间：2022-05-13 05:47

java写的爬虫有weblech，非常简单，适合初学者，下来看看吧追问爬取下来的效果不是很理想而且是封装好的，不好改。。谢谢啦！

热心网友时间：2022-05-13 02:54

热心网友时间：2022-05-13 04:12

热心网友时间：2022-05-13 05:47

java写的爬虫有weblech，非常简单，适合初学者，下来看看吧追问爬取下来的效果不是很理想而且是封装好的，不好改。。谢谢啦！

全部栏目

java网络爬虫