java网络爬虫

发布网友 发布时间:2022-04-22 13:36

我来回答

3个回答

热心网友 时间:2022-05-13 02:54

源代码如下
package com.cellstrain.icell.util;

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
* java实现爬虫
*/
public class Robot {
public static void main(String[] args) {
URL url = null;
URLConnection urlconn = null;
BufferedReader br = null;
PrintWriter pw = null;
// String regex = "http://[\\w+\\.?/?]+\\.[A-Za-z]+";
String regex = "https://[\\w+\\.?/?]+\\.[A-Za-z]+";//url匹配规则
Pattern p = Pattern.compile(regex);
try {
url = new URL("网址");//爬取的网址、这里爬取的是一个生物网站
urlconn = url.openConnection();
pw = new PrintWriter(new FileWriter("D:/SiteURL.txt"), true);//将爬取到的链接放到D盘的SiteURL文件中
br = new BufferedReader(new InputStreamReader(
urlconn.getInputStream()));
String buf = null;
while ((buf = br.readLine()) != null) {
Matcher buf_m = p.matcher(buf);
while (buf_m.find()) {
pw.println(buf_m.group());
}
}
System.out.println("爬取成功^_^");
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
br.close();
} catch (IOException e) {
e.printStackTrace();
}
pw.close();
}
}
}

热心网友 时间:2022-05-13 04:12

1,网络机器人Java编程指南,浅显易懂,有点过时,但适合新手
2,自己动手写网络爬虫,有点基础还可以看看,写的有点乱,很多内容交代不清楚,并且大篇幅代码抄袭。。。
3,搜索引擎 ——原理、技术与系统,北大天网为案例,很好很强大,有点学术味道
4,Web数据挖掘 Bing Liu,刘兵的书,强烈推荐
5,搜索引擎:信息检索实践,很好的书,强烈推荐
还有一些论文,自己去找吧
案例的话,可以研究下Nutch爬虫部分代码,写的很清晰
有了以上这些,应该算是入门了~追问我现在根据《自己动手写网络爬虫》上面的代码写了一下,不过有bug只能爬取首页,您能有空帮我改下吗?QQ:5411767

热心网友 时间:2022-05-13 05:47

java写的爬虫有weblech,非常简单,适合初学者,下来看看吧追问爬取下来的效果不是很理想而且是封装好的,不好改。。谢谢啦!

热心网友 时间:2022-05-13 02:54

源代码如下
package com.cellstrain.icell.util;

import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
* java实现爬虫
*/
public class Robot {
public static void main(String[] args) {
URL url = null;
URLConnection urlconn = null;
BufferedReader br = null;
PrintWriter pw = null;
// String regex = "http://[\\w+\\.?/?]+\\.[A-Za-z]+";
String regex = "https://[\\w+\\.?/?]+\\.[A-Za-z]+";//url匹配规则
Pattern p = Pattern.compile(regex);
try {
url = new URL("网址");//爬取的网址、这里爬取的是一个生物网站
urlconn = url.openConnection();
pw = new PrintWriter(new FileWriter("D:/SiteURL.txt"), true);//将爬取到的链接放到D盘的SiteURL文件中
br = new BufferedReader(new InputStreamReader(
urlconn.getInputStream()));
String buf = null;
while ((buf = br.readLine()) != null) {
Matcher buf_m = p.matcher(buf);
while (buf_m.find()) {
pw.println(buf_m.group());
}
}
System.out.println("爬取成功^_^");
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
br.close();
} catch (IOException e) {
e.printStackTrace();
}
pw.close();
}
}
}

热心网友 时间:2022-05-13 04:12

1,网络机器人Java编程指南,浅显易懂,有点过时,但适合新手
2,自己动手写网络爬虫,有点基础还可以看看,写的有点乱,很多内容交代不清楚,并且大篇幅代码抄袭。。。
3,搜索引擎 ——原理、技术与系统,北大天网为案例,很好很强大,有点学术味道
4,Web数据挖掘 Bing Liu,刘兵的书,强烈推荐
5,搜索引擎:信息检索实践,很好的书,强烈推荐
还有一些论文,自己去找吧
案例的话,可以研究下Nutch爬虫部分代码,写的很清晰
有了以上这些,应该算是入门了~追问我现在根据《自己动手写网络爬虫》上面的代码写了一下,不过有bug只能爬取首页,您能有空帮我改下吗?QQ:5411767

热心网友 时间:2022-05-13 05:47

java写的爬虫有weblech,非常简单,适合初学者,下来看看吧追问爬取下来的效果不是很理想而且是封装好的,不好改。。谢谢啦!

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com