求用JAVA编写一个网络爬虫的程序

发布网友 发布时间:2022-04-22 13:36

我来回答

2个回答

热心网友 时间:2022-05-16 16:10

先根据一个链接,抓取该页面;解析该页面,搜取出该页面中有用的链接,根据链接地址循环抓取就OK了;--简单爬行器原理
抓取完文件后还需要一个功能好点的文档解析器来解析出文件中的内容;--文件解析器
再根据关键字(分词器)处理这些页面,建立自己的搜索引擎;--分词器不好解决
我也正在搞这方面
呵呵

热心网友 时间:2022-05-16 16:10

//读取网页上的内容方法---------------------2010.01.25
public
String
getOneHtml(String
htmlurl)
throws
IOException
{
URL
url;
String
temp;
final
StringBuffer
sb
=
new
StringBuffer();
try
{
url
=
new
URL(htmlurl);
//
读取网页全部内容
final
BufferedReader
in
=
new
BufferedReader(new
InputStreamReader(
url.openStream(),"GBK"));
while
((temp
=
in.readLine())
!=
null)
{
sb.append(temp);
}
in.close();
}
catch
(final
MalformedURLException
me)
{
System.out.println("你输入的URL格式有问题!请仔细输入");
me.getMessage();
}
catch
(final
IOException
e)
{
e.printStackTrace();
}
return
sb.toString();
}上面这个方法是根据你传入的url爬取整个网页的内容,然后你写个正则表达式去匹配这个字符串的内容。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com