Topic: 用JAVA抓取网页源文件

  Print this page

1.用JAVA抓取网页源文件 Copy to clipboard
Posted by: zjrongbb
Posted on: 2005-11-22 00:21

各位,我想用Java抓取网页源文件,做成Java应用程序。大家有好的工具建议嘛?
我现在用httpunit,遇到的问题是,有的网页,在A页面定义好html,然后在B页面用JavaScript从数据库读取数据填充A页面的html,所以我进去A页面提取数据的时候,就只看到A页面预先定义的html,而看不到其他数据库读取出来的数据。
大家有好的建议嘛?或者有其他技术介绍,可以读取到网页的所有数据嘛?

2.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: 迸泉
Posted on: 2005-11-25 20:04

你说的A页和B页信息是什么意思,前不久我也做了个简单的爬网的Java应用程序,我参考的是Jeff Heaton他写的一些爬网的东西,你去他的网站查查资料,需要用代理的,代理地址:63.70.62.69

3.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: ranchgirl
Posted on: 2005-11-26 03:11

http://www.jeffheaton.com/

4.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: hcom
Posted on: 2005-12-05 10:45

用java.net.url试试看

5.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: cjyzpcl
Posted on: 2005-12-31 15:51

URLConnection

6.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: chengbd
Posted on: 2006-01-11 04:06

A页面是不是需要向B页面动态提供参数?

如果没有参数,可能就取不回数据了吧。

7.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: zhangp_happy
Posted on: 2006-01-15 20:30

做了个获取单个网页的小程序
把网页地址写入in.txt中

net.rar (0.78k)

8.Re:用JAVA抓取网页源文件 [Re: zjrongbb] Copy to clipboard
Posted by: athlon
Posted on: 2006-01-17 13:25

可以试一下htmlparser来进行页面解析,很方便的.
地址:http://htmlparser.sourceforge.net/


   Powered by Jute Powerful Forum® Version Jute 1.5.6 Ent
Copyright © 2002-2021 Cjsdn Team. All Righits Reserved. 闽ICP备05005120号-1
客服电话 18559299278    客服信箱 714923@qq.com    客服QQ 714923