Java开发网 - 如何截取网页链接的问题。（和html标签相关）

Topic: 如何截取网页链接的问题。（和html标签相关）

1.如何截取网页链接的问题。（和html标签相关）

Posted by: fishman
Posted on: 2005-04-13 23:44

如何从html代码中提取还有固定标签的链接？

例如一html源码中含有
<tr><td height=18 bgcolor=#FFFFD6 align=center>
<a href=http://news.sohu.com/class=black>新闻</a>
<a href=http://sports.sohu.com/class=black>体育</a>
<a href=http://business.sohu.com/class=black>财经</a>
<a href=http://auto.sohu.com/class=black>汽车</a>
<a href=http://house.sohu.com/class=black>房产</a>
</td></tr>

现在我想从中实现以下的东西
1、获取<a>标签
2、取得值为key（汽车）的<a>标签
3、取<a>标签中的href属性的值

我看了一下j2sdk文档中介绍htmlparser开源那块，有些思路，但是比较繁琐，也对这块不是很明白地说。本打算用这块的东西做，但听人说这么做挺麻烦的。说有httpclient也可以处理相关html按标签截取固定链接的东西，但实在对httpclient那块知道的不是很多。

我想哪位高人能够有比较好的方法能够从html中截取href，或者能够给我推荐类似的关于用java实现解析html的资料，谢谢。

2.Re:如何截取网页链接的问题。（和html标签相关） [Re: fishman]	Copy to clipboard
Posted by: why Posted on: 2005-04-14 00:45 try Regular Expression java.util.regex I would use Jakarta Regexp http://jakarta.apache.org/regexp/