fishman
发贴: 16
积分: 0
|
于 2005-04-13 23:44
如何从html代码中提取还有固定标签的链接?
例如一html源码中含有 <tr><td height=18 bgcolor=#FFFFD6 align=center> <a href=http://news.sohu.com/class=black>新闻</a> <a href=http://sports.sohu.com/class=black>体育</a> <a href=http://business.sohu.com/class=black>财经</a> <a href=http://auto.sohu.com/class=black>汽车</a> <a href=http://house.sohu.com/class=black>房产</a> </td></tr>
现在我想从中实现以下的东西 1、获取<a>标签 2、取得值为key(汽车)的<a>标签 3、取<a>标签中的href属性的值
我看了一下j2sdk文档中介绍htmlparser开源那块,有些思路,但是比较繁琐,也对这块不是很明白地说。本打算用这块的东西做,但听人说这么做挺麻烦的。说有httpclient也可以处理相关html按标签截取固定链接的东西,但实在对httpclient那块知道的不是很多。
我想哪位高人能够有比较好的方法能够从html中截取href,或者能够给我推荐类似的关于用java实现解析html的资料,谢谢。
|