Topic: 如何截取网页链接的问题。(和html标签相关)

  Print this page

1.如何截取网页链接的问题。(和html标签相关) Copy to clipboard
Posted by: fishman
Posted on: 2005-04-13 23:44

如何从html代码中提取还有固定标签的链接?

例如一html源码中含有
<tr><td height=18 bgcolor=#FFFFD6 align=center>
<a href=http://news.sohu.com/class=black>新闻</a>
<a href=http://sports.sohu.com/class=black>体育</a>
<a href=http://business.sohu.com/class=black>财经</a>
<a href=http://auto.sohu.com/class=black>汽车</a>
<a href=http://house.sohu.com/class=black>房产</a>
</td></tr>

现在我想从中实现以下的东西
1、获取<a>标签
2、取得值为key(汽车)的<a>标签
3、取<a>标签中的href属性的值

我看了一下j2sdk文档中介绍htmlparser开源那块,有些思路,但是比较繁琐,也对这块不是很明白地说。本打算用这块的东西做,但听人说这么做挺麻烦的。说有httpclient也可以处理相关html按标签截取固定链接的东西,但实在对httpclient那块知道的不是很多。

我想哪位高人能够有比较好的方法能够从html中截取href,或者能够给我推荐类似的关于用java实现解析html的资料,谢谢。

2.Re:如何截取网页链接的问题。(和html标签相关) [Re: fishman] Copy to clipboard
Posted by: why
Posted on: 2005-04-14 00:45

try Regular Expression
java.util.regex

I would use Jakarta Regexp
http://jakarta.apache.org/regexp/


   Powered by Jute Powerful Forum® Version Jute 1.5.6 Ent
Copyright © 2002-2021 Cjsdn Team. All Righits Reserved. 闽ICP备05005120号-1
客服电话 18559299278    客服信箱 714923@qq.com    客服QQ 714923