Topic: 如何滤取网页源码的内容?急问

  Print this page

1.如何滤取网页源码的内容?急问 Copy to clipboard
Posted by: fishman
Posted on: 2005-04-12 09:33

我根据url进入一网站,获得该页的源码
现在我想把这个源码中含有固定的链接打开
比如进入新浪首页,在导航栏要获得 ‘汽车’ 这项,然后打开url

关键我获取首页源码后,不知道如何去分离这些字符串
请问java中有没有好的类以及函数可用??

2.Re:如何滤取网页源码的内容?急问 [Re: fishman] Copy to clipboard
Posted by: youlq
Posted on: 2005-04-12 13:05

try this:

http://www-900.ibm.com/developerworks/cn/java/j-jtp03225.shtml
Java 理论与实践: 用 XQuery 进行屏幕搜集
XQuery 把 HTML 提取和转换变成轻松的工作
XQuery 是用来从 XML 文档中提取信息的 W3C 标准,目前包括 14 个工作草案。虽然 XQuery 主要集中于查找大型半结构化文档数据,但是令人惊讶的是 XQuery 对于一些更平凡的应用也非常有效。在本月的 Java 理论与实践 中,专栏作家 Brian Goetz 将介绍如何有效地把 XQuery 用作 HTML 的屏幕搜集引擎。请在文本附带的 讨论论坛中与作者及其他读者分享您对本文的看法。(可以选择文章顶部或底部的 讨论 来访问这个讨论论坛。)


   Powered by Jute Powerful Forum® Version Jute 1.5.6 Ent
Copyright © 2002-2021 Cjsdn Team. All Righits Reserved. 闽ICP备05005120号-1
客服电话 18559299278    客服信箱 714923@qq.com    客服QQ 714923