Topic: 如何滤取网页源码的内容?急问 |
Print this page |
1.如何滤取网页源码的内容?急问 | Copy to clipboard |
Posted by: fishman Posted on: 2005-04-12 09:33 我根据url进入一网站,获得该页的源码 现在我想把这个源码中含有固定的链接打开 比如进入新浪首页,在导航栏要获得 ‘汽车’ 这项,然后打开url 关键我获取首页源码后,不知道如何去分离这些字符串 请问java中有没有好的类以及函数可用?? |
2.Re:如何滤取网页源码的内容?急问 [Re: fishman] | Copy to clipboard |
Posted by: youlq Posted on: 2005-04-12 13:05 try this: http://www-900.ibm.com/developerworks/cn/java/j-jtp03225.shtml Java 理论与实践: 用 XQuery 进行屏幕搜集 XQuery 把 HTML 提取和转换变成轻松的工作 XQuery 是用来从 XML 文档中提取信息的 W3C 标准,目前包括 14 个工作草案。虽然 XQuery 主要集中于查找大型半结构化文档数据,但是令人惊讶的是 XQuery 对于一些更平凡的应用也非常有效。在本月的 Java 理论与实践 中,专栏作家 Brian Goetz 将介绍如何有效地把 XQuery 用作 HTML 的屏幕搜集引擎。请在文本附带的 讨论论坛中与作者及其他读者分享您对本文的看法。(可以选择文章顶部或底部的 讨论 来访问这个讨论论坛。) |
Powered by Jute Powerful Forum® Version Jute 1.5.6 Ent Copyright © 2002-2021 Cjsdn Team. All Righits Reserved. 闽ICP备05005120号-1 客服电话 18559299278 客服信箱 714923@qq.com 客服QQ 714923 |