Topic: 用java语言如何能提出一个新闻页的时间、来源? |
Print this page |
1.用java语言如何能提出一个新闻页的时间、来源? | Copy to clipboard |
Posted by: fishman Posted on: 2005-04-28 14:03 想在一个html页面提取其发布时间、来源,但是其又不是一个纯html编码,如何实现?(我用的是htmlparser开源包) 例如查看页面:http://auto.163.com/05/0428/08/1IDPCB6E0008189H.html 中有: 柴油版覆盖一汽大众所有车 高尔夫出柴油版 汽车频道 http://auto.163.com 2005-04-28 08:58:37 来源: 北京娱乐信报 不良信息举报 发表评论 查看评论 在源码中,怎么分离出这里面的时间 以及 来源 ? 而内容在源码里面也有不少的< >括起来的东东,怎么滤掉? 还是另外有办法实现给出一个html就能抽出 时间、来源、内容? 谢谢 该网页源码见附件: 源码.txt (54.28k) |
2.Re:用java语言如何能提出一个新闻页的时间、来源? [Re: fishman] | Copy to clipboard |
Posted by: 铁针 Posted on: 2005-04-28 18:00 跟JAVA没关系 |
3.Re:用java语言如何能提出一个新闻页的时间、来源? [Re: fishman] | Copy to clipboard |
Posted by: leowu2000 Posted on: 2005-04-29 08:40 其实,这是一个算法问题。既然你用了htmlparser 就要看他是不是适用。 另外,它解析之后,你还是需要自己过滤处理一下的。(找一些示例看看) |
4.Re:用java语言如何能提出一个新闻页的时间、来源? [Re: leowu2000] | Copy to clipboard |
Posted by: fishman Posted on: 2005-04-29 14:33 我已经成功的把时间、来源拿下来了 现在在分析怎么把内容拿下来 内容那块比较难,有好多乱七八糟的tag,得滤掉 |
Powered by Jute Powerful Forum® Version Jute 1.5.6 Ent Copyright © 2002-2021 Cjsdn Team. All Righits Reserved. 闽ICP备05005120号-1 客服电话 18559299278 客服信箱 714923@qq.com 客服QQ 714923 |