Topic: 用java语言如何能提出一个新闻页的时间、来源?

  Print this page

1.用java语言如何能提出一个新闻页的时间、来源? Copy to clipboard
Posted by: fishman
Posted on: 2005-04-28 14:03

想在一个html页面提取其发布时间、来源,但是其又不是一个纯html编码,如何实现?(我用的是htmlparser开源包)

例如查看页面:http://auto.163.com/05/0428/08/1IDPCB6E0008189H.html

中有:
柴油版覆盖一汽大众所有车 高尔夫出柴油版
汽车频道 http://auto.163.com
2005-04-28 08:58:37 来源: 北京娱乐信报   不良信息举报 发表评论 查看评论

在源码中,怎么分离出这里面的时间 以及 来源 ?

而内容在源码里面也有不少的< >括起来的东东,怎么滤掉?

还是另外有办法实现给出一个html就能抽出 时间、来源、内容?

谢谢

该网页源码见附件:

源码.txt (54.28k)

2.Re:用java语言如何能提出一个新闻页的时间、来源? [Re: fishman] Copy to clipboard
Posted by: 铁针
Posted on: 2005-04-28 18:00

跟JAVA没关系

3.Re:用java语言如何能提出一个新闻页的时间、来源? [Re: fishman] Copy to clipboard
Posted by: leowu2000
Posted on: 2005-04-29 08:40

其实,这是一个算法问题。既然你用了htmlparser 就要看他是不是适用。

另外,它解析之后,你还是需要自己过滤处理一下的。(找一些示例看看)

4.Re:用java语言如何能提出一个新闻页的时间、来源? [Re: leowu2000] Copy to clipboard
Posted by: fishman
Posted on: 2005-04-29 14:33

我已经成功的把时间、来源拿下来了
现在在分析怎么把内容拿下来
内容那块比较难,有好多乱七八糟的tag,得滤掉


   Powered by Jute Powerful Forum® Version Jute 1.5.6 Ent
Copyright © 2002-2021 Cjsdn Team. All Righits Reserved. 闽ICP备05005120号-1
客服电话 18559299278    客服信箱 714923@qq.com    客服QQ 714923