读书人

题目抽取效果:baidu vs google

发布时间: 2012-07-15 20:20:06 作者: rapoo

标题抽取效果:baidu vs google

最近在做标题抽取的工作。基于相似度的效果较之前改进了一点点,90.6%提高到91.56%。
测试了一下百度和google关于北大信息科学技术学院的”非标准网页“的标题抽取效果,发现google的比百度的强,至于我的方法因为没有抓取北大的 网页没法测;郑大的则由于google抓郑大的数据很少,也没法比较,不过可以和百度大学搜索比较,方法效果比百度的强:),直接看截图吧。

图中可以发现,google的效果比baidu的好很多,虽然也有部分错误。方法肯定是用机器学习训练出来的。

百度大学搜索:北大内 搜索“信息技术学院”


google搜索:北大信息科学技术学院内搜索“信息技术学院”


百度大学搜索:郑州大学内搜“信息工程学院”

p.s.? 附件中图片效果。
题目抽取效果:baidu  vs  google
?
题目抽取效果:baidu  vs  google
?
题目抽取效果:baidu  vs  google

?

天网搜索:信息技术学院

?


题目抽取效果:baidu  vs  google

?

眉湖通搜索:信息工程学院。


题目抽取效果:baidu  vs  google

1 楼 yycao 2010-07-17 最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网页中标题的标签特征,如位置,字体大小,标签名等来判别,但效果不是很理想,楼主能分享下心得,交流下提取方法嘛。 2 楼 shimo 2010-07-18 yycao 写道最近也在做关于网页主题(标题)的提取工作,大体上通过统计大量网页中标题的标签特征,如位置,字体大小,标签名等来判别,但效果不是很理想,楼主能分享下心得,交流下提取方法嘛。

我不是利用统计各个“单位文本”的属性特征(字体大小,颜色、位置etc.)来判别的。而是利用文本之间的相似度来算的,然后找出权值较大的,通过一些规则取其中一条。

读书人网 >网络基础

热点推荐