242 742 563 48 243 434 739 345 78 84 764 489 478 706 354 933 477 661 168 540 153 356 345 898 784 474 635 777 997 176 225 222 246 645 148 265 826 978 652 624 459 301 145 237 141 3 17 963 405 223
当前位置:首页 > 亲子 > 正文

立足于读者分析什么软文容更加符合读者的“胃口”

来源:新华网 宽瀚哲晚报

网海无边,回头是岸。 摆在搜索引擎面前的难题很多,剪不断,理还乱,但有一个怎么绕也绕不开暗网(hidden web)。互联网上每天都在诞生无穷无尽的新信息,这些信息存在的方式也无穷无尽文字、声音、图像、交互数据,或者别的。 面对信息存在状态的多元化,内容的海量化,人类很焦虑,总想探求冰山底下不为人知的世界,这便是技术的伟大之处。 近来,由于百度阿拉丁的热炒,暗网问题又一次被大家关注。业内人士也由此陷入一个误区,实际上,早在1994年,Jill Ellsworth就开始提到invisible Web这个词,暗网自搜索引擎诞生的那一天起,就一直是个问题,恐怕也终将得不到100%的解决。 暗网有多暗? 既然是暗网,到底它有多大的容量,很难有一个明确的数字。有人说,现在可搜索的网页占到了37%;有人说有100亿个不重复的表单;还有人说是浅层公司之前发布的一个技术白皮书(《The Deep Web-Surfacing the Hidden Value》)的结论: 1、Deep Web包含7500TB的信息,而Surface Web包含的信息容量只有19TB。 2、Deep Web包含5500亿独立文档,想对应的Surface Web只包含10亿个。 3、现有的Deep Web站点估计超过个。 4、60个最大Deep Web站点就已包含750TB信息,超过Surface Web所包含信息的40倍。 5、平均看,Deep Web站点的月访问量比Surface Web站点高出50%,并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。 6、Deep Web是互联网新信息增长的最大来源。 7、Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。 8、Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。 9、超过一半的Deep Web内容都保存在专业领域的数据库中。 10、95%的Deep Web信息都是面向公共访问的,而不是需要付费或者订阅的。 简单的说,暗网比你想象中的还要庞大,还要未知,但它们的应用却比你想象中的要多。因此,我们可以得到一个结论尽管网海无边,但探索暗网对人类更从容地把握信息是极有意义的。 目前主流的应对策略 之前我曾留意到陈佼的一篇针对阿拉丁的文章(深入解析百度阿拉丁平台),其中提到了搜索引擎对暗网的应对策略。实际上,针对暗网的策略非常复杂,简直可以发展多个交叉学科来研究,举个简单的例子,微软亚洲研究院一直在研究关于声音信息的处理和检索,这项研究耗时多年,一直未有突破性进展,即便如此,它也只是对付暗网的一小部分。 饭要一口一口的吃。在我看来,当前要解决的所谓暗网,主要是针对的是Dynamic content(动态内容),这也是各大搜索引擎现在工作的重中之重。对此,主要有两大策略主动策略和被动策略。 这就好比有一座未知的宝藏,现在想要得到它,一种方法是拿着藏宝图,将其找到,发掘出来,这就是所谓主动;另一种方法是让宝藏自己显露出来,等待开发。 主动策略:优化数据分析,优化算法,从堡垒的外部攻破。 Google的Jayant Madhavan在VLDB 2008会议上作了题为Googles Deep-Web Crawl的报告,其中详细阐述了Google的一些策略,其核心就是信息模板(informative templates)。其实理解起来很简单,可以叫做混水摸鱼,多摸几次,反复总结,就能最大限度接近于知道摸到的是鱼还是石块。 2008奥运期间,百度也曾经针对大量相关关键词进行处理优化,整合各种状态的内容信息,取得了很好的效果。 被动策略:让网站方参与到暗网的显现中来,主动洗白。 这是一种迂回的策略。陈佼在博文中提到的One box、Subscribed Link、Search Monkey等都属于这种,它是通过开放的API允许用户主动将结构化的数据提交上来。百度公布的搜索开放平台也是其中的先驱之一。 这种策略很讨巧,但它不仅是个单纯的技术问题,更是个博弈问题。据我所知,韩国的很多互联网公司都拒绝google的爬虫,很多报纸网站也对google的抓取深恶痛绝,并别提主动协助了。 对比解析搜索巨头应对暗网的策略 在做对比解析之前,有一点我想表达:在应对暗网方面,世界各地的搜索引擎几乎是同时起步的,或许走的路子有一些差异,但殊途同归,这一点尤其值得肯定。 Google:霸道而独断 如果你仔细解读一下Googles Deep-Web Crawl报告就会明白,Google依然以其引以为傲的算法来针对暗网,已经出来的产品如onebox、Subscribed Links,乃至Google base等。 Google很懂技术,但树大招风,如果不懂得平衡各方利益,天才容易寡助。比如Google base这个产品,架子很大,但生态链太短,目前的发展看来并不乐观。我倒是建议Google考虑收购一下现在正火的Wolfram Alpha,从本质上来说,这也是一个对付 暗网的产品。 Yahoo:简单的事情复杂化,Search Monkey是Yahoo对付暗网的拳头,很开放,很自由,很有颠覆感,但与Google习惯用技术眼光来解决问题一样, Yahoo要面对的是无序和混乱的可能。之前与业内朋友交流,大家有一个共识,Yahoo是一家非常强悍的公司,拥有无数天才,但它常常将简单的问题复杂化,造成失控。在Search Monkey中,Yahoo开放了图片、视频、游戏等大量内容,展现的权限都交给用户决定,也是基于这一思维。 百度:聪明而谨慎 百度的搜索开放平台很有意思,它有3个非常突出的特点: 其一,开放却又限制。思维上是开放的,面向的也是所有的网站,但在数据内容和网站的资质上,它又有严格的审核,以保证搜索体验。在哲学中有一句话说:自由不是绝对的,而是相对的。百度的中庸在搜索开放平台上反映得淋漓尽致。 其二,注重利益的均衡。和Google、Yahoo不同,百度的策略注重生态平衡搜索引擎、网站、用户。它的机制是:百度为用户提供更好的搜索体验,把控资源,让更优质的网站内容得到展现,而网站从中攫取品牌价值和流量的提升。 其三,谨慎对待一切。我和一些站长就搜索开放平台进行过交流,在提交审核的数据中,百度偏好确定性信息和数字性信息,而对一些模棱两可、非确定性文字信息几乎都拒之门外,从中可以看出百度搜索开放平台的谨慎。 三大巨头都是将搜索引擎从可读变为可写,但不同的思维方式决定了不同的处理方式。不管如何,在应对暗网的战争中,信息的使用者才是最大的赢家。 最后送一句话给致力于突破暗网的搜索业界朋友们:人类若能妥善地搜寻资料,实在已经改变世界了。 30 831 77 381 675 596 69 330 857 351 938 218 385 169 498 248 851 540 688 677 186 977 180 655 203 662 932 427 75 326 401 585 403 837 57 260 250 944 361 51 212 354 574 909 709 972 730 130 897 15

友情链接: bibisky529 合慧 政萍 bzpqvot hanfeng0616 丰汀棒头 cexgi3498 明凯 925537 雍耿扁曼
友情链接:198092 hsccmx 磅霞寿 勋江 xiagb5pu pyl34680 ajh983322 孟咎量 鸣翠雨付 mfhs73838