根据美国商标和专利专利管理局最新公布的资料,Google公司申请了一份名为“相似引擎”的专利,能够比较文档和网页的相似性。现今的搜索引擎都会遇到这样的问题,搜索结果经常是许多一模一样的信息,或者非常类似。通过“相似引擎”的引入,Google将能够增强搜索结果的独立性,隐藏无用的重复数据。Google在专利文档中这样写道:从搜索引擎的观点来看,为大量网站编制索引的一个问题在于,许多网站的文档是相似或者相同的。为相似文档分别索引会降低我们的效率,而列出一大堆相同的结果也会让用户感到不悦。因此,搜索引擎迫切需要能够鉴别相似或相同的文档,提高自身的工作效率。
据Google的说法,该“相似引擎”基于一种向量算法,他们需要为网页创建校验数据以及他们命名的“草图”,搜索引擎利用这些数据,经过计算区分网页上文本甚至图形的异同。“相似引擎”就是要为一个对象创建向量,然后和其他对象的向量作比较的算法。
除了搜索引擎中的应用,Google公司还在专利中描述可以把该算法运用在文章,表格,幻灯片等常规办公文件的比较上。该专利也并非业界首创,IBM,日立和Visage公司都曾经申请过类似发明的专利。在近10年间,共有过15项专利是关于此领域。作者:Skyangeles