从2000年以来,搜索引擎越来越多的成为了人们日常生活的必需品,从Google到百度,再到后来的后起之秀 360 搜狗 Bing…… 从国外到国内都有许许多多,但实际上过多的选择会使我们的效率变得缓慢,我们该如何使用搜索引擎呢?

搜索引擎巨大的数据库

正如Google在“Google搜索是如何工作的”的页面中所展现的,搜索引擎就如一个巨大的知识库,人们输入文字进行搜索,搜索引擎做的是从巨大的知识库当中调取匹配信息。听起来非常简单对吧?但实际上并不是这样子简单的事情!

我们就用Google的例子来详细的讲给大家听!

搜索引擎如何工作的

Google搜索框

正如所说,我们搜索”宠物收养“

搜索引擎首先需要识别我们的搜索内容,一般来说搜索引擎会把它拆分成一个个关键词,在这个时候困难就出现了,如果你输入的都是没有错字的,那实际上还比较好办。但是我们大部分人多多少少都会有打错字的现象,英语会有拼写错误的现象,如果是人类就可以立刻识别,但你对面的是一台机器。我们可以看到各大厂家的解决方案。

在百度故意搜索错字

我们在百度故意搜索了一个由错字组成的词语”拼印“看到下方,百度已经纠正了我的错字,你可能认为理所当然,因为百度已经尽可能地人性化了,可是在机器的背后,是很多人类在去尽可能的思考人们可能的错字和拼写错误!人们经常说百度搜索非常臃肿,有许多的广告,我承认广告这个地方我确实不喜欢百度,但实际上人家需要盈利我就不说什么了。百度在中文搜索领域确实卓有成就,,。。。。。

把错字纠正只是第一步!

在搜索以后搜索引擎会在大的知识库当中寻找符合的信息,这时候就会有成千甚至上万的讯息,这里面有的内容是有用的,但有很多是没用的信息,我们每次执行搜索的时候,不到一秒就可以获得成千上万比较有用的结果,搜索引擎到底在着一秒钟做了什么?!是什么可以让搜索引擎在一秒内查询几亿网页呢?

Google把自己的算法的一部分已经公开,但是这只是一小部分的算法,Google不可能把自己的算法全部公开,如果公开谁还用Google啊!

在Google的这个文章中也包含我刚才的错字更换:

首先是我们查询内容的含义需要搜索引擎理解

要为您的查询返回相关结果,我们首先需要确定您要查找的信息-查询背后的意图。理解意图从根本上来说就是对语言的理解,并且是搜索的关键方面。我们建立语言模型以尝试解释应在索引中查找哪些单词字符串。

这涉及到看似简单的解释拼写错误的步骤,并扩展到尝试通过应用一些有关自然语言理解的最新研究来理解您输入的查询的类型。例如,我们的同义词系统通过确定多个单词表示同一件事来帮助Search知道您的意思。通过此功能,搜索可以将查询“如何更换灯泡”与描述如何更换灯泡的页面进行匹配。该系统花了五年多的时间开发并显着改善了30%以上的跨语言搜索结果。

除同义词外,搜索算法还会尝试了解您要查找的信息类别。它是非常具体的搜索还是广泛的查询?是否有诸如“评论”或“图片”或“营业时间”之类的词表示搜索后需要的特定信息?该查询是否用法语编写,表明您需要该语言的答案?或者,您在寻找附近的商家并需要本地信息吗?

此查询分类的一个特别重要的方面是我们对您的查询是否正在寻找新鲜内容的分析。如果您搜索热门关键字,我们的新鲜度算法会将其解释为一种信号,表明最新信息可能比旧页面更有用。这意味着,当您搜索最新的“ NFL得分”,“与明星共舞”结果或“埃克森美孚收益”时,您会看到最新信息。

搜索引擎查找相关的网页

接下来,算法会分析网页的内容,以评估网页是否包含可能与您要查找的内容相关的信息。

信息相关的最基本信号是网页包含与搜索查询相同的关键字。如果这些关键字出现在页面上,或者它们出现在文本的标题或正文中,则该信息很有可能是相关的。除了简单的关键字匹配之外,我们还使用汇总的匿名交互数据来评估搜索结果是否与查询相关。我们将这些数据转换为信号,以帮助我们的机器学习系统更好地估计相关性。

这些相关信号有助于搜索算法评估网页是否包含搜索查询的答案,而不仅仅是重复相同的问题。试想一下:当您搜索“ dogs”时,您可能不希望页面上多次出现“ dogs”字样。考虑到这一点,算法会评估页面是否包含关键字“狗”以外的其他相关内容,例如狗的图片,视频,甚至是品种列表。

重要的是要注意,尽管我们的系统确实在寻找这些可量化的信号来评估相关性,但它们并非旨在分析主观概念,例如页面内容的观点或政治倾向。

评估内容质量

除了将查询中的单词与网络上的相关文档进行匹配之外,搜索算法还旨在确定可用的最可靠资源的优先级。为此,我们的系统旨在识别信号,以帮助确定哪些页面显示了给定主题的专业知识,权威性和可信赖性。

我们寻找许多用户似乎对类似查询有价值的网站。例如,如果其他著名的网站链接到该页面(称为PageRank),则表明该信息受到了很好的信任。来自搜索质量评估过程的汇总反馈用于进一步完善我们的系统如何识别信息质量。

垃圾邮件算法在确定网页是否为低质量方面起着重要作用,并有助于“搜索”确保网站不会因欺骗性或操纵性行为而出现在搜索结果中。Google的网站站长指南概述了表征此类低质量垃圾邮件站点的技术,包括购买传递PageRank的链接或将不可见的文本潜入页面。

网络和更广泛的信息生态系统上的内容正在不断变化,我们不断衡量和评估系统的质量,以确保我们在信息相关性和权威性之间达到适当的平衡,以保持您对所看到结果的信任。

检查网页的可用性

在对结果进行排名时,Google搜索还会评估网页是否易于使用。当我们确定持续存在的用户痛点时,在其他所有条件相同的情况下,我们会开发出算法来在不可用的页面上推广更多可用的页面。

这些算法会分析表示我们所有用户是否都可以查看结果的信号,例如该网站是否在不同的浏览器中正确显示;是否针对所有设备类型和尺寸(包括台式机,平板电脑和智能手机)设计;以及页面加载时间是否适用于Internet连接速度慢的用户

由于网站所有者可以改善其网站的可用性,因此我们会尽力通知网站所有者有关我们的搜索算法的重大且可行的更改。例如,在2018年1月,我们宣布算法将在更改生效六个月之前开始考虑网站的“页面速度”。为了帮助网站所有者,我们提供了详细的指导和工具,例如PageSpeed InsightsWebpagetest.org,以便网站所有者可以查看他们需要进行哪些调整(如果有的话)以使其网站对移动设备更加友好。

您可以在此处找到有关Google向网站所有者提供的工具和提示的更多信息。

上下文和设置

诸如您的位置,过去的搜索历史记录和搜索设置之类的信息都可以帮助我们根据您当时最有用和最相关的内容来定制您的搜索结果。

我们使用您所在的国家和地区来提供与您所在地区相关的内容。例如,如果您在芝加哥并且搜索“足球”,则Google很可能会首先向您显示有关美式足球和芝加哥熊队的结果。而如果您在伦敦搜索“足球”,则Google会将有关足球和英超联赛的结果排名更高。搜索设置也是一个重要的指示符,它表明您可能会发现有用的结果,例如您设置了首选语言还是选择了SafeSearch(一种有助于过滤掉明确结果的工具)。

在某些情况下,我们还可能使用有关您最近的搜索活动的信息来个性化您的结果。例如,如果您搜索“巴塞罗那”,而最近搜索“巴塞罗那对阿森纳”,那么这可能是您需要有关足球俱乐部而不是城市的信息的重要线索。

搜索还包括一些功能,这些功能可根据您Google帐户中的活动对结果进行个性化设置。例如,如果您搜索“我附近的活动”,则Google可能会针对我们认为您感兴趣的活动类别为您量身定制一些建议。这些系统旨在满足您的兴趣,但并非旨在推断出您的种族等敏感特征,宗教或政党。

您可以在myaccount.google.com上控制使用哪种搜索活动来改善搜索体验,包括调整将哪些数据保存到您的Google帐户中。要基于您帐户中的活动禁用搜索个性化,请关闭“网络与应用活动”。

 

 

 

0
0