您现在的位置是: 堆糖网 > 杂谈 > 搜索引擎技术-搜索引擎三大技术

搜索引擎技术-搜索引擎三大技术

2020-08-07 06:25作者:堆糖网 234人阅读

简介一、搜索引擎技术 搜索引擎技术是原始网络技术,也是互联网三大基础核心技术之一 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念

一、搜索引擎技术

搜索引擎技术是原始网络技术,也是互联网三大基础核心技术之一

全文搜索引擎

在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户

■目录索引

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象这样的超级索引,登录更是困难。(由于登录的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录雅虎的技巧)。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如就借用目录提供分类查询。而象这些老牌目录索引则通过与等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如

一搜索引擎技术

以上数据内容来源于:百度搜索引擎技术搜狗搜索引擎技术360搜索引擎技术

二、搜索引擎的两大核心技术

搜索引擎技术是原始网络技术,也是互联网三大基础核心技术之一

识别心技术和索引技术

美国

谈到网页搜索引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。年8月,雅虎采用了这家由斯坦福大学学生创建的风险公司的技术。理由非常简单,的搜索引擎比雅虎先前使用的技术能更快、更准确搜索到所需要的信息。

让我们自己来设计、开发一个强劲、高效的搜索引擎和数据库恐怕短时间内在技术、资金等方面是不可能的,不过,既然雅虎都在使用别人的技术,那么我们是不是也可以使用别人现成的搜索引擎网站呢?

剖析编程思路

我们可以这样设想:模拟一个查询,向某个搜索引擎网站发出相应格式的搜索命令,然后传回搜索结果,对结果的代码进行分析,剥离多余的字符和代码,最后按所需要的格式显示在我们自己的网站页面里。

这样,问题的关键就在于,我们要选定一个搜索信息准确(这样我们的搜索才会更有意义啊)、速度快(因为我们分析搜索结果并显示需要额外的时间),搜索结果简洁(便于进行源代码分析和剥离)的搜索网站,由于新一代搜索引擎的各种优良特性,这里我们选择它为例,来看看用PHP怎样实现后台对搜索、前台个性化显示这一过程。

我们先来看看的查询命令的构成。进入网站,在查询栏中输入,点击查询按钮,我们可以发现浏览器的地址栏变成:"1CBF",可见,是通过表单的get方式来传递查询参数并递交查询命令的。我们可以使用PHP中的函数来模拟这个查询过程。

了解函数

语法

返回值为数组,将文件全部读入数组变量中。这里的文件可以是本地的,也可以是远程的,远程文件必须指明所使用的协议。例如:,该语句将模拟我们在上查询单词的过程,并将搜索结果以每行为元素,传回到数组变量中。因为这里读取的文件是远程的,所以协议名不能缺少。

如果要让用户输入搜索字符进行任意搜索,我们可以做一个输入文本框和提交按钮,并将上文中的被搜索字符用变量替换:

没有参数的,默认提交方式为get,提交到本身

gt构造一个文本输入框

"查询"gt构造一个提交查询按钮

提交后PHP会生成变量即要求下面的程序在提交后运行

对用户输入内容进行URL编码

"1CBF"

对查询语句进行变量替换将查询结果保存在数组变量中

将数组合并成字符串,各数组元素之间用空格粘和

进一步处理

gt

上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量。请注意要使用函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟的查询命令,保证搜索结果的正确性。

对的分析

为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除搜索结果的台头和脚注,包括一个的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的格式标记,替换成我们想要的格式。

要做到这一点,我们必须仔细地分析搜索结果的源码,找到其中的规律。不难发现,在的搜索结果的正文总是包含在源码的第一个标记和倒数第二个标记之间,并且倒数第二个标记后紧跟字符,而且这个组合在源码中也仅有一次,利用这个特点,我们可以这样去除的台头和脚注。

以下所有程序均依次接续在上文程序的“进一步处理”处。

取从第一个开始后的字符串,以去除台头

"符号的位置

截取第一个符号之前的字符串以去除脚注

应用与实现

OK,现在我们已经得到有用的源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用

分隔,也就是各成一个段落,按这个特点我们用函数把每个条目切开:

语法:

返回一个数组,按切开后的各个小字串被保存在数组中。

于是:

用字串把结果切开

我们就得到一个数组,其中每个元素都是一个搜索结果条目。我们所要做的仅仅是研究每个条目及其显示格式代码,然后按要求替换就行了。下面用循环来处理中的每个条目。

0i

处理每个条目

对于每个条目,我们也很容易找到一些特点:每个条目都由标题、摘要、简介、类别、网址等组成,每个部分都换行,即包含标记,于是再次分割:(以下处理程序放在上文的循环中)

这样我们得到一个数组,其中0就是标题,1和2两行为摘要,3和4等等的头部如果包含“6f6f6fgt简介”、“6f6f6fgt类别”字符,则是简介或类别(因为有的结果条目没有该项),如果头部包含则肯定就是网址啦,这种对比判断我们常使用正则表达式(略),如果要替换也很方便,比如包含标题的0,其本身是有链接的,我们希望修改这个链接属性,让它在新窗口打开链接:

处理每个条目中除去第一项(第一项为标题,已经显示)的每一项

更多格式修改

这样就修改了链接属性,其余很多显示格式的修改、剥离、替换都能用正则替换来完成。

至此我们已经得到了每个搜索条目的每一项,并能任意修改每项的格式,甚至可以给他套上漂亮的表格。然而一个好的程序应该能适应各种运行环境的,这里也不例外,我们其实还只是讨论了搜索结果的剥离的一种框架方法,真正要做得完美,还要考虑很多内容,比如要显示一共搜索出多少结果,分成多少页等等,甚至还可以刨除与相关的那些“类别”、“简介”等代码,让客户根本看不到原始网站。不过这些内容和要求我们都能通过分析进行剥离得到。现在大家完全能自己动手,做个极富个性化的搜索引擎啦。 

二搜索引擎的两大核心技术

以上数据内容来源于:百度搜索引擎的两大核心技术搜狗搜索引擎的两大核心技术360搜索引擎的两大核心技术

三、搜索引擎三大技术

三大搜索引擎特性对比分析

度:在中文搜索领域做的还不错,收录的中文网页比谷歌稍多。低学历,非IT专业人士使用较多。

谷歌:技术含金量最高的搜索引擎。全球性的搜索引擎,市场占有全球第一。但其中文搜索退出大陆搬到香港后,大陆使用不太稳定。目前大陆的使用者主要是高学历、高收入、高消费的岁的人士。IT届人士使用较多。需要搜索外文的也都用谷歌。

雅虎:相对于前者,雅虎的搜索技术已落后了,但其提供的内容非常丰富,类似门户网站。

五更分两年年年称心一夜连两岁岁岁如意恭贺新春

三搜索引擎三大技术

以上数据内容来源于:百度搜索引擎三大技术搜狗搜索引擎三大技术360搜索引擎三大技术
更多关于搜索引擎技术
更多相关:百度搜索引擎技术搜狗搜索引擎技术360搜索引擎技术

Tags:pr域名

堆糖随机推荐

堆糖探索

网名:堆糖

职业:部落开发工程师

现居:互联网堆糖部落

站点探索