设为首页
加入收藏
联系我们

首页 资讯 研究 教程 培训 软件 网站 购物 人才 博客 论坛
PHP搜索引擎技术核心揭密
信息来源:不详 作者:佚名 添加时间:07-08-15 15:57:07 点击次数:

文章导读:

法: array file(string filename);
  返回值为数组,将文件全部读入数组变量中。这里的文件可以是本地的,也可以是远程的,远程文件必须指明所使用的协议。例如: result=file(http://www.Google.com/search?q=abcd&;btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=”),该语句将模拟我们在Google上查询单词“abcd”的过程,并将搜索结果以每行为元素,传回到数组变量 result中。因为这里读取的文件是远程的,所以协议名“http://”不能缺少。
  如果要让用户输入搜索字符进行任意搜索,我们可以做一个输入文本框和提交按钮,并将上文中的被搜索字符“abcd”用变量替换:
echo
; //没有参数的form,默认提交方式为get,提交到本身
echo ; //构造一个文本输入框
echo ; //构造一个提交查询按钮
echo
;
if (isset( keywords)) //提交后PHP会生成变量 kwywords,即要求下面的程序在提交后运行
{
urlencode( keywords); //对用户输入内容进行URL编码
result=file("http://www.Google.com/search?q=". keywords."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=");
//对查询语句进行变量替换,将查询结果保存在数组变量 result中
result_string=join(" ", result); //将数组$result合并成字符串,各数组元素之间用空格粘和
... //进一步处理
}
?>
  上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟Google的查询命令,保证搜索结果的正确性。
对Google的分析
  为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除Google搜索结果的台头和脚注,包括一个Google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记,替换成我们想要的格式。
  要做到这一点,我们必须仔细地分析Google搜索结果的HTML源码,找到其中的规律。不难发现,在Google的搜索结果的正文总是包含在源码的第一个
标记和倒数第二个
标记之间,并且倒数第二个
标记后紧跟table字符,而且这个组合“
  以下所有程序均依次接续在上文程序的“进一步处理”处。
  result_string = strstr( result_string, "
"); //取 result_string从第一个
开始后的字符串,以去除Google台头
position= strpos( result_string,"
table符号的位置
result_string= substr( result_string,0, position);//截取第一个
table符号之前的字符串,以去除脚注
应用与实现
  OK,现在我们已经得到有用的HTML源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用
分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开:
  语法:explode(string separator, string string);
  返回一个数组,按separator切开后的各个小字串被保存在数组中。
  于是:
result_array=explode("
", result_string); //用字串"
"把结果切开
  我们就得到一个数组 result_array,其中每个元素都是一个搜索结果条目。我们所要做的仅仅是研究每个条目及其HTML显示格式代码,然后按要求替换就行了。下面用循环来处理 result_array中的每个条目。
for( i=0; i {
... //处理每个条目
}
  对于每个条目,我们也很容易找到一些特点:每个条

9 7 3 1 2 3 4 4 8 :


关于本站 | 人才招聘 | 广告服务 | 咨询服务 | 联系我们
Copyright © 2003 - 2007 电子商务指南