首页 > ITPUX技术网 > Coreseek(Sphinx)简单应用及在LAMP中的注意事项

Coreseek(Sphinx)简单应用及在LAMP中的注意事项

教程发布：风哥教程分类：ITPUX技术网更新日期：2022-02-12 浏览学习：500

Coreseek(Sphinx)简单应用及在LAMP中的注意事项

一、coreseek+mysql+php 的一个简单使用：模拟搜索引擎
1、创建搜索首页：index.php

测试搜索

简单PHP搜索引擎

效果：

2、处理并显示搜索结果页面：find.php

Result

搜索结果展示www.linuxidc.com

SetServer("localhost",9312);

//搜索匹配方案
$sphinx->SetMatchMode(SPH_MATCH_ANY);

//query('a','b');在b索引中搜索关键字a，*表示所有索引
$result = $sphinx -> query("$keyword","*");
$ids = join(',',array_keys($result['matches']));
$mysql = new mysqli('localhost','root','zhongjin','test');
$mysql->query("SET NAMES utf8");
$sql = "SELECT * FROM documents WHERE id IN({$ids})";
$res = $mysql->query($sql);
$count = $res->num_rows;

//该数组设置搜索关键字的显式样式
/*
$opts = array(
'before_match' => "",
'after_match' => "",
);
*/
$opts = array(
'before_match' => "",
);

if($count > 0){
while($ret = $res->fetch_assoc()){

//使搜索关键字高亮显示
$row = $sphinx -> buildExcerpts($ret,'main',$keyword,$opts);
echo "标题：{$row[4]}
";
echo "内容：{$row[5]}";
echo "

";
}
echo "搜索结果{$count}条。";

}else{

echo "无搜索结果！";
}
?>

当搜索 "LSGO实验室"时，效果如下：

这就是sphinx+MySQL+php的一个简单应用，以及使搜索关键字高亮显示。

二、sphinx的实时索引
1、为什么要实现sphinx实时索引？
看看 coreseek 增量索引模拟实时索引 http://www.linuxidc.com/Linux/2017-05/143601.htm，在这里就引用该篇文章的内容：
有这么一种常见的情况：整个数据集非常大，以至于难于经常性的重建索引，但是每次新增的记录却相当地少。一个典型的例子是：一个论坛有1000000个已经归档的帖子，但每天只有1000个新帖子。
在这种情况下可以用所谓的“主索引＋增量索引”（main+delta）模式来实现“近实时”的索引更新。
这种方法的基本思路是设置两个数据源和两个索引，对很少更新或根本不更新的数据建立主索引，而对新增文档建立增量索引。在上述例子中，那1000000个已经归档的帖子放在主索引中，而每天新增的1000个帖子则放在增量索引中。增量索引更新的频率可以非常快，而文档可以在出现几分种内就可以被检索到。
确定具体某一文档的分属那个索引的分类工作可以自动完成。一个可选的方案是，建立一个计数表，记录将文档集分成两部分的那个文档ID，而每次重新构建主索引时，这个表都会被更新。
这里再用我的理解跟大家陈述一遍（如果大家有看我的前面两篇博客，这里会看的非常明白）：
在前面我有一张documents表，现在我要往里面添加一篇文章，我想使这篇文章被检索到，就要执行 /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf --all --rotate，要想减少能够检索的时间，我们可以使用crontab实现每分钟执行一次该命令。
然而这条命令是把整张表重新建立主数据索引，假如该表现在已经有好几千万条数据了，如果把整张表的数据重新建立索引，就会大量的消耗服务器CPU和内存。
上面说的解决方案就是，我能不能仅仅对今天新增的数据建立索引，主数据索引保持不变？毕竟一天内新增的数据不会太多。
这里实现的办法就是“主索引+增量索引”，原来的数据保存在主索引里面，而新增的数据就保存在增量索引里面，在服务器空闲的时候（一般在凌晨），在将增量索引并到主索引中去，这样就不会影响到第二天的建立增量索引。

2、建立计数表
该表的作用是记录将文档集分成两部分的那个文档ID（一部分保存在主数据索引，一部分保存在增量索引），其实就是昨晚将增量索引并入主数据索引时 documents 数据表的 id 的最大值，而每次重新构建主索引时，这个表都会被更新。
创建计数表：
mysql -uroot -pzhongjin test;
CREATE TABLE sph_counter(
counter_id INT PRIMARY KEY NOT NULL,
max_doc_id INT NOT NULL
);

3、修改配置文件csft.conf
在修改配置文件之前，给大家说一下 mysql 中的 REPLACE INTO 的用法：
使用 REPLACE INTO 的时候会带上一个主键，假如目标数据表中对应的该主键没有数据，那么 REPLACE INTO 就会往里面插数据（相当于 INSERT INTO）。假如该主键已经有数据了，REPLACE INTO就会更新该条数据。
修改配置文件 csft.conf：
1)、在主数据源中（source main{}）修改:
#新增一行，作用是更新sph_counter表
sql_query_pre = REPLACE INTO sph_counter SELECT 1,MAX(id) FROM documents;

2)、将增量数据源（source src1throttled : src1{}）的注释打开
#修改增量数据源名字并添加如下内容：
source delta : main{
sql_ranged_throttle = 100
sql_query_pre = SET NAMES UTF8
sql_query = \
SELECT id,group_id,UNIX_TIMESTAMP(date_added) AS date_added,title,content FROM \
documents WHERE id > (SELECT max_doc_id FROM sph_counter WHERE counter_id = 1)
}

3、将增量数据索引（index test1stemmed : test1）{}）的注释打开
#修改增量数据索引名字并添加如下内容：
index delta : main
{
source = delta
path = /usr/local/coreseek/var/data/delta
morphology = stem_en
}
注意：增量数据源的sql语句搜索出来的结果字段一定要与主数据源的对称，因为它俩是继承关系，如果不对称，就会报错：字段不统一

4、测试增量索引+主索引
到目前为止，sph_counter 表是空的，现在我们执行更新索引命令：
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf --all --rotate
--all 表示生成所有索引，包括主数据索引（main）和增量数据索引（delta）
--rotate 是因为由于现在 searchd 服务在进行，必须加该参数

可以看到，该命令创建更新了两个索引（main和delta），这时候我们再看看 sph_counter 表和 documents 表：

mysql -uroot -pzhongjin test
SELECT * FROM sph_counter;
SELECT id,title,content FROM documents;

可以看到，现在sph_countter表中保存的是documents表中的id的最大值。
==================分割线====================

往 documents 表中插入一条数据，
INSERT INTO documents(group_id,group_id2,date_added,title,content) VALUES(4,10,NOW(),'LINUX技术','在华北电力大学LSGO实验室学习LINUX技术');

按照前面说的，对新增数据建立增量索引，而不是对索引数据重新建立主数据索引：
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf delta --rotate
ps：假如对单个类型建立索引，直接用索引名代替 –all ,例如为主数据源建立主数据索引，/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf main --rotate

==================分割线====================

搜索‘Linux’试试：
/usr/local/coreseek/bin/search -c /usr/local/coreseek/etc/csft.conf LINUX

发现结果是来自增量索引 delta 的。也就是说现在主数据索引里面是不包含该条数据的。
PS：假如现在在PHP中使用sphinx技术的话，在搜索关键字的时候，一定要用 $sphinx -> query("{$keyword}","*"),因为 “*”表示所有的索引，而不仅仅是主数据索引。
最后我们还要实现将增量索引合并到主数据索引中去，再将 sph_counter 表的 max_doc_id 字段更新。

5、用 crontab 实现定时建立增量索引和主数据索引
建立增量索引和主数据索引的命令写成一个可执行脚本，放到 /usr/local/coreseek/etc/init 下：
cd /usr/local/coreseek/etc
mkdir init
cd init

#建立主数据索引脚本
touch main.sh

#建立增量数据索引脚本
touch delta.sh

#添加权限：
chmod 755 *.sh

添加日志文件，方便以后查阅
cd /usr/local/coreseek/var/log

#建立主数据索引日志文件
touch main.log

#建立增量数据索引脚本
touch delta.log

#添加权限
chmod 755 main.log delta.log

往main.sh 添加以下内容：
#!/bin/bash
# main.sh
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf main --rotate >> /usr/local/coreseek/var/log/main.log
echo "==============================================================" >> /usr/local/coreseek
/var/log/main.log

往delta.sh 添加以下内容：
#!/bin/bash
# delta.sh
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf delta --rotate >> /usr/local/coreseek/var/log/delta.log
echo "==============================================================" >> /usr/local/coreseek
/var/log/delta.log
==================================================

目标是：每五分钟创建一次增量索引，每天凌晨三点合并增量索引，重建主数据索引。
使用 crontab 定时执行 main.sh 和 delta.sh
crontab -e
#添加以下两行
*/5 * * * * /usr/local/coreseek/etc/init/delta.sh
00 03 * * * /usr/local/coreseek/etc/init/main.sh
好了，现在 sphinx 的实时索引就算是完成了。

三、配置 searchd 的开机自启：
1、原理：
系统开机启动时会去加载/etc/init.d/下面的脚本，通常而言每个脚本文件会自定义实现程序的启动；若想将新的程序开机自启动，只需在该目录下添加一个自定义启动程序的脚本，然后设置相应规则即可。
如在这里我们在/etc/init.d/下新建一个 auto_coreseek 的脚本，开机启动时会去加载执行该脚本

2、编写开机启动脚本：
创建脚本 auto_coreseek
vim /etc/init.d/auto_coreseek
在 auto_coreseek 中添加以下内容：
#!/bin/sh
#chkconfig:2345 80 90
#description:auto_coreseek
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft.conf

添加权限：
chmod 755 auto_coreseek

启动测试：
#先把该进程关掉
killall searchd
/etc/init.d/auto_coreseek start

添加到开机启动项：
chkconfig auto_coreseek on

重启服务器测试：
reboot

ps aux | grep searchd
#或
netstat -tunlp | 9312
完成！

本文标签：

本文标题：Coreseek(Sphinx)简单应用及在LAMP中的注意事项

固定链接：http://www.fgedu.net.cn/7540.html

网站声明：本文由风哥整理发布,转载请保留此段声明，本站所有内容将不对其使用后果做任何承诺，请读者谨慎使用！

技术交流：Oracle/MySQL/Linux学习群1-4：189070296、244609803、522261684、522651731

技术交流：Oracle/MySQL/Linux学习群5-8：150201289、199479729、158277749、336282998