菜单

基于Sphinx构建准实时更新的分布式通用搜索引擎平台

2015-01-10 - 优秀原创

作者:张宴
前言:

2008年7月,我写过一篇文章《基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计》。有不少网友希望阅读全文,我将该文档整理了一下,分享出来。文档解压后大小为7.33M,共19页。

本站下载地址: http://blog.zyan.cc/book/sphinx/sphinx_mysql.zip

新浪下载分流: http://ishare.iask.sina.com.cn/f/6728201.html

上述文档架构存在的局限,我在2008年12月的文章《亿级数据的高并发通用搜索引擎架构设计》 中已经指出:一是MySQL本身的并发能力有限,在200~300个并发连接下,查询和更新就比较慢了;二是由于MySQL表的主键与Sphinx索引的 ID一一对应,从而无法跨多表建立整站查询,而且新增加类别还得修改配置文件,比较麻烦;三是因为和MySQL集成,无法发挥出Sphinx的优势。虽然 如此,但对于一些写入量不大的搜索应用,已经足够了,或许对很多人会有帮助。


正文:

在这之后,本人基于《亿级数据的高并发通用搜索引擎架构设计》开发的Sphinx分布式通用站内搜索引擎平台,已经在生产环境运行9个月以上,经过运营中的不断完善与改进,目前已形成了一套可扩展的分布式通用站内搜索引擎框架。CMS、视频、论坛等产品发生的增、删、改操作,文本内容实时写入自行开发的 HTTPSQS 高性能简单消息队列服务,通过队列控制器更新索引和存储。提供支持XML、JSON的API查询接口,支持亿级数据的索引、分布式、中文分词、高亮显示、自动摘要、准实时(1分钟内)增量索引更新。

转载请注明: 转载自—艾瑞可erik

本文链接地址: http://erik.xyz/628.html

页面: 1 2 3 4 5

发表评论