最近因業務中需要對數據庫裡面的數據進行多維度檢索，完全依賴SQL已經無法滿足業務的需求了，顯然我們需要搜索技術的支持。這玩意也沒啥可技術調研的，基本上就如下幾種方案：

自己搭建搜索引擎，採用ElasticSearch
自己搭建搜索引擎，採用Solr
使用雲服務，使用阿里雲的開放搜索產品或者ES產品

業務場景：

不需要數據實時同步
數據量小、訪問頻次低，因此單機即可
能提供各個字段的多維度模糊查詢
能簡單快速上手，容易維護
成本低

基於以上場景，基本上就pass掉了使用雲服務，因為它真的不便宜，最便宜的阿里雲開放搜索或者ES產品也得1元/小時，也就是一個月720元，一年8640元，這還只是一個搜索應用，如果有多個費用會更多，所以我們還是選擇自建吧。那就需要考慮到運維成本的問題了，要能簡單快速上手且易於維護，所以我最終選擇了solr。

本文主要詳細說明solr的搭建步驟，建議大家收藏文章後，跟著文章自己動手再搭建一次，以便掌握solr的相關知識。

solr官網：https://lucene.apache.org/solr/

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™.

Solr是基於Apache Lucene™構建的流行的、速度極快的開源企業搜索平臺。

下載&解壓

<code>//下載最新版8.4.1
wget http://mirror.bit.edu.cn/apache/lucene/solr/8.4.1/solr-8.4.1.tgz
//解壓到solr-8.4.1
tar xzf solr-8.4.1.tgz/<code>

解壓後的文件目錄如下：

bin：腳本文件

contrib：solr專用功能的附加插件

dist：依賴的jar文件

docs：文檔

example：示例

licenses：使用到的第三方許可證書

server：solr核心應用程序所在目錄

啟動solr服務

<code>#啟動solr
sh bin/solr start -force/<code>

可能會出現啟動失敗的情況：

<code>bin/solr: line 739: syntax error near unexpected token `bin/solr: line 739: `    done < /<code>

這是可能端口被佔用了，換一個指定端口啟動：

<code>./bin/solr start -p 8983 -force/<code>

輸出日誌：

這樣就啟動成功了，訪問8983的控制檯http://127.0.0.1:8983（注意檢查服務器端口8983是否開放狀態）：

solr控制檯

這樣我們的solr就安裝成功了。

配置Solr Core

add core

可以看到提示說創建Core之前，instanceDir和dataDir文件夾必須已經存在。那麼我們就先創建好對應的文件夾，記住這個目錄：solr-8.4.1/server/solr，我們會在這個目錄下創建core所屬的instanceDir，而dataDir則在instanceDir目錄下，可以拷貝configsets/_default/conf/目錄下的所有文件到新建的core下面：

<code>cp -r configsets/_default/conf/ test_rong_msg_history//<code>

然後回到管理頁面執行Create Core，創建好我們的Core：

配置中文分詞器

因為我們需要對中文內容進行模糊查詢、匹配，則需要單獨配置中文分詞器，下載ik-analyzer-8.3.0.jar，最好與自己的solr版本對應：

<code>wget https://repo1.maven.org/maven2/com/github/magese/ik-analyzer/8.3.0/ik-analyzer-8.3.0.jar/<code>

下載完畢後放到server/solr-webapp/webapp/WEB-INF/lib目錄下，再回到我們剛剛創建的Core目錄下，編輯managed-schema文件，增加如下內容：

重啟solr：

<code>bin/solr restart -force/<code>

去solr控制檯測試一下中文分詞，選擇text_ik進行分析，可以看到IKT的分詞結果：

中文分詞

也可以自定義分詞，比如我們想將“測試中文分詞”中的“中文分”單獨作為一個詞來分詞的話，那麼可以如下操作：

1.解壓ik-analyzer-8.3.0.jar，執行jar -xvf ik-analyzer-8.3.0.jar得到如下文件目錄：

2.將ext.dic、stopword.dic、IKAnalyzer.cfg.xml三個文件拷貝到solr-8.4.1/server/solr-webapp/webapp/WEB-INF/classes目錄下（沒有classes目錄mkdir一下）：

3.其中ext.dic就是我們自定義的中文詞，將“中文分”加到這個文件中去，重啟solr，再試試分詞效果：

自定義分詞

可以看到，“中文分”已經作為一個詞被solr拆出來了。

數據源配置DataImport

我們使用solr的目的就是為了更方便、更多維度、更快速度的檢索數據，而數據都會存儲在數據庫中，所以就需要我們將數據庫中的數據及時的導入到solr搜索引擎中，便於業務搜索。

依賴jar包下載到dist文件夾對應目錄下：

編輯配置文件test_rong_msg_history/conf/solrconfig.xml新增如下內容：

在conf目錄下新增data-config.xml，主要是為了配置連接mysql數據庫的數據源信息：

數據源配置好了，接下來回來solr控制檯，在控制檯選擇我們之前添加的core，配置其schema，也可以直接編輯managed-schema文件來配置field：

add field

至此，配置工作完成，開始講數據庫中的數據導入到solr中來，執行Dataimport：

全量導入

可以看到從數據庫中導入了112條記錄到solr，這個時候執行Query，發現可以查詢數據了：

query

這樣我們便完成了從mysql導入數據到solr的配置工作，大家便可以根據solr的相關查詢API來開發自己的業務了。

以上就是solr的搭建、配置中文分詞、配置數據源的詳細步驟說明，建議大家感興趣的可以自己在本地動手搭建一下，相信大家自己搭建後，不僅初步掌握了solr搜索引擎的基礎知識，還會獲得更多其他的收穫。

分享到:

閱讀更多 java架構設計 的文章

關鍵字: Lucene 教程 WebApp

Apache Solr搜索引擎搭建、配置、使用詳細教程

下載&解壓

啟動solr服務

配置Solr Core

配置中文分詞器

數據源配置DataImport

相關文章:

Apache Solr搜索引擎搭建、配置、使用詳細教程

下載&解壓

啟動solr服務

配置Solr Core

配置中文分詞器

數據源配置DataImport

相關文章:

Apache Flink中保存點和檢查點之間的3個區別

Apache Hive簡介

Apache Doris在美團外賣數倉中的應用實踐

Apache Kafka內核深度剖析

Apache HBase配置文件

Apache Shiro視頻教程免費獲取

Apache Atlas

一款高性能的OLAP分析工具-Apache Kylin 研究 （一）

Apache Pulsar：下一代分佈式消息系統

Apache Windows部署

Apache Tomcat 7.0.x 將於明年3月31日結束生命週期

03.04 Apache Tomcat 7.0.x 將於明年3月31日結束生命週期

Apache Kafka作者談架構演進（Java消息中間件）

Apache shiro反序列化漏洞排查

Apache Dubbo的愛奇藝之旅

Apache FreeMarker模板FusionAuth遠程代碼執行漏洞通告

Apache Flink 1.9.2 發佈，流處理框架

Apache ab壓力測試的知識點

11.23 apache kafka吞吐量高的原因分析

11.22 Apache Kafka和Apache NiFi集成

Apache Kafka快速入門指南

新一代MQ apache pulsar的架構與核心概念

Apache Shiro架構設計

深入瞭解 Apache Flink 的網絡協議棧

Apache Sqoop文檔~管理員手冊

apache 403錯誤 Forbidden解決方法

Apache 基金會將其所有項目遷移至 GitHub

Apache Tomcat修補重要的遠程執行代碼漏洞

CVE-2019-0211：Apache HTTP服務組件提權漏洞分析

Apache Kylin目錄詳解

Apache HTTP存在提權漏洞，威脅共享Web主機安全性

Apache Mavibot

Apache Ignite上的TensorFlow

Apache Spark常見的三大誤解

apache htpasswd命令用

Apache Kafka在大型應用中的20項最佳實踐

apache flume介紹

apache，tomcat以及IIS三者之間的比較

Apache Flink新的穩定版本發佈，流處理更牛了！

Apache Shiro 會話管理指南詳解（一）

Apache Shiro 會話管理指南詳解（二）

apache Hive介紹

Apache Shiro 10分鐘入門教程

Apache Server搭建圖片服務器

04.02 Apache Server搭建圖片服務器

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

一款高性能的OLAP分析工具-Apache Kylin 研究（一）

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？