搜索引擎 - ElasticSearch

liangzai_cool 發布于2019-08-14 18:36 / 2688人閱讀

摘要：注是開源項目，預先安裝和。一介紹是基于的開源搜索引擎，目前被認為是最先進性能最好功能最全的搜索引擎。具體詳見這章分析器。由于最近在用多進程并發查詢的功能，當請求數量在一段時間內增加時，會有多個進程的響應超時的問題。

注：ES是Java開源項目，預先安裝Jre和NodeJS。

一、介紹

Elasticsearch是基于Apache Lucene的開源搜索引擎，目前被認為是最先進、性能最好、功能最全的搜索引擎。

1、名詞

分片：集群中節點存放文檔的地方，分片保存在不同節點可用于數據恢復，每個分片占用的CPU、RAM、IO越高索引速度就越快

index（索引）: 類似數據庫，多個索引就代表多個數據庫

type（類型）: 類似表名

mapping ：表結構

doc（文檔）：數據，一條Json數據為一個文檔

ES Json ：ES API請求模板，用于索引數據，格式ES有嚴格規定（不同版本有區別）

filter（過濾）：ES有倆種查詢模式，一是根據條件查詢（速度慢），二全部查詢后再條件過濾

aggs（聚合）：類似數據庫的group by，可多個聚合嵌套使用

二、安裝配置

以下為單節點配置：

1、下載 ES壓縮包，解壓到本地。

2、打開/ES/config/下 elasticsearch.yml

為了顯示整潔，去掉了注釋和沒使用的配置項

# ---------------------------------- Cluster -----------------------------------
cluster.name: elasticsearch #ES根據此名將節點放到集群中

# ------------------------------------ Node ------------------------------------
node.name: node-master #節點名稱，集群需更改!!!

# ----------------------------------- Paths ------------------------------------
#path.data: /path/to/data
#path.logs: /path/to/logs

# ----------------------------------- Memory -----------------------------------
#bootstrap.memory_lock: true

# ---------------------------------- Network -----------------------------------
network.host: 127.0.0.1 #節點綁定的ip
transport.tcp.port: 9301 #集群需更改!!!
http.port: 9401 #集群需更改!!!

# --------------------------------- Discovery ----------------------------------
#discovery.zen.ping.unicast.hosts: ["host1", "host2"] #主節點列表
##########Prevent the "split brain" by configuring the majority of nodes (total number of master-eligible nodes / 2 + 1):##########
discovery.zen.minimum_master_nodes: 1 #至少1個主節點

# ---------------------------------- Gateway -----------------------------------
#gateway.recover_after_nodes: 3

# ---------------------------------- Various -----------------------------------
#action.destructive_requires_name: true

1、命令

1、命令行到/ES/bin/下，運行 elasticsearch 或 elasticsearch -d 隱藏運行

2、非隱藏運行可使用 Ctrl+C 關閉。隱藏模式可使用 ps -ef | grep elastic 或 jps 查看進程號

3、當集群中的節點出現紅色Unassigned，則檢查處理問題（節點狀態可使用下面的ES插件進行觀察等其它操作）

（1）查看集群相關信息

curl "localhost:9401/_nodes/process?pretty"

（2）找出 UNASSIGNED 相關信息

curl -XGET localhost:9401/_cat/shards|grep UNASSIGNED

（3）依次修改以上UNASSIGNED

curl -XPOST "localhost:9401/_cluster/reroute" -d "{
    "commands" : [ {
        "allocate" : {
            "index" : "graylog_83",
            "shard" : 1,
            "node" : "Auq82gfGQVWgOBw6S7ajRQ",
            "allow_primary" : true
        }
    }]
}"

2、安裝ES監控

1、下載開源項目 elasticsearch-head

2、進入到elasticsearch-head下，命令行 npm install grunt-cli 安裝grunt客戶端

3、在elasticsearch-head下打開Gruntfile.js

4、運行監控插件及結果

三、ES Api 1、創建索引

{
    "student": {
        "properties": {
            "no": {
                "type": "string",
                "fielddata": true,
                "index": "analyzed"
            },
            "name": {
                "type": "string",
                "index": "analyzed"
            },
            "age": {
                "type": "integer"
            },
            "birth": {
                "type": "date",
                "format": "yyyy-MM-dd"
            },
            "isLeader": {
                "type": "boolean"
            }
        }
    }

}

然后用REST方式調用ES接口創建索引和類型：

ES監控插件上顯示：

2、bulk批處理

bulk API 允許在單個步驟中進行多次 create 、 index 、 update 或 delete 請求。

curl -XPOST "http://172.16.13.4:9401/_bulk?pretty" -d "
{"delete": {"_index": "megacorp", "_type": "employee", "_id": "2"}}
{"create": {"_index": "megacorp", "_type": "employee", "_id": "2"}}
{"name": "first"}
{"index": {"_index": "megacorp", "_type": "employee"}}

3、ES分析器

分析器包括三個功能：字符過濾器（過濾掉HTML，特殊符號轉換）、分詞器也叫分析器（標準分析器、簡單、空格、語言分析器）、token過濾器（刪除改變無用詞）。具體詳見這章 ES分析器。

四、ES集群

配置很簡單就不做詳細說明了，原理跟redis集群差不多，判斷節點超時、投票選取主節點。

#####################################主節點1#####################################
# ---------------------------------- Cluster -----------------------------------
cluster.name: alex-es

# ------------------------------------ Node ------------------------------------
node.name: node1
node.master: true
node.data: true

# ----------------------------------- Path ------------------------------------
path.data: /path/to/data
path.logs: /path/to/logs

# ----------------------------------- Memory -----------------------------------
bootstrap.memory_lock: true

# ---------------------------------- Network -----------------------------------
network.host: 172.16.13.4
transport.tcp.port: 9301
transport.tcp.compress: true
http.port: 9401
http.max_content_length: 100mb
http.enabled: true
http.cors.enabled: true
http.cors.allow-origin: "*"

# --------------------------------- Discovery ----------------------------------
discovery.zen.minimum_master_nodes: 2
discovery.zen.ping.unicast.hosts: ["172.16.13.4:9301", "172.16.13.4:9302"]

# ---------------------------------- Gateway -----------------------------------
gateway.recover_after_nodes: 3
gateway.recover_after_time: 5m
gateway.expected_nodes: 3

#####################################主節點2#####################################
# ---------------------------------- Cluster -----------------------------------
cluster.name: alex-es

# ------------------------------------ Node ------------------------------------
node.name: node2
node.master: true
node.data: true

# ----------------------------------- Path ------------------------------------
path.data: /path/to/data2
path.logs: /path/to/logs2

# ----------------------------------- Memory -----------------------------------
bootstrap.memory_lock: true

# ---------------------------------- Network -----------------------------------
network.host: 172.16.13.4
transport.tcp.port: 9302
transport.tcp.compress: true
http.port: 9402
http.max_content_length: 100mb
http.enabled: true
http.cors.enabled: true
http.cors.allow-origin: "*"

# --------------------------------- Discovery ----------------------------------
discovery.zen.minimum_master_nodes: 2
discovery.zen.ping.unicast.hosts: ["172.16.13.4:9301", "172.16.13.4:9302"]

# ---------------------------------- Gateway -----------------------------------
gateway.recover_after_nodes: 3
gateway.recover_after_time: 5m
gateway.expected_nodes: 3

#####################################子節點######################################
# ---------------------------------- Cluster -----------------------------------
cluster.name: alex-es

# ------------------------------------ Node ------------------------------------
node.name: node3
node.master: false
node.data: true

# ----------------------------------- Path ------------------------------------
path.data: /path/to/data3
path.logs: /path/to/logs3

# ----------------------------------- Memory -----------------------------------
bootstrap.memory_lock: true

# ---------------------------------- Network -----------------------------------
network.host: 172.16.13.4
transport.tcp.port: 9303
transport.tcp.compress: true
http.port: 9403
http.max_content_length: 100mb
http.enabled: true
http.cors.enabled: true
http.cors.allow-origin: "*"

# --------------------------------- Discovery ----------------------------------
discovery.zen.minimum_master_nodes: 2
discovery.zen.ping.unicast.hosts: ["172.16.13.4:9301", "172.16.13.4:9302"]

# ---------------------------------- Gateway -----------------------------------
gateway.recover_after_nodes: 3
gateway.recover_after_time: 5m
gateway.expected_nodes: 3

以上配置信息不能包含空格，配置好后，全部啟動，在ES-head上監控顯示：

五、ES客戶端問題

官方提供了基于Python、Java等語言的客戶端，其中實現了對es連接池輪訓、查詢、索引、批量等操作。

由于最近在用多進程并發查詢es的功能，當請求數量在一段時間內增加時，會有多個進程的響應超時的問題。

經過調查，已排查掉以下可能存在的問題：

1、Java GC機制問題（包括并發GC、FullGC、GCone等），因為根據GC的機制不同，會影響es的性能
2、es隊列大小
3、進程池，基本上是同一時間異步調用es查詢，所以這個不存在問題
4、CPU內存及es配置優化等

最后在服務器上抓包發現，部分請求要經過一定時間才能傳到es上，而且隨著請求數量加大，時間間隔有遞增趨勢，這樣問題就定位在es客戶端發送請求那。

經過一番研究，可能是es客戶端所采用的傳輸協議會導致請求時間延長，最后決定用Python的 pycurl 來代替es客戶端，下面是代碼，可以自己實現es輪訓：

import pycurl
import StringIO
import random

def es_pool():
    return ["ip:port", "ip:port"]

# curl請求
def curl_req(index="", rtype="", body=""):
    s = StringIO.StringIO()
    c = pycurl.Curl()

    es_hosts = es_pool()
    host = es_hosts[random.randint(0, len(es_hosts)) % len(es_hosts)]  # 根據es池大小隨機選擇
    url = host + "/" + index + "/" + rtype + "/_search"

    c.setopt(pycurl.URL, url)
    c.setopt(pycurl.POST, 1)
    c.setopt(pycurl.POSTFIELDS, body)
    c.setopt(pycurl.WRITEFUNCTION, s.write)
    c.perform()
    c.close()
    return s.getvalue()

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/67122.html

Solr vs. Elasticsearch誰是開源搜索引擎王者

摘要：本文，我們將比較業界兩個最流行的開源搜索引擎，和。關于基于業界大名鼎鼎的開源搜索引擎，更多的是一個軟件包，還不能稱之為搜索引擎，而則完成對的封裝，是一個真正意義上的搜索引擎框架。當前是云計算和數據快速增長的時代,今天的應用程序正以PB級和ZB級的速度生產數據，但人們依然在不停的追求更高更快的性能需求。隨著數據的堆積，如何快速有效的搜索這些數據，成為對后端服務的挑戰。本文，我們將比較業...

freewolf 2019-06-27 15:45 評論0 收藏0
Elasticsearch，為了搜索

摘要：為了方便調試，可以修改文件，加入以下兩行安裝中文分詞插件原裝分詞器會簡單地拆分每個漢字，沒有根據詞庫來分詞，這樣的后果就是搜索結果很可能不是你想要的。原文鏈接參考資料權威指南為你的站點插上的翅膀安裝中文分詞中的簡介使用實現博客站內搜索 Elasticsearch是一個基于Apache Lucene(TM)的開源搜索引擎。無論在開源還是專有領域，Lucene可以被認為是迄今為止最先進、...

mindwind 2019-06-27 14:14 評論0 收藏0
使用Node，Vue和ElasticSearch構建實時搜索引擎

摘要：建立在之上，它是一個高性能的文本搜索引擎庫。目錄在今天的課程中，您將學習如何使用，和構建實時搜索引擎。接下來，您需要安裝實時搜索引擎所需的庫。這是的官方庫，它是實時搜索的引擎。主要的搜索查詢包含在查詢對象中。但是，可以從客戶端進行搜索。（譯者注：相關閱讀：node.js,vue.js,Elasticsearch）介紹 Elasticsearch是一個分布式的RESTful搜索和分析...

jerryloveemily 2019-08-22 17:17 評論0 收藏0
使用Node，Vue和ElasticSearch構建實時搜索引擎

摘要：建立在之上，它是一個高性能的文本搜索引擎庫。目錄在今天的課程中，您將學習如何使用，和構建實時搜索引擎。接下來，您需要安裝實時搜索引擎所需的庫。這是的官方庫，它是實時搜索的引擎。主要的搜索查詢包含在查詢對象中。但是，可以從客戶端進行搜索。（譯者注：相關閱讀：node.js,vue.js,Elasticsearch）介紹 Elasticsearch是一個分布式的RESTful搜索和分析...

GHOST_349178 2019-08-29 15:24 評論0 收藏0

發表評論

登陸后可評論

0條評論

liangzai_cool

男|高級講師

我要關注我要私信

TA的文章

大學四年學計算機最值得看的技術書，要讀就讀最好的書，程序員精品書單！

閱讀 1961·2021-09-09 09:33
JS仿《阿麗塔》中依德醫生的旋轉縮放控件 — DEMO篇

閱讀 1107·2019-08-30 15:43
$(document).click() 在iphone上不觸發事件解決辦法

閱讀 2646·2019-08-30 13:45
css中的那些布局

閱讀 3297·2019-08-29 11:00
ElementUI日期選擇器時間選擇范圍限制

閱讀 845·2019-08-26 14:01
網絡協議 6 -路由協議

閱讀 3558·2019-08-26 13:24
一款基于移動端的日歷控件iantooDate

閱讀 471·2019-08-26 11:56
Web和Android中的Reactive

閱讀 2683·2019-08-26 10:27

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

搜索引擎 - ElasticSearch

相關文章

**Solr vs. Elasticsearch誰是開源搜索引擎王者**

Elasticsearch，為了搜索

使用Node，Vue和ElasticSearch構建實時搜索引擎

使用Node，Vue和ElasticSearch構建實時搜索引擎

發表評論

0條評論

liangzai_cool

男|高級講師

TA的文章

大學四年學計算機最值得看的技術書，要讀就讀最好的書，程序員精品書單！

JS仿《阿麗塔》中依德醫生的旋轉縮放控件 — DEMO篇

$(document).click() 在iphone上不觸發事件解決辦法

css中的那些布局

ElementUI日期選擇器時間選擇范圍限制

網絡協議 6 -路由協議

一款基于移動端的日歷控件iantooDate

Web和Android中的Reactive

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

搜索引擎 - ElasticSearch

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！