【原创】关于elasticsearch中拼音搜索的性能问题@leeon

Mar31

【原创】关于elasticsearch中拼音搜索的性能问题

Author: leeon Click: 6036 Date: 2016.03.31 @ 13:57:56 pm Category: 架构

近日在elasticsearch按照网上的教程添加拼音支持后发行搜索性能衰减非常大，以前几百万的数据搜索关键字也只需要三四是毫秒，加入了多字段的拼音支持后搜索指定字段性能衰减了6-8倍。类似于网上的配置如下：

在索引分词器中配置如下：



index.refresh_interval: 1s

index:

  analysis:

    tokenizer:

       my_pinyin:

         type: "pinyin"

         first_letter: "none"

         padding_char: ""

    analyzer:

      ik_syno:

         type: custom

         tokenizer: ik_max_word

         filter: [my_synonym_filter]

      ik_syno_smart:

         type: custom

         tokenizer: ik_smart

         filter: [my_synonym_filter]

      pinyin_analyzer:

         tokenizer: my_pinyin

         filter: ["word_delimiter","my_ngram"]

      py_analyzer:

         tokenizer: my_pinyin

         filter: ["standard"]

    filter:

      my_synonym_filter:

         type: synonym

         synonyms_path: analysis/synonym.txt

         ignore_case: true

      my_ngram:

         type: "nGram"

         min_gram: 2

         max_gram: 5

{

    "folks": {

        "properties": {

            "name": {

                "type": "multi_field",

                "fields": {

                    "name": {

                        "type": "string",

                        "store": "no",

                        "term_vector": "with_positions_offsets",

                        "analyzer": "pinyin_analyzer",

                        "boost": 10

                    },

                    "primitive": {

                        "type": "string",

                        "store": "yes",

                        "analyzer": "keyword"

                    }

                }

            }

        }

    }

}

这种模式配置的字段映射会极大的降低搜索性能，如果想用拼音搜索关键字建议单独设立一个独立的字段来做，不要用multi_field复合字段的方式来配置，这样会大大降低在指定字段中搜索的性能，我猜测如果使用nGram方式来生成分词，会导致生成的token非常多，导致搜索匹配的数据太多导致查询太慢。

TAG: elasticsearch 拼音

分享未来 ^Internet _Technology

【原创】关于elasticsearch中拼音搜索的性能问题

分类

标签

归档

最新评论

我看过的书

链接

其他

分享未来 Internet Technology

【原创】关于elasticsearch中拼音搜索的性能问题

分类

标签

归档

最新评论

我看过的书

链接

其他

分享未来 ^Internet _Technology