es笔记四之中文分词插件安装与使用

原文链接：es笔记四之中文分词插件安装与使用

这里我们介绍一下如何安装中文分词插件。

PUT /exam/_doc/16
{
    "name" : "张三丰",
    "address": "一个苹果"
}

如果是中文分词，我们可以想到 '一个苹果' 应该会被分为 '一个' 和 '苹果' 这两个词，但是默认的分词是无法这样分词的，我们可以尝试搜索一下：

GET /exam/_search
{
  "query": {
    "term": {
      "address": "一个"
    }
  }
}

可以发现是无法搜索到结果的。

GET /exam/_doc/16/_termvectors?fields=address

其中，_doc 后面的 16 是我们要查询的数据的 id，fields 后面跟着的要查看的分词结果的字段名。

然后我们来安装一下中文分词的插件。

安装中文分词插件

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.0/elasticsearch-analysis-ik-7.6.0.zip

这里我们安装的是 7.6.0 版本的 es，所以安装对应的分词插件。

挨个执行下面的命令：

DELETE /exam/

PUT /exam

PUT /exam/_mapping
{
  "properties": {
    "address": {
      "type": "text",
      "analyzer": "ik_max_word",
      "fields": {
        "keyword": {
          "type": "keyword",
          "ignore_above": 256
        }
      }
    },
    "name": {
      "type": "keyword"
    }
  }
}

这里，和第一次创建 mapping 的时候比，多了一行 analyzer 的定义。

PUT /exam/_doc/16
{
    "name" : "张三丰",
    "address": "一个苹果"
}

GET /exam/_search
{
  "query": {
    "term": {
      "address": "一个"
    }
  }
}

可以看到，这次我们搜索一个，就可以查询到数据了。

GET /exam/_doc/16/_termvectors?fields=address

可以看到，这次返回的结果除了单独的 '一' 和 '个' 之外，还有被分成整体的 '一个' 和 '苹果'。

查看分词结果

如果我们有一个字符串，想要知道它会被如何分词，可以直接使用下面的命令：

POST /_analyze
{
  "analyzer": "ik_smart",
  "text": "一个苹果"
}

其中，analyzer 是指定的分词的插件，如果不指定就会使用默认的分词功能。

如果想获取更多后端相关文章，可扫码关注阅读：

编程笔记 » es笔记四之中文分词插件安装与使用

安装中文分词插件

查看分词结果

相关文章

Hi，您需要填写昵称和邮箱！