部分词分词器与基于词的分词器 Elasticsearch
创始人
2024-12-24 02:00:58
0

部分词分词器与基于词的分词器 Elasticsearch 是一种文本分析工具,用于将输入文本分解成离散的词语或标记。下面是一个使用部分词分词器和基于词的分词器的示例代码:

  1. 部分词分词器(ngram tokenizer)示例:
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_partial_word_analyzer": {
          "tokenizer": "my_ngram_tokenizer"
        }
      },
      "tokenizer": {
        "my_ngram_tokenizer": {
          "type": "ngram",
          "min_gram": 2,
          "max_gram": 5,
          "token_chars": [
            "letter",
            "digit"
          ]
        }
      }
    }
  }
}

GET my_index/_analyze
{
  "analyzer": "my_partial_word_analyzer",
  "text": "Elasticsearch"
}

上述代码将会使用 ngram 分词器将 "Elasticsearch" 分解成部分词,输出结果如下:

{
  "tokens": [
    {
      "token": "El",
      "start_offset": 0,
      "end_offset": 2,
      "type": "word",
      "position": 0
    },
    {
      "token": "las",
      "start_offset": 1,
      "end_offset": 4,
      "type": "word",
      "position": 1
    },
    {
      "token": "ast",
      "start_offset": 2,
      "end_offset": 5,
      "type": "word",
      "position": 2
    },
    {
      "token": "sti",
      "start_offset": 3,
      "end_offset": 6,
      "type": "word",
      "position": 3
    },
    {
      "token": "tic",
      "start_offset": 4,
      "end_offset": 7,
      "type": "word",
      "position": 4
    },
    {
      "token": "ticsearch",
      "start_offset": 5,
      "end_offset": 15,
      "type": "word",
      "position": 5
    }
  ]
}
  1. 基于词的分词器(standard tokenizer)示例:
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_word_based_analyzer": {
          "tokenizer": "my_standard_tokenizer"
        }
      },
      "tokenizer": {
        "my_standard_tokenizer": {
          "type": "standard"
        }
      }
    }
  }
}

GET my_index/_analyze
{
  "analyzer": "my_word_based_analyzer",
  "text": "Elasticsearch"
}

上述代码将会使用基于词的分词器将 "Elasticsearch" 分解成独立的词语,输出结果如下:

{
  "tokens": [
    {
      "token": "Elasticsearch",
      "start_offset": 0,
      "end_offset": 13,
      "type": "",
      "position": 0
    }
  ]
}

这是一个简单的示例,你可以根据自己的需求进行配置和扩展。

相关内容

热门资讯

七分钟了解(Wepoke辅助)... 七分钟了解(Wepoke辅助)外挂辅助插件安装下载(透视)教你攻略(2021已更新)(哔哩哔哩)是一...
第3分钟了解(约局吧)外挂透明... 您好:约局吧这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总...
第一分钟了解(wpk下载)软件... 第一分钟了解(wpk下载)软件透明挂辅助软件(透视)必胜教程(2026已更新)(哔哩哔哩)是一款可以...
第四分钟了解(WEPoke)外... 第四分钟了解(WEPoke)外挂透明挂辅助器(透视)必备教程(2023已更新)(哔哩哔哩)是一款可以...
五分钟了解(wepoke透明挂... 五分钟了解(wepoke透明挂)外挂透明挂辅助神器(透视)必胜教程(2021已更新)(哔哩哔哩);亲...
一分钟了解(Wepoke测试)... 一分钟了解(Wepoke测试)黑科技透明挂辅助神器(透视)解密教程(2020已更新)(哔哩哔哩);2...
第8分钟了解(德扑线上)外挂智... 第8分钟了解(德扑线上)外挂智能ai辅助黑科技(透视)教你教程(2023已更新)(哔哩哔哩);德扑线...
第十分钟了解(微扑克系统)外挂... 第十分钟了解(微扑克系统)外挂辅助插件安装科技(透视)揭秘教程(2023已更新)(哔哩哔哩);微扑克...
第九分钟了解(德州软件工具)黑... 您好:德州软件工具这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别...
七分钟了解(德州线上扑克)外挂... 您好,德州线上扑克这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302】很多玩家在这款...