部分词分词器与基于词的分词器 Elasticsearch
创始人
2024-12-24 02:00:58
0

部分词分词器与基于词的分词器 Elasticsearch 是一种文本分析工具,用于将输入文本分解成离散的词语或标记。下面是一个使用部分词分词器和基于词的分词器的示例代码:

  1. 部分词分词器(ngram tokenizer)示例:
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_partial_word_analyzer": {
          "tokenizer": "my_ngram_tokenizer"
        }
      },
      "tokenizer": {
        "my_ngram_tokenizer": {
          "type": "ngram",
          "min_gram": 2,
          "max_gram": 5,
          "token_chars": [
            "letter",
            "digit"
          ]
        }
      }
    }
  }
}

GET my_index/_analyze
{
  "analyzer": "my_partial_word_analyzer",
  "text": "Elasticsearch"
}

上述代码将会使用 ngram 分词器将 "Elasticsearch" 分解成部分词,输出结果如下:

{
  "tokens": [
    {
      "token": "El",
      "start_offset": 0,
      "end_offset": 2,
      "type": "word",
      "position": 0
    },
    {
      "token": "las",
      "start_offset": 1,
      "end_offset": 4,
      "type": "word",
      "position": 1
    },
    {
      "token": "ast",
      "start_offset": 2,
      "end_offset": 5,
      "type": "word",
      "position": 2
    },
    {
      "token": "sti",
      "start_offset": 3,
      "end_offset": 6,
      "type": "word",
      "position": 3
    },
    {
      "token": "tic",
      "start_offset": 4,
      "end_offset": 7,
      "type": "word",
      "position": 4
    },
    {
      "token": "ticsearch",
      "start_offset": 5,
      "end_offset": 15,
      "type": "word",
      "position": 5
    }
  ]
}
  1. 基于词的分词器(standard tokenizer)示例:
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_word_based_analyzer": {
          "tokenizer": "my_standard_tokenizer"
        }
      },
      "tokenizer": {
        "my_standard_tokenizer": {
          "type": "standard"
        }
      }
    }
  }
}

GET my_index/_analyze
{
  "analyzer": "my_word_based_analyzer",
  "text": "Elasticsearch"
}

上述代码将会使用基于词的分词器将 "Elasticsearch" 分解成独立的词语,输出结果如下:

{
  "tokens": [
    {
      "token": "Elasticsearch",
      "start_offset": 0,
      "end_offset": 13,
      "type": "",
      "position": 0
    }
  ]
}

这是一个简单的示例,你可以根据自己的需求进行配置和扩展。

相关内容

热门资讯

微扑克ai辅助工具!德州wpk... 微扑克ai辅助工具!德州wpk德州有挂,微扑克软件开发,必赢方法(有挂总结)1.微扑克 ai辅助创建...
八分钟了解!大众互娱辅助器,哥... 八分钟了解!大众互娱辅助器,哥哥跑得快怎么拿好牌,普及教程(有挂解说);1、哥哥跑得快怎么拿好牌透视...
2025新版教程!wepoke... 2025新版教程!wepoke软件透明挂测试(wepoke模拟器)we poker(果然真的有挂);...
热点推荐!中至麻将可以设置输赢... 热点推荐!中至麻将可以设置输赢吗(透明挂)真是存在有挂(2026已更新)(哔哩哔哩);1、进入到中至...
微扑克ai辅助!微扑克app,... 一、微扑克简介了解软件请加微:136704302微扑克是一款在线扑克游戏平台,玩家可以在平台上进行多...
两分钟了解!福建大玩家隐藏胜率... 两分钟了解!福建大玩家隐藏胜率,乐乐安徽麻将挂管用么,必备教程(有挂黑科技)1、构建自己的乐乐安徽麻...
aapoker透明挂!wepo... aapoker透明挂!wepoke辅助机器人,WepoKe一直真的有挂,软件教程(有挂工具)是一款可...
揭秘攻略!友乐麻将是不是有挂(... 揭秘攻略!友乐麻将是不是有挂(透明挂)切实真的有挂(2025已更新)(哔哩哔哩)1、游戏颠覆性的策略...
微扑克wpk透视辅助!微扑克软... 1、微扑克wpk透视辅助!微扑克软件发牌原理,WPK真是是有挂,存在挂教程(有挂技巧);代表性(透视...
四分钟了解!江西中至麻将神器软... 四分钟了解!江西中至麻将神器软件,白金岛跑胡子辅助,软件教程(有挂脚本);1、江西中至麻将神器软件a...