高效文本解析工具:探索ES分词器的奥秘

更新:10-28 名人轶事 我要投稿 纠错 投诉

大家好,今天小编来为大家解答高效文本解析工具:探索ES分词器的奥秘这个问题,很多人还不知道,现在让我们一起来看看吧!

图像

2.分词器:分词器是ES中专门做分词的组件。英文称为Analyzer。其组成如下:

字符过滤器:对原始文本进行处理,如去除html 标签分词器:将原始文本按照一定的规则分为单词分词器过滤器:对分词器处理后的单词进行重新处理,如转换为小写、删除或添加新单词等。

3. 分词器调用顺序: 示例:image

4. ElasticSearch内置了多种分词器,无需进一步配置即可在任何索引中使用:即如果不进行配置,则分词器的规则为内置分词器的默认规则断词者。当然,也可以根据用户的需求,在内置分词器的基础上配置Character Filters、Tokenizer、Token Filters。

一、内置分词器:

Standard Analyzer

1. 描述性特征:

(1) 默认分词器,如果不指定,则使用此分词器。

(2)按词分词,支持多种语言

(3)小写处理,去除大部分标点符号、小写术语,支持去除停用词。

2. 组成:

(1) Tokenizer:标准Tokenizer

(2) 分词过滤器:小写分词过滤器

示例:POST_analyze

{

"分析仪": "标准",

"text": "两只快速的棕狐跳过了懒狗的骨头。"

}上面这句话会产生以下条件:

[ 2、快速、棕色、狐狸、跳跃、越过、懒惰、狗的骨头]

Simple Analyzer

1.描述性特征:

(1) 根据非字母分割,简单的分词器在遇到非字母字符时将文本分解为术语

(2)小写处理,所有术语均小写。

2. 组成:

(1) Tokenizer:小写Tokenizer

POST_分析

{

"分析器": "简单",

"text": "两只快速的棕狐跳过了懒狗的骨头。"

}上面这句话会产生以下条件:

[敏捷的棕色狐狸跳过了懒惰的狗骨头]

Whitespace Analyzer

1. 描述性特征

(1) 空格字符作为分隔符。当遇到任何空白字符时,空白标记生成器会将文本划分为术语。

2. 组成:

(1) Tokenizer:空白Tokenizer

例子:

POST_分析

{

"分析器": "空白",

"text": "两只快速的棕狐跳过了懒狗的骨头。"

}上面这句话会产生以下条件:

[ 2 只棕色狐狸,跳过了那只懒狗的骨头。 ]

Stop Analyzer

1.描述性特征:

(1)与SimpleAnalyzer类似,但相比SimpleAnalyzer,支持删除停用词

(2)停用词是指情态助词等修饰词,如the、an等。

2. 组成:

(1) Tokenizer:小写Tokenizer

(2) 令牌过滤器:停止令牌过滤器

例子:

POST_分析

{

"分析器": "停止",

"text": "两只快速的棕狐跳过了懒狗的骨头。"

}上面这句话会产生以下条件:

[快速、棕色、狐狸、跳跃、过度、懒惰、狗、s、骨头]

Keyword Analyzer

1、成分特点:

(1) 不进行分词,直接将输入作为单词输出。它接受给定的任何文本,并输出与单个术语完全相同的文本。

2. 组成:

(1) Tokenizer:关键词Tokenizer

例子:

POST_分析

{

"分析器": "关键字",

"text": "两只快速的棕狐跳过了懒狗的骨头。"

}上面这句话会产生以下条件:

[ 两只敏捷的棕狐跳过了懒狗的骨头。 ]

Pattern Analyzer

模式分词器使用正则表达式将文本拆分为术语。

(1)通过正则表达式自定义分隔符

(2)默认为W+,即使用非单词符号作为分隔符。

Language Analyzers

ElasticSearch 提供了许多特定于语言的分析工具,例如英语或法语。

Fingerprint Analyzer

指纹分词器是一款专业的指纹分词器,可以创建指纹以进行重复检测。

用户评论

陌颜幽梦

听起来很强大,能拆解复杂的句子吗?

    有5位网友表示赞同!

龙卷风卷走爱情

想了解一下它的应用场景,比如自然语言处理中会用到吗?

    有8位网友表示赞同!

哥帅但不是蟋蟀

这个分词器能支持多种语言吗?

    有17位网友表示赞同!

巴黎盛开的樱花

学习过其他的分词器,感觉这是一个新的探索!

    有6位网友表示赞同!

怪咖

对中文文本比较感兴趣,ES分词器的效果怎么样?

    有20位网友表示赞同!

沐晴つ

听说它可以自动识别关键词,是真的吗?

    有13位网友表示赞同!

我绝版了i

想问问它的准确率如何,能保证分词的正确性吗?

    有19位网友表示赞同!

拥抱

方便直接查看一下它的使用方法吗?

    有14位网友表示赞同!

有你,很幸福

这个工具对文本分析很有帮助吧!

    有7位网友表示赞同!

余笙南吟

看起来很酷炫,我也想去尝试使用一下。

    有12位网友表示赞同!

你tm的滚

不知道它相比较其他分词器有什么优势呢?

    有20位网友表示赞同!

无关风月

期待学习更多关于ES分词器的知识!

    有16位网友表示赞同!

命里缺他

如果能用简单易懂的语言解释下,那就太好了!

    有6位网友表示赞同!

堕落爱人!

这个标题给我勾起了好奇心,想了解它的细节之处。

    有9位网友表示赞同!

不离我

对于初学者来说,有没有一些入门教程?

    有19位网友表示赞同!

墨染天下

希望它能够提高文本处理效率!

    有15位网友表示赞同!

浅嫣婉语

看来这是一个很有用的工具,可以帮助我们更好地理解文本信息。

    有9位网友表示赞同!

漫长の人生

这个分词器的性能怎么样?速度如何?能支持大型文本处理吗?

    有14位网友表示赞同!

【高效文本解析工具:探索ES分词器的奥秘】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活

上一篇:探寻触动心灵的音乐之旅:经典旋律背后的故事 下一篇:深入解析《大唐女法医》中的古典诗词赏析(下篇)