lasticsearch如何配置语言分析器德语或构建自定义规范化程序腾讯云开发者社区

我正在使用德语语言分析器对一些内容进行标记。我知道它基本上是一个“小写”,"german_stop","german_keywords","german_normalization","german_stemmer“的宏过滤器。

第二个转换是好的,但第一个导致的问题比它解决的问题更多。在德语文本中,通常没有ae,ue,oe真正代表ä,ü,ö。它们实际上出现的大多数时候都是在外来词中,源自拉丁语或英语,比如'Aearodynamik‘(空气动力学)。然后,过滤器将'Ae‘解释为’Ae‘,然后将其转换为'A’。这会产生“arodynamik”作为令牌。通常这不是问题,因为搜索词也使用该过滤器进行了标准化。然而,如果与通配符搜索结合使用,这确实会成为一个问题:

想象一下像“FooEdit”这样的单词,它将被标记为“foodit”。搜索'edit OR *edit*‘(这是我在用户搜索'edit’时的常规搜索)不会得到结果,因为‘edit’的'e‘丢失了。因为我的内容有很多这样的词,而且人们都在搜索部分词,所以并不像看起来的那样是一种边缘情况。

所以我的问题是,有没有办法摆脱'ae -> a‘转换?我的理解是,这是German2 snowball algorithm的一部分,所以这可能无法更改。这是否意味着我必须摆脱整个标准化步骤,或者我可以提供我自己的雪球算法版本,其中我只是剥离了我不喜欢的部分(没有找到任何关于如何使用自定义雪球算法进行标准化的文档)?

THE END
0.Excel里如何将法语,德语的字母转换成英文字母?我只知道德语的,ß=ss, ü=ue, ö=oe, ä=ae jvzquC41yy}/5m;80eun1jsuygxt1zzguvopph6467>447mvon
1.拉丁字母c的音值周有光著《拼音化问题》“字母名称的来源”“附 四种字母名称比较”字母c:汉语名称cêㄘㄝ 德语名称[tsʻɛ]ㄘㄝ 法语名称[sɛ] ㄙㄝ 英语名称[si] ㄙㄧ。拉丁语字母发音:字母大小写Cc、名称[tse]、发音[k][ts]。Cc在元音a,o,u,au和一切辅音前和在词尾时,读[k];Cc在元音e,i,y,ae,oe,eu前读jvzq<84yyy4489iqe0ipo8hqpvkov8741371485819:6:>:86a717=7493;80|mvon
2.(转载)怎样输入德语中的特殊字符meiyangsz我之前在输入德语中?(a上两点。网易不能正常显示,特加说明), ?(o上两点), ü, ?(像贝塔的那个字母)“这些字符时经常用ae, oe, ue, ss替代。实际上也有一种比较简单的输入方法: ?: Alt + 0196 ?: Alt + 0228 ?: Alt + 0214 ?: Alt + 0246 jvzquC41yy}/ewgnqiy/exr1ogozcwlu|1gseqnxg1813:4251841:544:;:77mvon
3.cv2将其重命名为aeoeue腾讯云开发者社区cv2将其重命名为ae oe ue 、、、 转换本身在cv2中运行良好,但遗憾的是,许多文档(PDF)名称包含德语元音(ä,ö,ü),而PNG最终具有特殊字符。我想将文档标题中的所有这些字符(ä,ö,ü)替换为ae,oe,ue。 我如何调整我的代码来实现这一点呢?我有什么选择?也许有一种方法可以在转换之前重命名文档(PDF)jvzquC41enuvf7ygpekov7hqo1jfxnqqrgx0kwkqtogukxs1ex8&G>*D2'>7'N:':7+C8.J;':=&:M*G7'?2'KI'G7+:2.=F'G:&DA*DCck&49tg'46vg6fum