分词技术,为什么我的语言栏总是不显示?

2022-02-04 10:08:44 百科大全 投稿:一盘搜百科
摘要汉语不分词,对于人类阅读方便,因为汉语词长1-3字居多,不分词明显信息密度高很多,其造成的歧义很低频分词技术。但汉语分词,对NLP(自然语言处理)友好,免去了机器分词这个步骤。我的建议是,在Unico

汉语不分词,对于人类阅读方便,因为汉语词长1-3字居多,不分词明显信息密度高很多,其造成的歧义很低频分词技术。但汉语分词,对NLP(自然语言处理)友好,免去了机器分词这个步骤。

分词技术,为什么我的语言栏总是不显示?插图

我的建议是,在Unicode里添加一个字符,叫做汉语分词符,在操作系统的UI设置上添加全局选项

1. 是否将分词符显示为空格

2. 分词用全角还是半角空格

然后,要求输入法候选栏必须显示分词空格。

如此一来,读者根据习惯空格显示与否都可以,但输入到文档里都是有的。如果万码奔腾的时代(或者再早)这样做了,这会给当时的NLP带来莫大便利。不过现在分词技术慢慢完善了,这样做的需求貌似不大,本文算个马后炮吧。

中文分词技术 搜索引擎

  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法。常用的几种机械分词方法如下:

  1)正向最大匹配法(由左到右的方向);

  2)逆向最大匹配法(由右到左的方向);

  3)最少切分(使每一句中切出的词数最小)。
  

2、基于理解的分词方法。

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。

3、基于统计的分词方法。
  

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。
  互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。
  因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

请问您要问的是什么呢?

声明:一盘搜百科所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系 88888@qq.com