From c68f4ce40c6a299ab012a85b2be14d910ccf5b0b Mon Sep 17 00:00:00 2001 From: AlkaidLu <1403805367@qq.com> Date: Sun, 12 Apr 2026 11:53:23 +0800 Subject: [PATCH] docs: refine Chinese segmentation examples --- .../1.\345\210\206\350\257\215/1.\345\210\206\350\257\215.md" | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git "a/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\345\237\272\347\241\200/1.\345\210\206\350\257\215/1.\345\210\206\350\257\215.md" "b/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\345\237\272\347\241\200/1.\345\210\206\350\257\215/1.\345\210\206\350\257\215.md" index c512203..e813d51 100644 --- "a/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\345\237\272\347\241\200/1.\345\210\206\350\257\215/1.\345\210\206\350\257\215.md" +++ "b/01.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\345\237\272\347\241\200/1.\345\210\206\350\257\215/1.\345\210\206\350\257\215.md" @@ -17,7 +17,7 @@ 不同的切分结果会有不同的含义,这又包含如下几种情况 1. **组合型歧义**:分词粒度不同导致的不同切分结果。比如“中华人民共和国”,粗粒度的分词结果为“中华人民共和国”,细粒度的分词结果为“中华/人民/共和国”。这种问题需要根据使用场景来选择。在文本分类,情感分析等文本分析场景下,粗粒度划分较好。而在搜索引擎场景下,为了保证recall,细粒度的划分则较好。jieba分词可以根据用户选择的模式,输出粗粒度或者细粒度的分词结果,十分灵活。 另外,有时候汉字串AB中,AB A B可以同时成词,这个时候也容易产生组合型歧义。比如“他/将/来/网商银行”,“他/将来/想/应聘/网商银行”。这需要通过整句话来区分。 组合型歧义描述的是AB A B均可以同时成词的汉字串,它是可以预测的,故也有专家称之为“固有型歧义” -2. **交集型歧义**:不同切分结果共用相同的字,前后组合的不同导致不同的切分结果。比如“商务处女干事”,可以划分为“商务处/女干事”,也可以划分为“商务/处女/干事”。这也需要通过整句话来区分。交集型歧义前后组合,变化很多,难以预测,故也有专家称之为“偶发型歧义”。 +2. **交集型歧义**:不同切分结果共用相同的字,前后组合的不同导致不同的切分结果。比如“南京市长江大桥”,可以划分为“南京市/长江大桥”,也可以划分为“南京/市长/江大桥”。这也需要通过整句话来区分。交集型歧义前后组合,变化很多,难以预测,故也有专家称之为“偶发型歧义”。 3. **真歧义**:本身语法或语义没有问题,即使人工切分也会产生歧义。比如“下雨天留客天天留人不留”,可以划分为“下雨天/留客天/天留/人不留”,也可以划分为“下雨天/留客天/天留人不/留”。此时通过整句话还没法切分,只能通过上下文语境来进行切分。如果是不想留客,则切分为前一个。否则切分为后一个。 有专家统计过,中文文本中的切分歧义出现频次为1.2次/100汉字,其中交集型歧义和组合型歧义占比为12:1。而对于真歧义,一般出现的概率不大。 @@ -50,7 +50,7 @@ **最大匹配法**主要分为三种: -1. **正向最大匹配法**,从左到右对语句进行匹配,匹配的词越长越好。比如“商务处女干事”,划分为“商务处/女干事”,而不是“商务/处女/干事”。这种方式切分会有歧义问题出现,比如“结婚和尚未结婚的同事”,会被划分为“结婚/和尚/未/结婚/的/同事”。 +1. **正向最大匹配法**,从左到右对语句进行匹配,匹配的词越长越好。比如“羽毛球拍卖完了”,可能会优先划分为“羽毛球拍/卖完了”,而不是“羽毛球/拍卖/完了”。这种方式切分会有歧义问题出现,比如“结婚和尚未结婚的同事”,会被划分为“结婚/和尚/未/结婚/的/同事”。 2. **逆向最大匹配法**,从右到左对语句进行匹配,同样也是匹配的词越长越好。比如“他从东经过我家”,划分为“他/从/东/经过/我家”。这种方式同样也会有歧义问题,比如“他们昨日本应该回来”,会被划分为“他们/昨/日本/应该/回来”。 3. **双向匹配分词**,则同时采用正向最大匹配和逆向最大匹配,选择二者分词结果中**词数较少者**。但这种方式同样会产生歧义问题,比如“他将来上海”,会被划分为“他/将来/上海”。由此可见,词数少也不一定划分就正确。