SEO培训之中文分词算法

  • A+
所属分类:百度算法
轩辕SEO优化

本文热词:SEO算法,百度算法

中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,接下来就让轩辕给大家详细讲解【SEO培训之中文分词算法】。

SEO培训之中文分词算法

中文分词算法

分词技术是中文搜索引擎特有的步骤

我们知道,在英文的行文中,单词之间是以空格作为自然分界符的(这决定了做英文Google SEO的优势),而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,SEO算法的中文比之英文要复杂的多、困难的多。

目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法:

一、基于字典匹配的分词方法

这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式:

1.正向最大匹配法(由左到右的方向);

2.逆向最大匹配法(由右到左的方向);

3.最少切分(使每一句中切出的词数最小);

4.双向最大匹配法(进行由左到右、由右到左两次扫描)

SEO培训之中文分词算法

通常,搜索引擎会采用多种方式组合使用。但这种方式也同样给搜索引擎带来了难题,比如对于歧义的处理,为了提高匹配的准确率,搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的搜索引擎也在不断进步。

SEO培训之中文分词算法

SEO培训之中文分词算法

二、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

举例:“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。

这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组。

中文分词技术的应用:

分词的准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

对于我们SEO优化工作者来说,中文分词的原理和方法是关键词分析必须要掌握的,这样才能确保将我们的网站设计得让搜索引擎容易确定它的主题相关性。

以上就是关于【SEO培训之中文分词算法】的详细讲解,本文由轩辕SEO培训(www.seo8o.com)收集于网络不代表本站观点,如果您还想了解更多关于SEO培训和SEO培训机构的文章,请点击查看【网站优化培训机构和黑帽SEO培训】的其它文章,请关注轩辕SEO培训中心官网,(QQ:2625133172)

weinxin
轩辕SEO教主
扫二维码了解SEO优化知识
轩辕SEO培训理念

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: