百度算法研究:针对空间相似度切分算法及主特征框架切分

  • A+
所属分类:百度算法
轩辕SEO优化

首先说下,我们为什么要切分?

说到切分(segmentation),大多数人最容易想到的就是百度算法中的中文分词。作为没有天然空格区分的语言,切词可以帮助计算机去索引文章,从而便于信息检索等方面。该部分主要用到了分词的一个方面:降低搜索引擎的性能消耗。我们常用的汉字有5000多个,常用词组是几十万个。在倒排索引中,如果用每个字做索引的话,那么会造成每个字对应的拉链非常长。所以我们一般会用词组来代替单个汉字建立索引。除此,切词更重要的一个功能是帮助计算机理解文字,在这个层次上,切词是不分语言的,任何一个语言,涉及到计算机去“理解”的时候,首先要做的,就是先去切分并在一定程度上消除歧义。这是因为,我们知道计算机本身擅长做的工作就是匹配计算。假设我们可以把每个字词都指向一个语义,当输入一个句子的时候,每个字对应语义的累加要弱于词组语义的累加(因为单独用字语义累加的时候,有个潜在的假设是字和字之间是独立的),现在引入切分目的就是勾勒出字与字之间的关系,从而让计算机更好的理解。

百度算法研究:针对空间相似度切分算法及主特征框架切分

分词算法

切分的难点在哪里?

简单的讲,评价切分效果可以从三个层次来判定:切分边界,切分片段,整个句子切分结果是否正确。切分边界是指:相邻的token(在中文切分中token可以认为是汉字,在英文中可以认为是单词)之间是否应该被切开;句子级别是指,整个句子的切分结果是不是完全准确。切分片段是介于二者之间一种评估策略: 1. 切分结果片段中是否召回了需要切出的片段(recall); 2. 切分的结果中是否有错误的切分结果(precision)。下面我们从切分算法两个重要的考量标准来阐述切分的难点,即新词识别和歧义性的处理。

新词:切分算法在召回方向上的难题主要为歧义现象和新词的出现。如果一个切分算法无法识别新词从而导致其未召回,最后会影响计算机对该切分句子的理解。前面我们有讲,字到词的过程可以让计算机“假装”理解这个词的意思。比如最近的一个人名新词“位菊月”,如果被切分算法切散后,计算机很难理解这个片段的含义,从而导致在诸如机器翻译等应用中无法准确进行处理。

歧义性:切分算法要求解决切分片段歧义性,切分结果合理。汉字作为表示中文信息的载体,假设每个字/词表示的信息有个上限,假设每种语言总体的信息量接近,由于常用字数有限,这些汉字之间就要有较多的组合形式来成词并表达不同的语义。如果一个汉字可以同时作为2个词的部分,当这2个词按序出现时,就潜在包含了歧义。目前歧义主要分为2种:交叉型歧义,即相邻歧义片段之间有若干token重复,比如“长春市长春药店”,“长春市”与“市长”“长春”与“春药”都是交叉型歧义片段。该歧义现象存在于任何语言的切分过程,比如针对英文,“new york times square”中的”new york times” 和”times square”;还有一种歧义为覆盖型歧义,即token序列在不同语义下需要拆分开或合并在一起,比如“他马上就来”和“他从马上下来”,对后者来讲,切分为“马上”时则导致“从马背上”的意思被“立刻的”意思所覆盖。

百度算法研究:针对空间相似度切分算法及主特征框架切分

百度分词算法

除此,切分算法在应用中还要具备不错的性能,在引入统计学习算法时,还要考虑人力在标注语料上面的成本。随着时间的发展,语言也会进行相应的变化,只是在不同的领域会按照不同的速度演变着。因此,切分算法同样需要与时俱进的优化。比如添加更多的词进入词典,更新重建语言模型(Language Model), 对于某些基于判别式(Discriminative model)切分的方法,比如CRFs,需要不定期更新人工标注语料来使得切分算法适应处理当前语料等等。

百度算法研究:针对空间相似度切分算法及主特征框架切分

针对空间相似度切分算法及主特征框架切分

切分算法作为一个基础的研究方向一直是很多科研人员努力奋斗方向,并产生出大量优秀的算法。在下面的章节中,我们简单的介绍一些主流的、在工程中有着一定应用的切分方法。

切分的主流方法简介

在介绍我们的切分方法之前,我们先从2个方面来简单介绍现有主流切分算法:即基于规则的切分方法和一些统计切分模型。

以上就是关于【SEO培训公司:搜索引擎一直认为用户体验的价值高SEO】的详细讲解,本文由轩辕SEO培训(www.seo8o.com)收集于网络不代表本站观点,如果您还想了解更多关于SEO培训和SEO培训机构的文章,请继续查看【网站优化培训机构和黑帽SEO培训】的其它文章,请关注轩辕SEO培训中心官网,(QQ:2625133172)

weinxin
轩辕SEO教主
扫二维码了解SEO优化知识
轩辕SEO培训理念

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: