Byte-Pair-Encoding对训练数据进行切分
BPE(byte-pair-encoding)基于pre-tokenization对训练数据进行切分。Pre-tokenization可以使用简单的空格分割,比如GPT2、RoBERTa;可以使用规则分词方法,如XLM、FlauBERT,GPT;进行完pre-tokenization之后,需要对词进行频率统计,之后会将一批symbol作为基础vocabulary,根据之前的词频统计结果或者别的规则方法作为合并方法对symbol进行合并,并扩充入vocabulary。如此循环直至词表大小达到预先设置值或者合并结束。
在SEO排名中应用
我们前面讲到,网站的目录结构的层级对SEO的影响很大,目录结构越简单,搜索引擎访问就越容易。对百度而言,它给予网站的域名、目录和页面的权重是不一样的。当参与关键词排名竞争的时候,域名级的链接在百度是最具排名优势的,目录级其次,页面级则最低。因此,当我们所关心的关键词,排名前十的大多数是页面级的站点在竞争,那我们就可以在网站之下建立一个目录来参与竞争;如果前十名都是目录级,那我们就需要用域名级来争取排名;如果前十名都是域名级,那你就要拼网站的权重和质量了。
下一篇:最后一页