Skip to content

Latest commit

 

History

History
60 lines (37 loc) · 2.17 KB

deburr.md

File metadata and controls

60 lines (37 loc) · 2.17 KB

lodash源码分析之deburr

本文为读 lodash 源码的第三百一十八篇,后续文章会更新到这个仓库中,欢迎 star:pocket-lodash

gitbook也会同步仓库的更新,gitbook地址:pocket-lodash

依赖

import deburrLetter from './.internal/deburrLetter.js'

《lodash源码分析之deburrLetter》

源码分析

转换字符串string拉丁语-1补充字母拉丁语扩展字母-A 为基本的拉丁字母,并且去除组合变音标记。

例如:

deburr('déjà vu') // => 'deja vu'

源码如下:

const reLatin = /[\xc0-\xd6\xd8-\xf6\xf8-\xff\u0100-\u017f]/g

const rsComboMarksRange = '\\u0300-\\u036f'
const reComboHalfMarksRange = '\\ufe20-\\ufe2f'
const rsComboSymbolsRange = '\\u20d0-\\u20ff'
const rsComboMarksExtendedRange = '\\u1ab0-\\u1aff'
const rsComboMarksSupplementRange = '\\u1dc0-\\u1dff'
const rsComboRange = rsComboMarksRange + reComboHalfMarksRange + rsComboSymbolsRange + rsComboMarksExtendedRange + rsComboMarksSupplementRange

const rsCombo = `[${rsComboRange}]`
const reComboMark = RegExp(rsCombo, 'g')

function deburr(string) {
  return string && string.replace(reLatin, deburrLetter).replace(reComboMark, '')
}

reLatin 用来匹配拉丁字母的 unicode 编码,但是数学运算符除外。

reComboMark 用来匹配组合变音标记。

string.replace(reLatin, deburrLetter) 将匹配到的 unicode 编码,使用 deburrLetter 取得拉丁基本字母替换。

replace(reComboMark, '') 是将组合变量标记去除。

License

署名-非商业性使用-禁止演绎 4.0 国际 (CC BY-NC-ND 4.0)

最后,所有文章都会同步发送到微信公众号上,欢迎关注,欢迎提意见:

作者:对角另一面