摘要:使用編碼,該編碼使用一個比特的編碼單元來表示大部分常見的字符,使用兩個代碼單元表示不常用的字符高位編碼單元。因此返回值可能與字符串中實際的字符數量不相同。
String.length:
該屬性返回字符串中字符編碼單元的數量。JavaScript 使用 UTF-16 編碼,該編碼使用一個 16 比特的編碼單元來表示大部分常見的字符,使用兩個代碼單元表示不常用的字符(高位編碼單元)。因此 length 返回值可能與字符串中實際的字符數量不相同。MDN => String.length
高位編碼單元 是使用一對(低位編碼(lower valued))代理偽字符("surrogate" pseudo-characters)來表示,從而構成一個真正的字符。String.prototype.charCodeAt()
function strLen ( str ) { var len = 0, ret = 0, i = 0, code, nextCode; if ( str == null ) return ret; str = String( str ); len = str.length; if ( len == 0 ) return ret; for (;i < len; i++ ) { code = str[i].charCodeAt(0); if ( code >= 0xD800 && code <= 0xDBFF ) { nextCode = str[i + 1].charCodeAt(0); if ( nextCode >= 0xDC00 && nextCode <= 0xDFFF ) i++; } ret++; } return ret; } var str = "?"; str.length; // 2 strLen( str ); // 1
// ES6方法
function codePointLength (text) { var result = text.match(/[sS]/gu); return result ? result.length : 0; }
編譯后:
function codePointLength (text) { var result = text.match(/(?:[