摘要:按照某種規則,將字符存儲到計算機中,稱為編碼。字符編碼就是一套自然語言的字符與二進制數之間的對應規則。字符集字符集也叫編碼表。字符集編碼系統為表達任意語言的任意字符而設計,是業界的一種標準,也稱為統一碼標準萬國碼。
2.1 字符編碼和字符集
字符編碼
計算機中儲存的信息都是用二進制數表示的,而我們在屏幕上看到的數字、英文、標點符號、漢字等字符是二進制 數轉換之后的結果。按照某種規則,將字符存儲到計算機中,稱為編碼 。反之,將存儲在計算機中的二進制數按照 某種規則解析顯示出來,稱為解碼 。比如說,按照A規則存儲,同樣按照A規則解析,那么就能顯示正確的文本f符 號。反之,按照A規則存儲,再按照B規則解析,就會導致亂碼現象。 字符編碼 Character?Encoding : 就是一套自然語言的字符與二進制數之間的對應規則。 字符集
字符集 Charset :也叫編碼表。是一個系統支持的所有字符的集合,包括各國家文字、標點符號、圖形符 號、數字等。
計算機要準確的存儲和識別各種字符集符號,需要進行字符編碼,一套字符集必然至少有一套字符編碼。常見字符 集有ASCII字符集、GBK字符集、Unicode字符集等。
????????} ????????//?釋放資源 ????????br.close(); ? ????????//?遍歷map集合 ????????for?(int?i?=?1;?i?<=?lineMap.size();?i++)?{ ????????????String?key?=?String.valueOf(i); ????????????//?獲取map中文本 ????????????String?value?=?lineMap.get(key); ?????????? //?寫出拼接文本 ?? ????????????bw.write(key+"."+value); ?????????? //?寫出換行 ?? ????????????bw.newLine(); ????????} //?釋放資源? ??????? ????????bw.close(); ????} }
可見,當指定了編碼,它所對應的字符集自然就指定了,所以編碼才是我們最終要關心的。
ASCII字符集 : ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基于拉丁 字母的一套電腦編碼系統,用于顯示現代英語,主要包括控制字符(回車鍵、退格、換行鍵等)和可顯 示字符(英文大小寫字符、阿拉伯數字和西文符號)。 基本的ASCII字符集,使用7位(bits)表示一個字符,共128字符。ASCII的擴展字符集使用8位(bits) 表示一個字符,共256字符,方便支持歐洲常用字符。 ISO-8859-1字符集: 拉丁碼表,別名Latin-1,用于顯示歐洲使用的語言,包括荷蘭、丹麥、德語、意大利語、西班牙語等。 ISO-5559-1使用單字節編碼,兼容ASCII編碼。 GBxxx字符集: GB就是國標的意思,是為了顯示中文而設計的一套字符集。 GB2312:簡體中文碼表。一個小于127的字符的意義與原來相同。但兩個大于127的字符連在一起時, 就表示一個漢字,這樣大約可以組合了包含7000多個簡體漢字,此外數學符號、羅馬希臘的字母、日文 的假名們都編進去了,連在ASCII里本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼,這 就是常說的"全角"字符,而原來在127號以下的那些就叫"半角"字符了。 GBK:最常用的中文碼表。是在GB2312標準基礎上的擴展規范,使用了雙字節編碼方案,共收錄了 21003個漢字,完全兼容GB2312標準,同時支持繁體漢字以及日韓漢字等。 GB18030:最新的中文碼表。收錄漢字70244個,采用多字節編碼,每個字可以由1個、2個或4個字節 組成。支持中國國內少數民族的文字,同時支持繁體漢字以及日韓漢字等。 Unicode字符集 : Unicode編碼系統為表達任意語言的任意字符而設計,是業界的一種標準,也稱為統一碼、標準萬國 碼。 它最多使用4個字節的數字來表達每個字母、符號,或者文字。有三種編碼方案,UTF-8、UTF-16和UTF32。最為常用的UTF-8編碼。 UTF-8編碼,可以用來表示Unicode標準中任何字符,它是電子郵件、網頁及其他存儲或傳送文字的應用 中,優先采用的編碼。互聯網工程工作小組(IETF)要求所有互聯網協議都必須支持UTF-8編碼。所以, 我們開發Web應用,也要使用UTF-8編碼。它使用一至四個字節為每個字符編碼,編碼規則: 1. 128個US-ASCII字符,只需一個字節編碼。 2. 拉丁文等字符,需要二個字節編碼。 3. 大部分常用字(含中文),使用三個字節編碼。 4. 其他極少使用的Unicode輔助字符,使用四字節編碼。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/76237.html
摘要:用打開編碼的文件可以讀取默認編碼格式的文件讀取系統默認編碼中文會產生亂碼我是格式的文本 用IDE打開GBK編碼的文件package com.itheima.demo03.ReverseStream; import java.io.FileReader;import java.io.IOException; /* FileReader可以讀取IDE默認編碼格式(UTF-8)的文件 Fil...
摘要:只有徹底理解編碼,遇到編碼問題才知道問題的根源在哪里,并找到對應的解決辦法。花一點時間去徹底消化并理解他,長遠來看,對以后工作效率的提升是非常值得的。比如中國就制定了等編碼規范。 只要涉及編程工作,編碼是永遠繞不開的問題。只有徹底理解編碼,遇到編碼問題才知道問題的根源在哪里,并找到對應的解決辦法。花一點時間去徹底消化并理解他,長遠來看,對以后工作效率的提升是非常值得的。下面是我對編碼的...
摘要:它是按以下方式工作的。對已填充的二進制進行編碼時,任何完全填充不包括原始數組中的位的位組都有特殊的第個符號表示。剩下的兩個位組都是填充碼,用來表示。最新的瀏覽器提供了自動生成的方法和希望此文可以幫助你完全理解。 HTTP將BASE64-編碼用于基本認證和摘要認證,在幾種HTTP擴展中也使用了該編碼。 Base-64編碼保證了二進制數據的安全 Base-64編碼可以將任意一組字節轉換為較...
摘要:大家好,我是樂字節的小樂。需要注意的是很多流操作本身就會返回一個流,所以多個操作可以直接連接起來,如下圖這樣,操作可以進行鏈式調用,并且并行流還可以實現數據流并行處理操作。為集合創建并行流。 大家好,我是樂字節的小樂。說起流,我們會聯想到手機、電腦組裝流水線,物流倉庫商品包裝流水線等等,如果把手機 ,電腦,包裹看做最終結果的話,那么加工商品前的各種零部件就可以看做數據源,而中間一系列的...
閱讀 4675·2021-09-22 16:06
閱讀 2074·2021-09-22 15:22
閱讀 1410·2019-08-30 15:54
閱讀 2512·2019-08-30 15:44
閱讀 2341·2019-08-29 16:31
閱讀 2010·2019-08-29 16:26
閱讀 2328·2019-08-29 12:41
閱讀 731·2019-08-29 12:22