base64 介绍与 C++ 语言编码解码的实现

Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于2的6次方等于64，所以每6个位元为一个单元，对应某个可打印字符。三个字节有24个位元，对应于4个Base64单元，即3个字节需要用4个可打印字符来表示。它可用来作为电子邮件的传输编码。在Base64中的可打印字符包括字母A-Z、a-z、数字0-9 ，这样共有62个字符，此外两个可打印符号在不同的系统中而不同。一些如uuencode的其他编码方法，和之后binhex的版本使用不同的64字符集来代表6个二进制数字，但是它们不叫Base64。Base64常用于在通常处理文本数据的场合，表示、传输、存储一些二进制数据。

base64 编码法

在MIME格式的电子邮件中，base64可以用来将binary的字节序列数据编码成ASCII字符序列构成的文本。使用时，在传输编码方式中指定base64。使用的字符包括大小写字母各26个，加上10个数字，和加号「+」，斜杠「/」，一共64个字符，等号「=」用来作为后缀用途。

编码后的数据比原始数据略长，为原来的\frac{4}{3}。在电子邮件中，根据RFC-822规定，每76个字符，还需要加上一个回车换行。可以估算编码后数据长度大约为原长的135.1%。

转换的时候，将三个byte的数据，先后放入一个24bit的缓冲区中，先来的byte占高位。数据不足3byte的话，缓冲区中剩下的bit用0补足。然后，每次取出6（因为2^6=64）个bit，按照其值选择ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/中的字符作为编码后的输出。不断进行，直到全部输入数据转换完成。

如果最后剩下两个输入数据，在编码结果后加1个「=」；如果最后剩下一个输入数据，编码结果后加2个「=」；如果没有剩下任何数据，就什么都不要加，这样才可以保证资料还原的正确性。

base编码示例

编码"Man"

在此例中，Base64算法将三个字符编码为4个字符.

Base64索引表

如果要编码的字节数不能被3整除，最后会多出1个或2个字节，那么可以使用下面的方法进行处理：先使用0字节值在末尾补足，使其能够被3整除，然后再进行base64的编码。在编码后的base64文本后加上一个或两个'='号，代表补足的字节数。也就是说，当最后剩余一个八位字节(一个byte)时，最后一个6位的base64字节块有四位是0值，最后附加上两个等号；如果最后剩余两个八位字节(2个byte)时，最后一个6位的base字节块有两位是0值，最后附加一个等号。参考下表：

base64补码示意

base64 编码解码的 C++ 实现

首先,建立encode和decode对应关系表,为后面编码解码准备.

在函数 encodeAppend 和 decodeAppend 中,分别完成了三个字符转四个字符,与四个字符还原三个字符,这是base64编码法的核心部分.

base64Encode 和 base64Decode 为算法的调用部分,完成了数据的初始化,切割等. 由于在这里没有作数据有效性检查,所以此代码在遇到畸形数据时会崩溃,实际应用前应该加上数据检查相关代码.