【C/C++语言入门篇】系列（13）-- 文件操作【中篇】

原文链接：http://masefee.blog.51cto.com/1737284/813997

如需转载请联系听云College团队成员小尹邮箱：yinhy#tingyun.com

二、读写字符串

C语言为从文件中读写字符串提供了2个函数：

char* __cdecl fgets( char* _Buf, int _MaxCount, FILE* _File );

参数一：要从文件中读入字符串的存放空间。

参数二：最大读取字节数。

参数三：文件指针。

返回值：返回读入的字符串指针。

int __cdecl fputs( const char* _Str, FILE* _File );

参数一：要写入文件的字符串

参数二：文件指针

返回值：失败或成功，0表示成功，其它表示失败。

先来看字符串读取：

#include <stdio.h>
 
int main( void )
{
    char   szInput[ 32 ] = { 0 };
    char* pRet = NULL;
 
    FILE* pReadFile = fopen( "E://mytest.txt", "r" );   // 打开文件
    if ( pReadFile == NULL )
        return 0;
 
    pRet = fgets( szInput, 32, pReadFile );    // 从文件中读取一个字符串到szInput数组中
 
    fclose( pReadFile );     // 关闭文件
    return 0;
}

其它函数不说了，这里只说fgets函数，第二个参数传的是32，实际只能从文件中读取31个字符，因为fgets函数内部会将最后一个字符置为'/0', 表示字符串结束。那么我们可以看看fgets函数的内部原理，我这里写写伪代码，为了更清晰的表现出来：

char*  fgets( char* dst, int maxcount, FILE* file )
{
    char ch;
    while( --maxcount )
    {
         ch = readFromFile();
         if ( ( *dst++ =  ch ) == '/n' )
             break;
    }
    *dst = 0;   // 赋值为'/0'
     return dst;
}

红色部分是计数，蓝色部分是关键，如果最大读取字节数量足以读到换行，将停止读取字符，然后阶数本字符串，然后返回。

明白了fgets函数，fputs函数就简单了：

#include <stdio.h> 
int main( void )
{
    char szOutput[ 32 ] = "masefee/nhello";
 
    FILE* pWriteFile = fopen( "E://mytest.txt", "w" );   // 打开文件
    if ( pWriteFile == NULL )
        return 0;
 
    fputs( szOutput, pWriteFile );    // 写入一个字符串到文件
 
    fclose( pWriteFile );     // 关闭文件
    return 0;
}

这里我也专门为字符数组里增加了一个换行符，写入字符串的时候并不会因为换行符而只写换行符前面的字符，同时在fputs内部会求第一个参数的长度strlen( Str ); 然后再写入这么一个长度的字符串到文件。

到这里又得提醒一点，即便是文件里面含有'/0'（ASCII码为0的字符）。fgets函数同样会一直读取到换行符或者读取规定的字符个数（此字符个数小于一行字符数）。虽然是读了一行，中间因为有0，因此字符串被截断，读出来的字符串并没有一行，只有0前面的所有字符。这里大家需要注意。同时fputs函数会以0结束写入文件，这是跟通常情况一样的，可以不用关心。

三、格式化数据读写

C语言既然有printf、scanf，那么同样也有文件操作的格式化函数：

int __cdecl fprintf( FILE* _File, const char* _Format, ... );
int __cdecl fscanf( FILE* _File, const char* _Format, ... );

这两个函数跟printf和scanf的用法非常相似，只是这里输入输出是关于文件的。

直接贴代码：

#include <stdio.h>
typedef struct SStudent
{
    int   number;
    char  name[ 11 ];
}Student;
 
int main( void )
{
    Student stu;
    FILE* pReadFile = fopen( "E://mytest.txt", "r" );   // 打开文件
    if ( pReadFile == NULL )
        return 0;
    
    fscanf( pReadFile, "%d%s", &stu.number, &stu.name );
    fclose( pReadFile );     // 关闭文件
    return 0;
}

我定义了一个结构体，里面一个学号，一个姓名。然后打开文件，读取数据到stu结构体变量中。假如文件中是：

345 masefee

346 Tim

然后读到stu结构体变量中，number为345，name为"masefee"。

fscanf读取数据是以空格、制表符、换行符进行分割的，我们可以这样来填充结构体。

再来看fprintf：

#include <stdio.h>
 
typedef struct SStudent
{
    int   number;
    char  name[ 11 ];
}Student;
 
int main( void )
{
    Student stu;
 
    FILE* pWriteFile = fopen( "E://mytest.txt", "w" );   // 打开文件
    if ( pWriteFile == NULL )
        return 0;
 
    stu.number = 100;
    strcpy( stu.name, "masefee" );
 
    fprintf( pWriteFile, "%d    %s", stu.number, stu.name );
 
    fclose( pWriteFile );     // 关闭文件
    return 0;
}

此程序将把结构体stu的内容写到文件里，注意这里的name不会把结束符'/0'写到文件里。

好了，说到这里，上面几个基本的文件操作函数已经写完了，我只是使用了"r"和"w"两种方式，其它方式你可以自行测试，也没有什么特别的。如果你是用上面的函数去读取二进制序列，也是没有错的，只不过你更不好控制而已。至于和"+"组合也没有什么特别的，无非就是在文件尾部追加，原理一样，大家可以自行测试。

四、文件数据块读写

同样C语言也提供了两个函数：

size_t __cdecl fwrite
(
const void *buffer,  // 要写入文件的数据块
size_t size,             // 写入文件的字节数
size_t count,           // 写入count个size大小的数据
FILE *stream           // 文件指针
);
 
size_t __cdecl fread
(
void * _DstBuf,            // 存放从文件读出来的数据
size_t _ElementSize,   // 读取字节数
size_t _Count,             // 读入次数
FILE * _File                  // 文件指针
);
 
先看看fwrite函数：
#include <stdio.h>
 
typedef struct SStudent
{
    int   number;
    char  name[ 12 ];
}Student;
 
int main( void )
{
    Student stu;
 
    FILE* pWriteFile = fopen( "E://mytest.txt", "w" );   // 打开文件
    if ( pWriteFile == NULL )
        return 0;
 
    stu.number = 10000;
    strcpy( stu.name, "masefee" );
 
    fwrite( &stu, sizeof( stu ), 1, pWriteFile );
 
    fclose( pWriteFile );     // 关闭文件
    return 0;
}

这样写入文件后，mytest.txt的内容为：

' masefee 烫烫

你可能会疑惑，为什么会有乱码？而且还有可恶的“烫”字。原因很简单，fwrite函数是以数据块的形式写数据到文件的，比如这里的stu结构体变量，我们将它整块写入文件，一共16字节，因此上面的乱码对应的就是stu结构体变量在内存中的存放形式，number占4字节，name占12字节，具体的数值是：

10 27 00 00 6d 61 73 65 66 65 65 00 cc cc cc cc

10000 "masefee" 烫烫

因为我们在为name拷贝字符串时，并没有将name的所有字符清零，因此系统默认初识化为0xcc，为什么初始化为0xcc，之前我应该提过，主要是这个0xcc是汇编中断指令的机器码，主要防止访问越解释，进行中断报错。而0xcccc就是中文编码的“烫”字。

最后面的两个“烫”还不能省略，因为我们是以块写入文件的，如果去掉4个cc，那么将没有16字节，如果有多个结构体变量的数据一块儿写到文件中时，结构体的数据对齐是非常重要的，否则将读写越界，跟内存一样。这里就好比内存的一个映射。

至于为什么会出现乱码，是因为超过可现实ASCII码值，看上去就是乱的，其实数据还是正常的。

理解了fwrite函数后，fread函数就简单了，由于篇幅原因我这里只写关键：

Student stu_out;
fread( &stu_out, sizeof( Student ), 1, pReadFile );

这样就能填充好stu_out结构体变量，我想你已经体会到了数据块读写时，数据对齐的重要性了。在游戏的资源包，就是采用的数据块的存储形式，同时bmp、jpg、exe、dll等文件都是由很多个数据块，通常是结构体的形式直接写入文件的，这样文件头记录了很多偏移，很多大小等就显得非常重要了。

最后，我直接写了一个实例，就是简单的打包，解包程序。可以将多个文件放置到一个包文件里，这个包是二进制包。基本的功能已经实现，只需要添加比如压缩，界面等优化工作了。我初步测试了一下是可以成功打包解包的，也没有太多的条件检查和效率考虑，本文重在解释文件操作的灵活性和重要性。好了，直接上代码吧：

#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 
 
typedef unsigned int  uint; 
typedef unsigned char byte;            
 
// 包文件中最大可容纳的文件个数 
#define MAX_FILE_COUNT 10 
 
// 全局包文件指针 
FILE*  g_pMasFile = NULL; 
 
// 资源包文件头结构 
typedef struct SMaseFileHeader 
{ 
    uint  uFileFlag;       // 包文件头标记: 'MASE' 
    uint  uFileCount;      // 包内文件个数 
    uint  uFileListOfs;    // 文件列表偏移 
    uint  uMaxFileCount;   // 最大子文件个数 
    uint  uFileSize;       // 包文件的大小 
}MaseHeader; 
 
// 包内文件信息结构 
typedef struct SFilesMessage 
{ 
    uint  uFileOfs;          // 本文件在包内的偏移 
    uint  uFileSize;         // 本文件的大小 
    char  szFileName[ 260 ]; // 本文件的路径 
}FilesMsg; 
 
 
// 打开包文件 
int OpenMasFile( const char* path, const byte onlyOpen ) 
{ 
    uint       uWriteCount;       // 写入文件信息次数； 
    byte       bIsNew = 0;        // 是否新建的 
    MaseHeader header;            // 文件头结构定义 
    FilesMsg   msg; 
 
    g_pMasFile = fopen( path, "rb" );  // 用来判断是否存在 
    if ( g_pMasFile == NULL )          // 这里就没有用windows API了 
    { 
        if ( onlyOpen == 1 )           // 只打开不新建 
            return -1; 
 
        bIsNew = 1; 
        g_pMasFile = fopen( path, "wb" ); 
        if ( g_pMasFile == NULL ) 
            return -1; 
    } 
 
    // 先关闭，然后在用"rb+"方式打开 
    fclose( g_pMasFile ); 
 
    g_pMasFile = fopen( path, "rb+" ); 
    if ( g_pMasFile == NULL ) 
        return -1; 
 
    if ( bIsNew == 1 ) // 新建的文件 
    { 
        header.uFileFlag     = 'ESAM'; 
        header.uFileCount    = 0; 
        header.uFileListOfs  = sizeof( MaseHeader ); // 紧跟着就是文件列表 
        header.uMaxFileCount = MAX_FILE_COUNT; 
        header.uFileSize     = sizeof( MaseHeader )  
                               + ( MAX_FILE_COUNT * sizeof( FilesMsg ) ); 
 
        // 写入头信息 
        fwrite( &header, sizeof( MaseHeader ), 1, g_pMasFile ); 
 
        memset( &msg, 0, sizeof( FilesMsg ) ); 
        uWriteCount = MAX_FILE_COUNT; 
 
        // 写入文件列表用0占位 
        while( uWriteCount-- ) 
            fwrite( &msg, sizeof( FilesMsg ), 1, g_pMasFile ); 
    } 
    else  // 文件存在 
    { 
        // 则读取头文件信息 
        fread( &header, sizeof( MaseHeader ), 1, g_pMasFile ); 
    } 
 
    // 检查文件头标记 
    if ( header.uFileFlag != 'ESAM' ) 
    { 
        fclose( g_pMasFile ); 
        return -1; 
    } 
 
    // 检查数据是否完整 
    if ( header.uMaxFileCount != MAX_FILE_COUNT ) 
    { 
        fclose( g_pMasFile ); 
        return -1; 
    } 
 
    return 0; 
} 
 
// 写文件到包里 
int WriteFileToPak( const char* path ) 
{ 
    FilesMsg   fileMsg;      // 此文件的文件信息结构 
    MaseHeader header;       // 包文件头结构定义 
    uint       uFileSize; 
    uint       uFileListEndOfs; 
    byte*      pBuff; 
    FILE*      pFile = NULL; 
 
    if ( g_pMasFile == NULL ) 
        return -1; 
 
    memset( &fileMsg, 0, sizeof( FilesMsg ) ); 
    fseek( g_pMasFile, 0, SEEK_SET ); 
 
    // 则读取头文件信息 
    fread( &header, sizeof( MaseHeader ), 1, g_pMasFile ); 
 
    uFileListEndOfs = header.uFileCount * sizeof( FilesMsg ) + header.uFileListOfs; 
 
    pFile = fopen( path, "rb" ); 
    if ( pFile == NULL ) 
        return -1; 
 
    fseek( pFile, 0, SEEK_END ); 
    uFileSize = ftell( pFile ); 
    fseek( pFile, 0, SEEK_SET ); 
 
    // 文件名长度不能超过260 
    strcpy( fileMsg.szFileName, path ); 
    fileMsg.uFileOfs  = header.uFileSize; 
    fileMsg.uFileSize = uFileSize; 
 
    // 写入文件信息 
    // 将文件指针定位到uFileListEndOfs处，以便写入新的文件信息结构 
    fseek( g_pMasFile, uFileListEndOfs, SEEK_SET ); 
    fwrite( &fileMsg, sizeof( FilesMsg ), 1, g_pMasFile ); 
 
    // 申请空间 
    pBuff = ( byte* )malloc( uFileSize ); 
    fread( pBuff, uFileSize, 1, pFile ); 
 
    // 写数据到包文件里 
    fseek( g_pMasFile, header.uFileSize, SEEK_SET ); 
    fwrite( pBuff, uFileSize, 1, g_pMasFile ); 
 
    // 释放内存 
    free( pBuff ); 
 
    // 重新填充header 
    header.uFileCount += 1; 
    header.uFileSize  += uFileSize; 
 
    fseek( g_pMasFile, 0, SEEK_SET ); 
 
    // 重新写入包文件头 
    fwrite( &header, sizeof( MaseHeader ), 1, g_pMasFile ); 
 
    return 0; 
} 
 
// 从包文件里读数据 
int ReadFileFromPak( const FilesMsg msg, byte* _dst ) 
{ 
    if ( g_pMasFile == NULL ) 
        return -1; 
 
    fseek( g_pMasFile, msg.uFileOfs, SEEK_SET ); 
    fread( _dst, msg.uFileSize, 1, g_pMasFile ); 
 
    return 0; 
} 
 
// 获取包中某个文件的信息 
int GetFileMessage( const char* path, FilesMsg* msg ) 
{ 
    FilesMsg   fileMsg;      // 此文件的文件信息结构 
    MaseHeader header;       // 包头结构 
    uint       uFileCount;   // 文件个数 
 
    if ( g_pMasFile == NULL || msg == NULL ) 
        return -1; 
 
    // 则读取头文件信息 
    fseek( g_pMasFile, 0, SEEK_SET ); 
    fread( &header, sizeof( MaseHeader ), 1, g_pMasFile ); 
 
    uFileCount = header.uFileCount; 
    while ( uFileCount-- ) 
    { 
        fread( &fileMsg, sizeof( FilesMsg ), 1, g_pMasFile ); 
 
        // 判断是否是要获取的文件 
        if ( stricmp( fileMsg.szFileName, path ) == 0 ) 
        { 
            *msg = fileMsg; 
            return 0; 
        } 
    } 
 
    return -1; 
} 
 
// 关闭包文件 
int CloseMasFile( void ) 
{ 
    if ( g_pMasFile == NULL ) 
        return -1; 
 
    fclose( g_pMasFile ); 
    g_pMasFile = NULL; 
 
    return 0; 
} 
 
上面已经将整个打包解包接口给实现了，我自定义文件扩展名为.mase, 这个随意哈，文件头结构上面已经很清晰了。由于篇幅的原因，这里就不一一解说了，我贴了很多注释。应该能够看懂的。
 
有了上面的接口，我们就可以来操作这个包文件了，先是看怎么写入：
 
int main( void ) 
{ 
    int ret; 
 
    ret = OpenMasFile( "E://PhotoPak.mase", 0 ); 
    if ( ret == -1 ) 
        goto __exit; 
 
    WriteFileToPak( "E://大山.jpg" ); 
    WriteFileToPak( "E://海水.bmp" ); 
    WriteFileToPak( "E://查看.exe" ); 
    WriteFileToPak( "E://加载.dll" ); 
    WriteFileToPak( "E://说明.txt" ); 
 
__exit: 
    CloseMasFile(); 
    return 0; 
}

在这段代码里，演示了怎么将文件给写进包文件，首先是创建了一个PhotoPak.mase包，然后是向里面写入了：大山.jpg、海水.bmp、查看.exe、加载.dll、说明.txt这么几个文件，注意我的接口里面都是用二进制打开的，因为如果是非二进制打开的话，写入的时候会插入一些物理字符（比如回车符（ASCII：0x0D( 1310 )）等）。那样插入进去后，然后在解包时再采用非二进制方式写入文件就不是原来的文件了，这点大家要注意。

想阅读更多技术文章，请访问听云技术博客，访问听云官方网站感受更多应用性能优化魔力。