软件编程经典培训实例 10、分配资源是否已正确释放

xilinxue | 当前状态：在线 总积分：16186 2026年可用积分：0 注册时间： 2008-06-26 最后登录时间： 2020-03-22 空间发短消息加为好友: 软件编程经典培训实例 10、分配资源是否已正确释放

xilinxue 发表于 2008/11/6 13:00:41 1683 查看 6 回复 [上一主题] [下一主题]

手机阅读

案例 1

在对接入网A产品的网管软件测试中，发现了一个WINDSOWS资源损耗的的问题：当网管软件运行几天后，WINDOWS总会出现“资源不够”的告警提示。如果网管软件不关掉再重新启动的话，就会出现WINDOWS资源完全耗尽的现象，最终网管系统反应很慢，无法正常工作。
从现象上可以判断出，网管软件存在隐蔽的内存泄露或资源不释放的问题，并且这种资源耗尽是一个缓慢的过程。如何定位这个问题呢？
定位这种问题可以利用WINDOWS中的一个系统资源监视工具。打开Windows的“附件/系统工具/资源状况”，这是一个系统资源、用户资源、和GDI资源的实时监视工具。
工具有了，那么如何发现导致不断消耗资源的特定操作呢？
首先和开发人员共同探讨，列出几个最可能消耗资源的操作和一些操作组合，这样就缩小了监视范围，避免没有范围的碰运气，否则如大海捞针。
监视前，首先重新启动WINDOWS，最好不运行其他的程序，打开“系统状况”这个监视工具，然后运行网管软件，记下此时的资源状况数据。
然后针对一个可疑的操作，快速大量地重复进行。这种重复性的操作可以利用QArun测试工具执行，QArun可以记录操作者的一次操作步骤，然后按照设定的次数重复操作。操作后，观察此时的资源状况，并记下此时的数据，与操作前的数据比较，如果操作前后的数据数据没有变化或变化很小，可排除此项操作，否则就可断定此项操作会引起资源耗尽。
对其它可疑的操作和操作组合重复以上过程。
通过以上的步骤，终于找出引起资源耗尽的罪魁祸首。分析相应部分的代码，发现引起资源耗尽原因有：内存泄露，画笔和画刷资源用完后未释放等。

1楼 0 0 回复

xilinxue   |   当前状态：在线

总积分：16186  2026年可用积分：0

注册时间： 2008-06-26

最后登录时间： 2020-03-22

空间发短消息加为好友

xilinxue   发表于 2008/11/6 12:58:01

      某产品后台软件版本，是用C++写的，程序员在写代码时，经常在构造函数中申请一块内存，而不释放，在程序其他代码中也经常只管申请，不管释放。
例如:
void WarnSvr::SaveWarnData()
{
     ......

    for(int m="0";m<RecordsInBuffer[EVENT_ALARM];m++)
    {
   HISTORY_FILTER_INDEX* item=
                new HISTORY_FILTER_INDEX;
   item->Csn=Buffer[EVENT_ALARM][m].Csn;

                               item->Position=m
                +(RecordsInHistoryFile-RecordsInBuffer[EVENT_ALARM]);

   //If a warn with a certain Csn is not in EventFilterIndex
   //it is not necessary to be added to HistoryFilterIndex
   int item_total=EventFilterIndex.GetItemsInContainer();
   BOOL find_flag=false;
   for(int k="0";k<item_total;k++)
    if(EventFilterIndex[k]->Csn==item->Csn)
     {
     find_flag=true;
     break;
     }
   if(find_flag)
     {
    HistoryFilterIndex.Add(item);
    if(HistoryFilterIndex.IsFull())
      ClearIndexEntry();
    }
//建议在此处加上:
//                             else
//                                      delete item;
}。
        有的程序员认为，后台运行的环境有大量内存，几个字节的浪费不会造成死机等重大事故。然而，长时间累计起来，必然会造成资源紧张而出现故障。
         实际上，这种思想是造成我们产品不稳定的原因之一。我们的主机在网上能运行几个月几年，大家对内存的分配释放较敏感，而我们的后台产品往往只能正常运行几天。这个地方不注意也是原因之一吧。
2楼 回复本楼

引用 xilinxue 2008/11/6 12:58:01 发表于2楼的内容
xilinxue   |   当前状态：在线

总积分：16186  2026年可用积分：0

注册时间： 2008-06-26

最后登录时间： 2020-03-22

空间发短消息加为好友

xilinxue   发表于 2008/11/6 12:58:22

在进行代码审查过程中，造成内存泄漏的代码比较多。下面举几种常见的内存泄漏错误，供测试人员在代码审查中参考：
1. 函数有多个出口时，没有在每个出口处对动态申请的内存进行释放。一般在异常处理时容易出现这种错误。下面的代码段就是这样的例子：
.....
        pRecord = new char[pTable->GetRecordLength()];
assert(pRecord != NULL);

if (pTable->GoTop(FALSE) != DBIERR_NONE)
  return; // 如果从这里返回，pRecord将得不到释放
     .....
        pTable->Close();
delete[] pRecord;
      }

2. 给指针赋值时，没有检查指针是否为空，如果指针不为空，那么指针原来指向的内存将丢失。请看如下代码段：
....
struct FileInfo * pdbffile = new struct FileInfo;
pdbffile->pfileinfo = new struct ffblk;
pdbffile->srcname = srcRootPath;
pdbffile->desname = desRootPath;
pdbffile->prev = NULL;
pfile = pdbffile;
//赋值之前没有检查一下pfile是否为空，如果不为空，会造成pfile指向的内存丢失。
dbf_start_needed = FALSE;
dbf_Finish = FALSE;
flag_begined = TRUE;
if(FALSE == Copy(TRUE))
{
  dbf_start_needed = TRUE;
  WarnMsgOut("Error occurs while copying files in directory <dbf>,trying again.");
}
    }

3. 连续二次内存动态分配，在第二次分配失败时，忘记释放第一次已经申请到的内存。
....
pMsgDB_DEV = (PDBDevMsg)GetBuff( sizeof( DBDevMsg ), __LINE__);
if( pMsgDB_DEV == NULL )
  return;

pMsgDBApp_To_Logic = (LPDBSelfMsg)GetBuff( sizeof(DBSelfMsg), __LINE__ );
if( pMsgDBApp_To_Logic == NULL )
  return;//此处返回造成pMsgDB_DEV指向的内存丢失
....

4.代码中缺少应有的条件分支处理，导致程序未执行任何操作而退出时，也可能没有释放应释放的内存，这种情况一般是缺少应有的else分支，或switch语句的default分支没有应有的处理。
static void OncePowerCmdHandle( struct HT_Appmsg * msg )
{
... ...
    pPower_test_answer =(struct _oncepower_test_answer *)GetBuff(sizeof(struct _oncepower_test_answer),__LINE__);
if( pPower_test_answer == NULL_PTR )
   return;
... ...
if (TSS_State[testpsn].state == TEST_DEV_BUSY ||
  TSS_State[testpsn].state == TEST_DEV_ERROR )
{...
}
else if (TSS_State[testpsn].state == TEST_DEV_IDLE )
{...
  }
// 缺少 else 分支，可能造成 pPower_test_answer 得不到释放
}

造成内存泄漏的情况很多，以上是几种典型的情况。
虽然内存泄露一般出现在异常情况下，毕竟给系统造成很大的隐患，使系统的健壮性降低。测试人员在作代码审查时，对上述几种情况要尤其注意。
3楼 回复本楼

引用 xilinxue 2008/11/6 12:58:22 发表于3楼的内容
xilinxue   |   当前状态：在线

总积分：16186  2026年可用积分：0

注册时间： 2008-06-26

最后登录时间： 2020-03-22

空间发短消息加为好友

xilinxue   发表于 2008/11/6 12:58:42

  在进行SAR的PDU包发收的测试过程中要同时考虑几个边界值,即发送包大小范围[0-Nmax],SAR的PDU包接收的最大值Kmax,MBUF块的大小M.在实测中,将SAR的PDU包接收的最大值设为2000(Kmax=2000B), MBUF的块长设为512(M = 512B),则发送包大小的正确分支的取值为下限0,上限Nmax=2000,然后在0与2000之间随机取若干值,再考虑MBUF的块长,还可增加M倍数的若干选值及其附近值.以上是测试的一般思路,但由于很偶然的机会选择包长2000,及Kmax=2000B,才发现问题.原因如下:
MBUF块长512,但块中实际存放数据的只有500(MBUF头上有2个长字,尾部有1个长字共12B只用于块控制),而发送的包长正好是500的整数倍4,由于是整数倍,所以SAR(BT8230)从FREE链上摘成5个MBUF(原因从略),而SAR驱动只知道有4个MBUF,这样到上层用户时,只释放4个MBUF,从而漏掉1个MBUF,经过很短一段时间后,内存即被耗尽.(此问题非常严重,因为在实际运用中,是500的整数倍的PDU包的概率较小,但一旦出现就会发生一次内存泄漏,这样经过若干天或若干月的运行后会使系统崩溃)
以前未发现此问题的原因是因为原来使用的缓冲块长为2048,减去12B的控制信息,实际存放数据的长度为2036.由于只考虑了2048这个值,忽略了2036,所以在选取上下限中的若干值时,选取包的长度是2036的倍数的概率就非常小,因而未发现该问题.
由于测试中一般很难将取值范围中的所有值覆盖全,所以在选取上下限中的若干取值时要格外仔细,考虑的方面尽可能全,因为很有可能其中某些值就是测试边界值.凡是涉及的数字尽量选取,象该例中正确分支的测试边界为0,2000,512及其整数倍,500 及其整数倍,12 及其整数倍等值,它们是必测的边界值,而非可测可不测的随机选取的所谓若干选值.
4楼 回复本楼

引用 xilinxue 2008/11/6 12:58:42 发表于4楼的内容
xilinxue   |   当前状态：在线

总积分：16186  2026年可用积分：0

注册时间： 2008-06-26

最后登录时间： 2020-03-22

空间发短消息加为好友

xilinxue   发表于 2008/11/6 12:59:07

ABIS.CPP中的函数rel_ABIS_CCB_conn( )中，在进行消息链表Msg_Queue[ces]的拆链操作时，对于相应的CCB只进行了一次拆链操作，即只拆除了一个节点，如果出现该CCB对应的消息节点不止一个的情况就会出现大量节点不能释放的问题。
if( Msg_Queue[ces].msghead != NULL_PTR )//message buffer notempty
{
      //get first message record
      pMsgRecord = Msg_Queue[ces].msghead;
      //release buffer-messages concerning with ccb_no
      for( index = 0; index < MSGBUFFERNUM; index++ )
      {
         //这里要对pMsgRecord的值进行判断
          if( (pMsgRecord != NULL_PTR) && pMsgRecord->CCB_no ==
           ccb_no )
         {
            //free the message buffer
            if( pMsgRecord == Msg_Queue[ces].msghead )//head
            Msg_Queue[ces].msghead = pMsgRecord->pnext;
            else if( pMsgRecord == Msg_Queue[ces].msgtail )//tail
            {
                    Msg_Queue[ces].msgtail = pPrevMsgRecord;
                    Msg_Queue[ces].msgtail->pnext = NULL_PTR;
            }
            else//not head and tail
            {
                   pPrevMsgRecord->pnext = pMsgRecord->pnext;
            }
            //put buffer back to buffer pool
            if( Msg_Buffer.empty_num == 0 )
            {
                  Msg_Buffer.linkhead = Msg_Buffer.linktail = pMsgRecord;
                  pMsgRecord->pnext = NULL_PTR;//这里将
                                                                              pMsgRecord->pnext置为空
                  Msg_Buffer.empty_num++;
            }
            else
            {
                  Msg_Buffer.linktail->pnext = pMsgRecord;
                  pMsgRecord->pnext = NULL_PTR;//这里将
                                                                              pMsgRecord->pnext置为空
                  Msg_Buffer.linktail = pMsgRecord;
                  Msg_Buffer.empty_num++;
            }
         }
         else if( pMsgRecord == NULL_PTR )
                     break;//end of if
         //get next message record
           pPrevMsgRecord = pMsgRecord;
           pMsgRecord = pMsgRecord->pnext;//这时pMsgRecord为
                                                                       NULL_PTR将跳出for循环语句
      }//end of for
}//end of if
这里在拆除一个节点后导致pMsgRecord为NULL_PTR，再进行判断时将会跳出循环，这样将不能保证所有与同一个CCB有关的节点均被拆除，这时如果与同一个CCB对应的消息节点不止一个则这些消息节点均无法释放，造成可用的节点数不断减少，直接影响系统的建链过程，给系统的稳定带来隐患。
后与开发人员联系，根据这段算法编写小程序验证了该问题，并提出了相应的解决方案，消除了该隐患。
5楼 回复本楼

引用 xilinxue 2008/11/6 12:59:07 发表于5楼的内容
xilinxue   |   当前状态：在线

总积分：16186  2026年可用积分：0

注册时间： 2008-06-26

最后登录时间： 2020-03-22

空间发短消息加为好友

xilinxue   发表于 2008/11/6 13:00:21

1、建立一个呼叫，并保持通话。在AM控存监控操作界面中观察通话建立在哪一块FBI板上。
2、将有通话的FBI板拔出，观察通话情况，此时话音中断，但信令仍然保持。观察AM控存监控操作界面和E3M板2K网界面，发现AM侧因为检测到光纤已断，将通话在CTN、E3M板上占用的时隙置为空闲，即在AM控存监控操作界面和E3M板2K网界面观察不到时隙占用情况。
3、分别在30秒、1分钟、3分钟时将拔出的FBI板插回原槽位，发现每次插回FBI板后话音立即恢复。
4、观察BAM上的打印消息，发现打印的各模块占用CTN板大HW上DM时隙的空闲个数比较混乱。打印消息如下图所示：

其中：
1）由于模块1、2、3、4各占用CTN板上两条大HW，每个DM时隙个数为256（即由两条大HW的两个DM组成，由于与OPT相联的大HW上有两个保留时隙，因此此DM上空闲时隙个数为：254。
2）由于E3M板只与一条大HW相联，故每个DM上空闲的时隙个数为：128。

本现象对应2个问题：idle_count打印混乱，BM释放故障光路的时隙和对应的CCB、无线信道等资源。

1、idle_count打印混乱是由于函数restore_one_hw中的一些处理不当造成的，以前被当作B型机的历史遗留问题没有重视；

2、B2模块有2条光路，如果断掉其中一条，模块状态不会改变，原B型机程序对此不作任何处理，但应该增加这个功能，以免光路故障导致资源吊死。

解决方法：
     问题一：将函数restore_one_hw中原代码作如下改动：
                             mod_dm[mod][i].tail.tsn = idle_dm_head + 125;
          ( idle_dm_head == 384 ) ?
              mod_dm[mod][i].idle_count += TS_PER_DM - 1:
              mod_dm[mod][i].idle_count += TS_PER_DM - 1;

  改为：
   if ( idle_dm_head != 384 )
   {
                       mod_dm[mod][i].tail.tsn = idle_dm_head + 127;
              mod_dm[mod][i].idle_count += TS_PER_DM;
   }
    else
   {
              mod_dm[mod][i].tail.tsn = idle_dm_head + 126;
              mod_dm[mod][i].idle_count += TS_PER_DM - 1;
   }
      问题二分析如下：
           目前的模块状态是由IPATH调用DBMS模块的边检查实现的，只要存在一条可用的光路，即认为相邻模块为正常，对于具体的OPT板上的时隙状态的维护没有与呼叫控制的接口。具体的OPT板状态功能的检测是由IPATH完成的，在BM侧没有专门维护OPT和MC2板的模块，将转交OS组处理。

       总结：
         在拔出FBC板后，通话话音被中断，AM/CM侧已将与被拔出的FBC 板相关的资源全部置为不可用，此时BM侧主机程序也应该与AM/CM侧一致，释放掉所占用的资源，并将原通话的信令连接断开。这可能是由于不同模块的开发人员缺少相互间了解而造成的，即AM/CM侧与BM侧开发人员交流不够。作为测试人员对类似两个或多个模块相关的部分应该充分进行测试，不要想当然，往往是看起来不可能出问题的地方也容易测出问题。
6楼 回复本楼

引用 xilinxue 2008/11/6 13:00:21 发表于6楼的内容
xilinxue   |   当前状态：在线

总积分：16186  2026年可用积分：0

注册时间： 2008-06-26

最后登录时间： 2020-03-22

空间发短消息加为好友

xilinxue   发表于 2008/11/6 13:00:41

在进行有关排队指示的系统测试中，先闭塞掉基站的所有业务信道TCH，进行呼叫，再直接挂机或超时释放，发现TC存在中继资源吊死的问题。
由于此问题重现，后经定位分析，发现是ccb超时后收到AIR发来的clear cmd，进入 rel_one_bm_res( )时，由于ccb所登记的CIC还放在pre_occupied_res，并没有放入occuped_res，而rel_one_bm_res()只对存入occuped_res的CIC进行判断，并向AIE发UNBOOKCIC，而没有对存入pre_occupied_res的CIC进行判断，并UNBOOK掉，导致TC的中继资源吊死。应在超时函数或释放函数中对pre_occupied_res的CIC进行处理。
在此过程中，CIC资源还存放在老CCB的pre_occupied_res中，在超时函数或释放函数中均未对pre_occupied_res中的CIC进行处理（即向AIE UNBOOK），导致TC中继资源吊死。
在超时函数RR_time_out()中timer_name为TN_WAIT_ASS_READY时，和释放函数rel_one_bam_res()中增加对CCB的pre_occupied_res中的CIC的判断和释放处理。
       在使用资源同时，就要周密地考虑好资源的释放问题，只有这样，才能使我们的系统不断地稳定下来。
  资源的释放对于我们的交换机来说是至关重要的，一点点的疏忽都可能最终使我们的交换机因为无资源使用而死掉，要知道，“千里长堤，毁于蚁穴”。
7楼 回复本楼

引用 xilinxue 2008/11/6 13:00:41 发表于7楼的内容

总共 6, 当前 1/1

高级回复 | 发新主题

发表新帖

控制工程师论坛

软件编程经典培训实例 10、分配资源是否已正确释放

2016年积分排行