【前言】
目前人體姿態估計總體分為Top-down和Bottom-up兩種,與目標檢測不同,無論是基于熱力圖或是基于檢測器處理的關鍵點檢測算法,都較為依賴計算資源,推理耗時略長,今年出現了以YOLO為基線的關鍵點檢測器。玩過目標檢測的童鞋都知道YOLO以及各種變種目前算是工業落地較多的一類檢測器,其簡單的設計思想,長期活躍的社區生態,使其始終占據著較高的話題度。
【演變】
在ECCV 2022和CVPRW 2022會議上,YoLo-Pose和KaPao(下稱為yolo-like-pose)都基于流行的YOLO目標檢測框架提出一種新穎的無熱力圖的方法,類似于很久以前谷歌使用回歸計算關鍵點的思想,yolo-like-pose一不使用檢測器進行二階處理,二部使用熱力圖拼接,雖然是一種暴力回歸關鍵點的檢測算法,但在處理速度上具有一定優勢。
kapao
去年11月,滑鐵盧大學率先提出了 KaPao:Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation,基于YOLOv5進行關鍵點檢測,該文章目前已被ECCV 2022接收,該算法所取得的性能如下:
paper:https://arxiv.org/abs/2111.08557 code:https://github.com/wmcnally/kapao
yolov5-pose
今年4月,yolo-pose也掛在了arvix,在論文中,通過調研發現 HeatMap 的方式普遍使用L1 Loss。然而,L1損失并不一定適合獲得最佳的OKS。且由于HeatMap是概率圖,因此在基于純HeatMap的方法中不可能使用OKS作為loss,只有當回歸到關鍵點位置時,OKS才能被用作損失函數。因此,yolo-pose使用oks loss作為關鍵點的損失
相關代碼在https://github.com/TexasInstruments/edgeai-yolov5/blob/yolo-pose/utils/loss.py也可見到:
ifself.kpt_label: #Directkptprediction pkpt_x=ps[:,6::3]*2.-0.5 pkpt_y=ps[:,7::3]*2.-0.5 pkpt_score=ps[:,8::3] #mask kpt_mask=(tkpt[i][:,0::2]!=0) lkptv+=self.BCEcls(pkpt_score,kpt_mask.float()) #l2distancebasedloss #lkpt+=(((pkpt-tkpt[i])*kpt_mask)**2).mean()#Trytomakethislossbasedondistanceinsteadofordinarydifference #oksbasedloss d=(pkpt_x-tkpt[i][:,0::2])**2+(pkpt_y-tkpt[i][:,1::2])**2 s=torch.prod(tbox[i][:,-2:],dim=1,keepdim=True) kpt_loss_factor=(torch.sum(kpt_mask!=0)+torch.sum(kpt_mask==0))/torch.sum(kpt_mask!=0) lkpt+=kpt_loss_factor*((1-torch.exp(-d/(s*(4*sigmas**2)+1e-9)))*kpt_mask).mean()
相關性能如下:
yolov7-pose
上個星期,YOLOv7的作者也放出了關于人體關鍵點檢測的模型,該模型基于YOLOv7-w6,
目前作者提供了.pt文件和推理測試的腳本,有興趣的童靴可以去看看,本文的重點更偏向于對yolov7-pose.pt進行onnx文件的抽取和推理。
【yolov7-pose + onnxruntime】
首先下載好官方的預訓練模型,使用提供的腳本進行推理:
%weigths=torch.load('weights/yolov7-w6-pose.pt') %image=cv2.imread('sample/pose.jpeg') !pythonpose.py
一、yolov7-w6 VS yolov7-w6-pose
-
首先看下yolov7-w6使用的檢測頭
- 表示一共有四組不同尺度的檢測頭,分別為15×15,30×30,60×60,120×120,對應輸出的節點為114,115,116,117
- nc對應coco的80個類別
- no表示
- 再看看yolov7-w6-pose使用的檢測頭:
- 代表person一個類別
- nkpt表示人體的17個關鍵點
#原代碼: fork,minmodel.named_modules(): m._non_persistent_buffers_set=set()#pytorch1.6.0compatibility ifisinstance(m,models.common.Conv):#assignexport-friendlyactivations ifisinstance(m.act,nn.Hardswish): m.act=Hardswish() elifisinstance(m.act,nn.SiLU): m.act=SiLU() model.model[-1].export=notopt.grid#setDetect()layergridexport #修改代碼: fork,minmodel.named_modules(): m._non_persistent_buffers_set=set()#pytorch1.6.0compatibility ifisinstance(m,models.common.Conv):#assignexport-friendlyactivations ifisinstance(m.act,nn.Hardswish): m.act=Hardswish() elifisinstance(m.act,nn.SiLU): m.act=SiLU() elifisinstance(m,models.yolo.IKeypoint): m.forward=m.forward_keypoint#assignforward(optional) #此處切換檢測頭 model.model[-1].export=notopt.grid#setDetect()layergridexport forward_keypoint在原始的yolov7 repo源碼中有,作者已經封裝好,但估計是還沒打算開放使用。使用以下命令進行抽取:
pythonexport.py--weights'weights/yolov7-w6-pose.pt'--img-size960--simplifyTrue 抽取后的onnx檢測頭:三、onnxruntime推理onnxruntime推理代碼:
importonnxruntime importmatplotlib.pyplotasplt importtorch importcv2 fromtorchvisionimporttransforms importnumpyasnp fromutils.datasetsimportletterbox fromutils.generalimportnon_max_suppression_kpt fromutils.plotsimportoutput_to_keypoint,plot_skeleton_kpts device=torch.device("cpu") image=cv2.imread('sample/pose.jpeg') image=letterbox(image,960,stride=64,auto=True)[0] image_=image.copy() image=transforms.ToTensor()(image) image=torch.tensor(np.array([image.numpy()])) print(image.shape) sess=onnxruntime.InferenceSession('weights/yolov7-w6-pose.onnx') out=sess.run(['output'],{'images':image.numpy()})[0] out=torch.from_numpy(out) output=non_max_suppression_kpt(out,0.25,0.65,nc=1,nkpt=17,kpt_label=True) output=output_to_keypoint(output) nimg=image[0].permute(1,2,0)*255 nimg=nimg.cpu().numpy().astype(np.uint8) nimg=cv2.cvtColor(nimg,cv2.COLOR_RGB2BGR) foridxinrange(output.shape[0]): plot_skeleton_kpts(nimg,output[idx,7:].T,3) #matplotlibinline plt.figure(figsize=(8,8)) plt.axis('off') plt.imshow(nimg) plt.show() plt.savefig("tmp") 在這里插入圖片描述推理效果幾乎無損,但耗時會縮短一倍左右,另外有幾個點:
- image = letterbox(image, 960, stride=64, auto=True)[0] 中stride指的是最大步長,yolov7-w6和yolov5s下采樣多了一步,導致在8,16,32的基礎上多了64的下采樣步長
- output = non_max_suppression_kpt(out, 0.25, 0.65, nc=1, nkpt=17, kpt_label=True) ,nc 和 kpt_label 等信息在netron打印模型文件時可以看到
- 所得到的onnx相比原半精度模型大了將近三倍,后續排查原因
- yolov7-w6-pose極度吃顯存,推理一張960×960的圖像,需要2-4G的顯存,訓練更難以想象
審核編輯 :李倩
-
檢測器
+關注
關注
1文章
865瀏覽量
47717 -
算法
+關注
關注
23文章
4615瀏覽量
93025 -
模型
+關注
關注
1文章
3255瀏覽量
48902
原文標題:YOLOv7-Pose嘗鮮 | 基于YOLOv7的關鍵點模型測評
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論