跨越實驗室與野外影像：SuperAnimal 技術如何提升追蹤動物行為的方法

演化之聲
16小时前
讀畢需時 4 分鐘

動物的每個動作包含了大量可被量化的細節，鼻尖的位置、四肢的角度、尾巴的擺動、身體重心的變化，還有每一次站立、奔跑、探索與停頓，都能成為理解神經系統、疾病、動物福利與生態適應的線索。過去若要從影片中精準追蹤動物的動作，研究者通常必須先挑選影像、手動標記動物身上的關鍵點，再訓練一個專門模型。DeepLabCut 這類開源工具已經大幅降低門檻，只需要數十到數百張標記影像，就能建立相當可靠的動物姿態估計模型。不過這套流程仍有一個限制，每個實驗室都可能研究相似的動物，卻反覆標記相似的身體部位，各家自己訓練相似的模型。更麻煩的是不同資料集即使都在標記小鼠的鼻子，命名上也可能使用 nose、snout、mouse1_nose 等不同名稱；有些資料集只標記 4 個點，有些標記 20 個點以上。這些不一致讓不同實驗室的資料難以整合，也限制模型跨實驗室、跨場景使用的能力。

https://www.youtube.com/watch?v=uwyAl_P0HJk

DeepLabCut 動物行為追蹤技術

於是有人提出了 SuperAnimal 的技術，核心目標就是把動物姿態估計推向更通用的階段。研究團隊希望建立一種預訓練模型（pretrained model），也就是已經先被餵過大量資料、學過通用規律的模型，能在沒有額外人工標記的情況下，直接用於多種動物、不同攝影條件與不同實驗環境。從大量、多來源的動物姿態資料中學會身體結構與動作規律，之後使用者可以直接套用；若資料真的與原模型差異太大，也只需要少量標記影像就能微調。該研究團隊建立了兩個代表性模型，SuperAnimal-TopViewMouse 主要處理俯視小鼠影像，SuperAnimal-Quadruped 則可以處理小鼠以外的四足動物，後者涵蓋超過 45 種動物，資料來源包括實驗室與野外影像，總影像數超過 8,5000 張。

SuperAnimal-Quadruped 對於動物影像的身體部位追蹤（圖片來源：Ye S et al. (2024)，採用 CC BY 4.0 授權）

SuperAnimal 的目的是把每一份標記數量不同、名稱不同、拍攝條件也不同的資料都視為動物身體圖譜中的一部分。有些資料提供較完整的身體資訊，有些資料只提供少數幾個位置，但只要能正確對應到共同的身體部位，就能一起參與模型學習。這樣做的難點在於模型必須知道「沒有標記」不等於「那個部位不存在」。例如某個小鼠資料集只標出鼻子、身體中心與尾巴根部，不代表耳朵或頸部不重要，只是當初標記者沒有把那些位置畫出來。SuperAnimal 的訓練方式會避開這種誤解，使模型能從不同完整度的資料中逐步學到更全面的動物身體結構。其設計的方法用來對齊不同資料集中的相同或相近位置，減少命名習慣與人工標記差異造成的干擾。

因此，SuperAnimal 學到的不只影像中的顏色、邊緣或紋理，一般影像模型雖然能從大量圖片中學會辨認物體輪廓，但未必真正理解動物身體各部位之間的關係，但這次的技術可直接從動物姿態資料中學習，能建立更接近生物形態的判讀能力，頭部、軀幹、四肢與尾部之間通常如何連接，哪些位置會隨動作改變，哪些身體點位在不同姿勢下仍應保持合理的相對關係。這種基於動物身體結構的先備知識，是能在處理新影像中維持穩定表現的重要基礎。

研究團隊先以俯視小鼠影像測試 SuperAnimal 的能力，他們刻意排除部分資料集，再讓模型分析從未看過的影像，模擬一般研究者把模型套用到新影片時的情境。結果顯示即使沒有額外人工標記，SuperAnimal-TopViewMouse 仍能辨認陌生影像中的小鼠身體位置。若再提供少量新標記影像，模型表現會進一步提升；在一個小鼠行為影像資料集中，只用 10 張影像調整，就能接近傳統方法使用約 100 張影像才達到的效果。這代表研究者不必再大量重複標記動物身體部位，也能快速建立可用的行為分析流程。

處理四足動物資料的任務更加困難，因為馬、狗、貓、牛、羊與野外齧齒類動物的影像條件差異很大。動物可能被環境物體遮蔽，背景可能充滿草叢、陰影或雜物，拍攝角度與距離也不固定。SuperAnimal-Quadruped 的測試結果得出模型能把從多種動物身上學到的身體結構規律，應用到新的影像資料中。以馬匹資料為例，只使用 5% 的訓練資料進行調整，就能達到傳統方法使用完整資料時的效果。這對通常更難標記的野外動物行為幫助很大。

影片分析還有一個常見問題，模型在單張影像上判斷正確，到了連續影片中卻可能不穩定。動物明明平順移動，模型標出的鼻尖、尾端或四肢位置卻可能在相鄰影格中跳動，進而干擾後續行為判讀。因此研究團隊提出一種不需要額外人工標記的影片調整方法，讓模型先分析影片，再利用連續畫面中的資訊修正預測，使身體點位的移動軌跡更平順。最後這種方法能在多數影片中減少抖動，提升行為分析的可靠性。