跨越實驗室與野外影像:SuperAnimal 技術如何提升追蹤動物行為的方法
- 演化之聲

- 16小时前
- 讀畢需時 4 分鐘
動物的每個動作包含了大量可被量化的細節,鼻尖的位置、四肢的角度、尾巴的擺動、身體重心的變化,還有每一次站立、奔跑、探索與停頓,都能成為理解神經系統、疾病、動物福利與生態適應的線索。過去若要從影片中精準追蹤動物的動作,研究者通常必須先挑選影像、手動標記動物身上的關鍵點,再訓練一個專門模型。DeepLabCut 這類開源工具已經大幅降低門檻,只需要數十到數百張標記影像,就能建立相當可靠的動物姿態估計模型。不過這套流程仍有一個限制,每個實驗室都可能研究相似的動物,卻反覆標記相似的身體部位,各家自己訓練相似的模型。更麻煩的是不同資料集即使都在標記小鼠的鼻子,命名上也可能使用 nose、snout、mouse1_nose 等不同名稱;有些資料集只標記 4 個點,有些標記 20 個點以上。這些不一致讓不同實驗室的資料難以整合,也限制模型跨實驗室、跨場景使用的能力。
於是有人提出了 SuperAnimal 的技術,核心目標就是把動物姿態估計推向更通用的階段。研究團隊希望建立一種預訓練模型(pretrained model),也就是已經先被餵過大量資料、學過通用規律的模型,能在沒有額外人工標記的情況下,直接用於多種動物、不同攝影條件與不同實驗環境。從大量、多來源的動物姿態資料中學會身體結構與動作規律,之後使用者可以直接套用;若資料真的與原模型差異太大,也只需要少量標記影像就能微調。該研究團隊建立了兩個代表性模型,SuperAnimal-TopViewMouse 主要處理俯視小鼠影像,SuperAnimal-Quadruped 則可以處理小鼠以外的四足動物,後者涵蓋超過 45 種動物,資料來源包括實驗室與野外影像,總影像數超過 8,5000 張。

SuperAnimal 的目的是把每一份標記數量不同、名稱不同、拍攝條件也不同的資料都視為動物身體圖譜中的一部分。有些資料提供較完整的身體資訊,有些資料只提供少數幾個位置,但只要能正確對應到共同的身體部位,就能一起參與模型學習。這樣做的難點在於模型必須知道「沒有標記」不等於「那個部位不存在」。例如某個小鼠資料集只標出鼻子、身體中心與尾巴根部,不代表耳朵或頸部不重要,只是當初標記者沒有把那些位置畫出來。SuperAnimal 的訓練方式會避開這種誤解,使模型能從不同完整度的資料中逐步學到更全面的動物身體結構。其設計的方法用來對齊不同資料集中的相同或相近位置,減少命名習慣與人工標記差異造成的干擾。
因此,SuperAnimal 學到的不只影像中的顏色、邊緣或紋理,一般影像模型雖然能從大量圖片中學會辨認物體輪廓,但未必真正理解動物身體各部位之間的關係,但這次的技術可直接從動物姿態資料中學習,能建立更接近生物形態的判讀能力,頭部、軀幹、四肢與尾部之間通常如何連接,哪些位置會隨動作改變,哪些身體點位在不同姿勢下仍應保持合理的相對關係。這種基於動物身體結構的先備知識,是能在處理新影像中維持穩定表現的重要基礎。
研究團隊先以俯視小鼠影像測試 SuperAnimal 的能力,他們刻意排除部分資料集,再讓模型分析從未看過的影像,模擬一般研究者把模型套用到新影片時的情境。結果顯示即使沒有額外人工標記,SuperAnimal-TopViewMouse 仍能辨認陌生影像中的小鼠身體位置。若再提供少量新標記影像,模型表現會進一步提升;在一個小鼠行為影像資料集中,只用 10 張影像調整,就能接近傳統方法使用約 100 張影像才達到的效果。這代表研究者不必再大量重複標記動物身體部位,也能快速建立可用的行為分析流程。
處理四足動物資料的任務更加困難,因為馬、狗、貓、牛、羊與野外齧齒類動物的影像條件差異很大。動物可能被環境物體遮蔽,背景可能充滿草叢、陰影或雜物,拍攝角度與距離也不固定。SuperAnimal-Quadruped 的測試結果得出模型能把從多種動物身上學到的身體結構規律,應用到新的影像資料中。以馬匹資料為例,只使用 5% 的訓練資料進行調整,就能達到傳統方法使用完整資料時的效果。這對通常更難標記的野外動物行為幫助很大。
影片分析還有一個常見問題,模型在單張影像上判斷正確,到了連續影片中卻可能不穩定。動物明明平順移動,模型標出的鼻尖、尾端或四肢位置卻可能在相鄰影格中跳動,進而干擾後續行為判讀。因此研究團隊提出一種不需要額外人工標記的影片調整方法,讓模型先分析影片,再利用連續畫面中的資訊修正預測,使身體點位的移動軌跡更平順。最後這種方法能在多數影片中減少抖動,提升行為分析的可靠性。

SuperAnimal 提供了更有效率的動物行為分析技術,把過去不同研究者累積的姿態資料整合成可共享、可轉用、可微調的模型,使後續動物行為研究能在既有基礎上繼續推進。
DeepLabCut 與 SuperAnimal 整合的資源(GitHub):
作者:水也佑
參考文獻:
Ye S et al. (2024). SuperAnimal pretrained pose estimation models for behavioral analysis. Nature Communications.




留言