top of page

跨越實驗室與野外影像:SuperAnimal 技術如何提升追蹤動物行為的方法

動物的每個動作包含了大量可被量化的細節,鼻尖的位置、四肢的角度、尾巴的擺動、身體重心的變化,還有每一次站立、奔跑、探索與停頓,都能成為理解神經系統、疾病、動物福利與生態適應的線索。過去若要從影片中精準追蹤動物的動作,研究者通常必須先挑選影像、手動標記動物身上的關鍵點,再訓練一個專門模型。DeepLabCut 這類開源工具已經大幅降低門檻,只需要數十到數百張標記影像,就能建立相當可靠的動物姿態估計模型。不過這套流程仍有一個限制,每個實驗室都可能研究相似的動物,卻反覆標記相似的身體部位,各家自己訓練相似的模型。更麻煩的是不同資料集即使都在標記小鼠的鼻子,命名上也可能使用 nose、snout、mouse1_nose 等不同名稱;有些資料集只標記 4 個點,有些標記 20 個點以上。這些不一致讓不同實驗室的資料難以整合,也限制模型跨實驗室、跨場景使用的能力。


DeepLabCut 動物行為追蹤技術

於是有人提出了 SuperAnimal 的技術,核心目標就是把動物姿態估計推向更通用的階段。研究團隊希望建立一種預訓練模型(pretrained model),也就是已經先被餵過大量資料、學過通用規律的模型,能在沒有額外人工標記的情況下,直接用於多種動物、不同攝影條件與不同實驗環境。從大量、多來源的動物姿態資料中學會身體結構與動作規律,之後使用者可以直接套用;若資料真的與原模型差異太大,也只需要少量標記影像就能微調。該研究團隊建立了兩個代表性模型,SuperAnimal-TopViewMouse 主要處理俯視小鼠影像,SuperAnimal-Quadruped 則可以處理小鼠以外的四足動物,後者涵蓋超過 45 種動物,資料來源包括實驗室與野外影像,總影像數超過 8,5000 張。


SuperAnimal-Quadruped 對於動物影像的身體部位追蹤(圖片來源:Ye S et al. (2024),採用 CC BY 4.0 授權)
SuperAnimal-Quadruped 對於動物影像的身體部位追蹤(圖片來源:Ye S et al. (2024),採用 CC BY 4.0 授權)

SuperAnimal 的目的是把每一份標記數量不同、名稱不同、拍攝條件也不同的資料都視為動物身體圖譜中的一部分。有些資料提供較完整的身體資訊,有些資料只提供少數幾個位置,但只要能正確對應到共同的身體部位,就能一起參與模型學習。這樣做的難點在於模型必須知道「沒有標記」不等於「那個部位不存在」。例如某個小鼠資料集只標出鼻子、身體中心與尾巴根部,不代表耳朵或頸部不重要,只是當初標記者沒有把那些位置畫出來。SuperAnimal 的訓練方式會避開這種誤解,使模型能從不同完整度的資料中逐步學到更全面的動物身體結構。其設計的方法用來對齊不同資料集中的相同或相近位置,減少命名習慣與人工標記差異造成的干擾。


因此,SuperAnimal 學到的不只影像中的顏色、邊緣或紋理,一般影像模型雖然能從大量圖片中學會辨認物體輪廓,但未必真正理解動物身體各部位之間的關係,但這次的技術可直接從動物姿態資料中學習,能建立更接近生物形態的判讀能力,頭部、軀幹、四肢與尾部之間通常如何連接,哪些位置會隨動作改變,哪些身體點位在不同姿勢下仍應保持合理的相對關係。這種基於動物身體結構的先備知識,是能在處理新影像中維持穩定表現的重要基礎。


研究團隊先以俯視小鼠影像測試 SuperAnimal 的能力,他們刻意排除部分資料集,再讓模型分析從未看過的影像,模擬一般研究者把模型套用到新影片時的情境。結果顯示即使沒有額外人工標記,SuperAnimal-TopViewMouse 仍能辨認陌生影像中的小鼠身體位置。若再提供少量新標記影像,模型表現會進一步提升;在一個小鼠行為影像資料集中,只用 10 張影像調整,就能接近傳統方法使用約 100 張影像才達到的效果。這代表研究者不必再大量重複標記動物身體部位,也能快速建立可用的行為分析流程。


處理四足動物資料的任務更加困難,因為馬、狗、貓、牛、羊與野外齧齒類動物的影像條件差異很大。動物可能被環境物體遮蔽,背景可能充滿草叢、陰影或雜物,拍攝角度與距離也不固定。SuperAnimal-Quadruped 的測試結果得出模型能把從多種動物身上學到的身體結構規律,應用到新的影像資料中。以馬匹資料為例,只使用 5% 的訓練資料進行調整,就能達到傳統方法使用完整資料時的效果。這對通常更難標記的野外動物行為幫助很大。


影片分析還有一個常見問題,模型在單張影像上判斷正確,到了連續影片中卻可能不穩定。動物明明平順移動,模型標出的鼻尖、尾端或四肢位置卻可能在相鄰影格中跳動,進而干擾後續行為判讀。因此研究團隊提出一種不需要額外人工標記的影片調整方法,讓模型先分析影片,再利用連續畫面中的資訊修正預測,使身體點位的移動軌跡更平順。最後這種方法能在多數影片中減少抖動,提升行為分析的可靠性。


SuperAnimal-Quadruped 在野外四足動物影片中的追蹤穩定性。以黑狗(h)與麋鹿(i)的野外影片測試模型表現。上方曲線表示每一影格中,由模型預測的身體關鍵點所形成的 2D 外框面積;曲線頻繁跳動時,代表關鍵點在連續影格中的位置較不穩定。下方影像比較 3 種處理結果:raw detections 為模型直接輸出的原始預測,+video adaptation 為模型利用該影片自行調整後的結果,+VA+mean filter 則是在影片調整後再加入平滑處理。經過影片適應與平滑處理後,關鍵點軌跡較連續,顯示模型在複雜野外影像中能降低預測抖動(圖片來源:Ye S et al. (2024),採用 CC BY 4.0 授權)
SuperAnimal-Quadruped 在野外四足動物影片中的追蹤穩定性。以黑狗(h)與麋鹿(i)的野外影片測試模型表現。上方曲線表示每一影格中,由模型預測的身體關鍵點所形成的 2D 外框面積;曲線頻繁跳動時,代表關鍵點在連續影格中的位置較不穩定。下方影像比較 3 種處理結果:raw detections 為模型直接輸出的原始預測,+video adaptation 為模型利用該影片自行調整後的結果,+VA+mean filter 則是在影片調整後再加入平滑處理。經過影片適應與平滑處理後,關鍵點軌跡較連續,顯示模型在複雜野外影像中能降低預測抖動(圖片來源:Ye S et al. (2024),採用 CC BY 4.0 授權)

SuperAnimal 提供了更有效率的動物行為分析技術,把過去不同研究者累積的姿態資料整合成可共享、可轉用、可微調的模型,使後續動物行為研究能在既有基礎上繼續推進。


SuperAnimal-Quadruped 的使用

DeepLabCut 與 SuperAnimal 整合的資源(GitHub):


作者:水也佑


參考文獻:

Ye S et al. (2024). SuperAnimal pretrained pose estimation models for behavioral analysis. Nature Communications.




留言


bottom of page