🔰در این نوشتار توضیح داده میشود که Perch 2.0، مدل بنیانی زیستآکوستیک (Bioacoustics Foundation Model) توسعهیافته توسط Google DeepMind که عمدتاً بر دادههای صوتی پرندگان و سایر جانوران خشکیزی آموزش دیده است، چگونه با عملکردی خیرهکننده به چالشهای آکوستیک زیرآبی و بهویژه شناسایی و تفکیک آواهای نهنگها منتقل (Transfer) میشود.
🔹صوت زیرآبی نقشی اساسی در درک الگوهای ناپیدای گونههای دریایی و تعامل آنها با محیط ایفا میکند. چشمانداز صوتی اقیانوسها سرشار از سیگنالهای پیچیده، صداهای ناشناخته و کشفیات بالقوه است. برای نمونه، صدای مرموز موسوم به «بیوتوانگ» (biotwang) که اخیراً توسط سازمان ملی اقیانوسی و جوی ایالات متحده (NOAA) به نهنگهای گریزان براید نسبت داده شد، نشاندهنده این واقعیت است که شناسایی گونهها و انتساب آوازهای جدید، فرآیندی پویا و همواره در حال تحول است. این پیچیدگی، نیاز به ابزارهای تحلیلی مقیاسپذیر و انعطافپذیر را بیش از پیش برجسته میکند.
🔸Perch 2.0 در پاسخ به همین نیاز، نه بهعنوان یک مدل طبقهبندی محدود، بلکه بهعنوان یک زیرساخت شناختی عمومی برای تحلیل صوت زیستی طراحی شده است. هسته عملکرد این مدل بر یادگیری بازنماییهای آکوستیکی عمیق استوار است؛ بهطوری که بهجای تمرکز صرف بر برچسبهای گونهای، ساختارهای بنیادین صدا شامل الگوهای زمانی_فرکانسی، هارمونیکها، تغییرات دامنه و ریتم را استخراج و رمزگذاری میکند.
🔹در مرحله آموزش اولیه، این مدل بر مجموعهای بسیار بزرگ و متنوع از دادههای صوتی پرندگان و جانوران خشکیزی آموزش داده شده است. تنوع بالای گونهها و شباهتهای ظریف میان آوازهای آنها برای مثال گونههای مختلف قمریها با آواهای بسیار نزدیک به یکدیگر مدل را وادار میکند تا ویژگیهای آکوستیکی بسیار دقیق و تفکیکپذیر را بیاموزد. این ویژگیها ماهیتی عمومی دارند و به سازوکار تولید صوت زیستی وابستهاند، نه به یک زیستبوم خاص؛ از همینرو، قابلیت انتقال به صداهای پستانداران دریایی را نیز دارا هستند.
🔸پس از آموزش، Perch 2.0 بهعنوان یک تولیدکننده تعبیه (Embedding Generator) عمل میکند. هر قطعه صوتی چه خشکیزی و چه زیرآبی به یک بردار عددی کمبعد نگاشت میشود که حاوی اطلاعات فشرده اما معنادار از الگوی صوتی است. این تعبیهها بهگونهای طراحی شدهاند که از نظر هندسی، صداهای مشابه در فضای برداری به یکدیگر نزدیک و صداهای نامشابه از هم فاصله بگیرند.
🔹در کاربردهای دریایی، بهویژه شناسایی گونهها و زیرگونههای نهنگها، این تعبیهها مبنای یادگیری انتقالی قرار میگیرند. بهجای آموزش یک شبکه عصبی عمیق جدید، تنها یک طبقهبند سبک خطی (مانند رگرسیون لجستیک چندکلاسه) بر روی تعبیههای استخراجشده آموزش داده میشود. این رویکرد باعث میشود:
1️⃣ نیاز به دادههای برچسبخورده بهشدت کاهش یابد (Few-shot Learning)،
2️⃣ هزینه محاسباتی و زمانی توسعه مدل حداقل شود،
3️⃣ و امکان واکنش سریع به کشف صداها یا گونههای جدید فراهم گردد.
🔸نتایج تجربی نشان میدهد که Perch 2.0 حتی بدون آموزش مستقیم بر دادههای زیرآبی، در تفکیک گونههای مختلف نهنگها و حتی اکوتایپهای متفاوت نهنگ قاتل (Orca) عملکردی رقابتی و گاه برتر از مدلهای تخصصی دریایی دارد. این امر بیانگر آن است که مدل توانسته تفاوتهای ظریف رفتاری، جمعیتی و اکولوژیک را که در ساختار صوتی بازتاب مییابند، در فضای تعبیه خود رمزگذاری کند.
🔻از منظر کلان، Perch 2.0 نماد گذار از مدلهای محدود و وظیفهمحور به سمت مدلهای بنیانی قابلانتقال است؛ مدلهایی که میتوانند بهعنوان زیرساخت مشترک برای پژوهشهای متنوع زیستمحیطی، حفاظت از گونهها و تحلیل اکوسیستمهای پیچیده به کار گرفته شوند. چنین سازوکاری امکان پیوند سریع میان کشفهای میدانی، تحلیل دادهمحور و تولید دانش علمی را فراهم میکند و مسیر پژوهش در زیستآکوستیک را بهسوی مقیاسپذیری، چابکی و همافزایی میان انسان و هوش مصنوعی سوق میدهد.