سازوکار عملکرد و منطق انتقال‌پذیری مدل Perch 2.0

🔰در این نوشتار توضیح داده می‌شود که Perch 2.0، مدل بنیانی زیست‌آکوستیک (Bioacoustics Foundation Model) توسعه‌یافته توسط Google DeepMind که عمدتاً بر داده‌های صوتی پرندگان و سایر جانوران خشکی‌زی آموزش دیده است، چگونه با عملکردی خیره‌کننده به چالش‌های آکوستیک زیرآبی و به‌ویژه شناسایی و تفکیک آواهای نهنگ‌ها منتقل (Transfer) می‌شود.

🔹صوت زیرآبی نقشی اساسی در درک الگوهای ناپیدای گونه‌های دریایی و تعامل آن‌ها با محیط ایفا می‌کند. چشم‌انداز صوتی اقیانوس‌ها سرشار از سیگنال‌های پیچیده، صداهای ناشناخته و کشفیات بالقوه است. برای نمونه، صدای مرموز موسوم به «بیوتوانگ» (biotwang) که اخیراً توسط سازمان ملی اقیانوسی و جوی ایالات متحده (NOAA) به نهنگ‌های گریزان براید نسبت داده شد، نشان‌دهنده این واقعیت است که شناسایی گونه‌ها و انتساب آوازهای جدید، فرآیندی پویا و همواره در حال تحول است. این پیچیدگی، نیاز به ابزارهای تحلیلی مقیاس‌پذیر و انعطاف‌پذیر را بیش از پیش برجسته می‌کند.

🔸Perch 2.0 در پاسخ به همین نیاز، نه به‌عنوان یک مدل طبقه‌بندی محدود، بلکه به‌عنوان یک زیرساخت شناختی عمومی برای تحلیل صوت زیستی طراحی شده است. هسته عملکرد این مدل بر یادگیری بازنمایی‌های آکوستیکی عمیق استوار است؛ به‌طوری که به‌جای تمرکز صرف بر برچسب‌های گونه‌ای، ساختارهای بنیادین صدا شامل الگوهای زمانی_فرکانسی، هارمونیک‌ها، تغییرات دامنه و ریتم را استخراج و رمزگذاری می‌کند.

🔹در مرحله آموزش اولیه، این مدل بر مجموعه‌ای بسیار بزرگ و متنوع از داده‌های صوتی پرندگان و جانوران خشکی‌زی آموزش داده شده است. تنوع بالای گونه‌ها و شباهت‌های ظریف میان آوازهای آن‌ها برای مثال گونه‌های مختلف قمری‌ها با آواهای بسیار نزدیک به یکدیگر مدل را وادار می‌کند تا ویژگی‌های آکوستیکی بسیار دقیق و تفکیک‌پذیر را بیاموزد. این ویژگی‌ها ماهیتی عمومی دارند و به سازوکار تولید صوت زیستی وابسته‌اند، نه به یک زیست‌بوم خاص؛ از همین‌رو، قابلیت انتقال به صداهای پستانداران دریایی را نیز دارا هستند.

🔸پس از آموزش، Perch 2.0 به‌عنوان یک تولیدکننده تعبیه (Embedding Generator) عمل می‌کند. هر قطعه صوتی چه خشکی‌زی و چه زیرآبی به یک بردار عددی کم‌بعد نگاشت می‌شود که حاوی اطلاعات فشرده اما معنادار از الگوی صوتی است. این تعبیه‌ها به‌گونه‌ای طراحی شده‌اند که از نظر هندسی، صداهای مشابه در فضای برداری به یکدیگر نزدیک و صداهای نامشابه از هم فاصله بگیرند.

🔹در کاربردهای دریایی، به‌ویژه شناسایی گونه‌ها و زیرگونه‌های نهنگ‌ها، این تعبیه‌ها مبنای یادگیری انتقالی قرار می‌گیرند. به‌جای آموزش یک شبکه عصبی عمیق جدید، تنها یک طبقه‌بند سبک خطی (مانند رگرسیون لجستیک چندکلاسه) بر روی تعبیه‌های استخراج‌شده آموزش داده می‌شود. این رویکرد باعث می‌شود:

1️⃣ نیاز به داده‌های برچسب‌خورده به‌شدت کاهش یابد (Few-shot Learning)،

2️⃣ هزینه محاسباتی و زمانی توسعه مدل حداقل شود،

3️⃣ و امکان واکنش سریع به کشف صداها یا گونه‌های جدید فراهم گردد.

🔸نتایج تجربی نشان می‌دهد که Perch 2.0 حتی بدون آموزش مستقیم بر داده‌های زیرآبی، در تفکیک گونه‌های مختلف نهنگ‌ها و حتی اکوتایپ‌های متفاوت نهنگ قاتل (Orca) عملکردی رقابتی و گاه برتر از مدل‌های تخصصی دریایی دارد. این امر بیانگر آن است که مدل توانسته تفاوت‌های ظریف رفتاری، جمعیتی و اکولوژیک را که در ساختار صوتی بازتاب می‌یابند، در فضای تعبیه خود رمزگذاری کند.

🔻از منظر کلان، Perch 2.0 نماد گذار از مدل‌های محدود و وظیفه‌محور به سمت مدل‌های بنیانی قابل‌انتقال است؛ مدل‌هایی که می‌توانند به‌عنوان زیرساخت مشترک برای پژوهش‌های متنوع زیست‌محیطی، حفاظت از گونه‌ها و تحلیل اکوسیستم‌های پیچیده به کار گرفته شوند. چنین سازوکاری امکان پیوند سریع میان کشف‌های میدانی، تحلیل داده‌محور و تولید دانش علمی را فراهم می‌کند و مسیر پژوهش در زیست‌آکوستیک را به‌سوی مقیاس‌پذیری، چابکی و هم‌افزایی میان انسان و هوش مصنوعی سوق می‌دهد.