کاوش ترانسفورماتورهای بینایی تحت نظارت خود برای تشخیص راه رفتن در قسمت 1 وحشی

Nov 24, 2023

خلاصه:

نحوه راه رفتن (راه رفتن) یک بیومتریک قدرتمند است که به عنوان یک روش انگشت نگاری منحصر به فرد استفاده می شود و اجازه می دهد تا تجزیه و تحلیل رفتاری محجوب در فاصله بدون همکاری موضوع انجام شود.

همه ما می دانیم که ورزش به سلامتی کمک می کند. علاوه بر این، ورزش به بهبود حافظه نیز کمک می کند. پیاده‌روی ساده‌ترین و آسان‌ترین شکل تمرین برای تمرین است و بسیاری از مردم هنگام پیاده‌روی یا دویدن از آرامش لذت می‌برند. اکنون، تحقیقات بیشتر نشان می دهد که راه رفتن کارهای قدرتمندی برای مغز انجام می دهد.

اول، پیاده روی سیستم عصبی مغز را تحریک می کند که به تقویت عملکرد مغز کمک می کند. هنگامی که بدن حرکت می کند، ضربان قلب و جریان خون ما افزایش می یابد، که همچنین مغز را تحریک می کند تا نورون ها و سیناپس های بیشتری تولید کند. ارتباط بین این نورون ها و سیناپس ها می تواند شبکه های عصبی جدید و فرآیندهای فکری سریعتر ایجاد کند.

دوم، پیاده روی می تواند استرس و اضطراب را کاهش دهد، که برای بهبود حافظه بسیار مهم است. زمانی که ذهن و بدن در حالت تنش، افسردگی یا اضطراب هستند، مغز هورمونی به نام کورتیزول ترشح می کند. کورتیزول به نورون ها و سیناپس های مغز آسیب می رساند که می تواند منجر به از دست دادن حافظه شود. پیاده روی استرس و اضطراب را از بین می برد، تولید کورتیزول را در بدن کاهش می دهد و به حفظ سلامت نورون ها و سیناپس ها کمک می کند.

در نهایت، پیاده روی باعث افزایش گردش خون در مغز می شود. برخی از مطالعات نشان می دهد که گردش خون خوب می تواند به بهبود حافظه کمک کند. با افزایش سن، رگ های خونی مغز به تدریج مسدود می شوند و در نتیجه اکسیژن کافی به مغز نمی رسد. پیاده روی می تواند سلامت قلب را افزایش دهد و به قلب اجازه می دهد تا اکسیژن و مواد مغذی را به طور موثرتری به مغز برساند و در نتیجه حافظه و عملکرد مغز را تقویت کند.

بنابراین، پیاده روی یک شکل عالی از ورزش هم برای جوان و هم برای پیر است. پیاده روی علاوه بر بهبود سلامت جسمانی می تواند به بهبود حافظه نیز کمک کند. بگذارید هر روز مسافتی را پیاده روی کنیم تا خودمان را سالم تر و بهتر کنیم! مشاهده می شود که ما نیاز به بهبود حافظه داریم و سیستانچ دسرتیکولا می تواند حافظه را به میزان قابل توجهی بهبود بخشد زیرا سیستانچ دسرتیکولا یک ماده دارویی سنتی چینی است که اثرات منحصر به فرد بسیاری دارد که یکی از آنها بهبود حافظه است. اثربخشی گوشت چرخ کرده از مواد فعال مختلفی که شامل اسید، پلی ساکاریدها، فلاونوئیدها و غیره است، ناشی می شود. این مواد می توانند به طرق مختلف سلامت مغز را ارتقا دهند.

improve memory

روی 10 روش برای بهبود حافظه کلیک کنید

برخلاف روش‌های سنتی‌تر احراز هویت بیومتریک، تجزیه و تحلیل راه رفتن نیازی به همکاری صریح سوژه ندارد و می‌تواند در تنظیمات با وضوح پایین انجام شود، بدون اینکه نیازی به بدون مانع/دیدن صورت سوژه باشد. بیشتر رویکردهای کنونی در یک محیط کنترل شده، با داده های مشروح استاندارد طلایی تمیز، که به توسعه معماری های عصبی برای تشخیص و طبقه بندی کمک می کند، توسعه یافته اند.

اخیراً تجزیه و تحلیل راه رفتن جرأت کرده است از مجموعه داده‌های متنوع‌تر، بزرگ‌تر و واقعی‌تر برای شبکه‌های از پیش آموزش‌دیده به شیوه‌ای خود نظارت استفاده کند. رژیم آموزشی خود نظارتی، یادگیری بازنمایی های متنوع و قوی راه رفتن را بدون حاشیه نویسی دستی گران قیمت انسانی امکان پذیر می کند. در این کار به دلیل استفاده فراگیر از مدل ترانسفورماتور در همه زمینه‌های یادگیری عمیق، از جمله بینایی رایانه، استفاده از معماری‌های مختلف مبدل بینایی که مستقیماً برای تشخیص راه رفتن خود نظارت اعمال می‌شوند را بررسی می‌کنیم.

ما ViT، CaiT، CrossFormer، Token2Token و TwinsSVT ساده را بر روی دو مجموعه داده راه رفتن در مقیاس بزرگ تطبیق داده و دوباره آموزش می دهیم: GREW و DenseGait. ما نتایج گسترده‌ای برای شات صفر و تنظیم دقیق در دو مجموعه داده تشخیص راه رفتن معیار، CASIA-B و FVG ارائه می‌کنیم، و رابطه بین مقدار اطلاعات راه رفتن مکانی و زمانی مورد استفاده توسط ویژوالترانسفورماتور را بررسی می‌کنیم.

نتایج ما نشان می‌دهد که طراحی مدل‌های ترانسفورماتور برای پردازش حرکت از یک رویکرد سلسله مراتبی (به عنوان مثال، مدل‌های CrossFormer) در نمایشگاه‌های حرکتی دانه‌ریزتر نسبتاً بهتر از رویکردهای کل اسکلت قبلی استفاده می‌کند.

کلید واژه ها:

تشخیص راه رفتن؛ احراز هویت بیومتریک؛ ترانسفورماتور بینایی؛ تخمین وضع یادگیری خود نظارتی؛ یادگیری متضاد

1. معرفی

نحوه حرکت ما حاوی سرنخ های مهمی درباره خودمان است. به طور خاص، راه رفتن ما (نحوه راه رفتن) در پزشکی [1]، روانشناسی [2] و علوم ورزشی [3] مورد مطالعه قرار گرفته است. اخیراً، تجزیه و تحلیل راه رفتن توجه بیشتری را از جامعه علوم رایانه به خود جلب کرده است که همزمان با پیشرفت تصاعدی یادگیری عمیق و در دسترس بودن گسترده سخت افزار محاسباتی است.

سیستم های تجزیه و تحلیل راه رفتن مبتنی بر هوش مصنوعی قادر به تشخیص موفقیت آمیز افراد [6-10]، تخمین جمعیت شناختی مانند جنسیت و سن [11]، و تخمین ویژگی های خارجی مانند لباس [12]، بدون استفاده از هیچ نشانه ظاهری خارجی بوده اند. این نتایج با توجه به مقدار زیادی از تفاوت های فردی در راه رفتن، که به دلیل تفاوت در ساختار اسکلتی عضلانی، عوامل ژنتیکی و محیطی، و همچنین وضعیت عاطفی و شخصیت واکر است، تعجب آور نیست [13].

سیستم‌های فعلی فقط در محیط‌های داخلی کنترل‌شده واقعاً آموزش دیده و آزمایش می‌شوند. اکثر روش‌ها از مجموعه داده‌های CASIA-B [6] به عنوان معیار استاندارد برای مدل‌های تشخیص راه رفتن استفاده می‌کنند، که شامل 124 سوژه است که در داخل خانه به شیوه‌ای کاملاً کنترل‌شده با دوربین‌های متعدد ضبط شده‌اند. پیچیدگی در دنیای واقعی را نمی توان به طور کامل با چنین سناریوهای محدودی مدل کرد. اخیراً تمرکز بر مدل‌سازی راه رفتن در طبیعت، با مجموعه داده‌هایی مانند DenseGait [12]، GREW [7] و Gait3D [14] بوده است.

short term memory how to improve

جمع آوری یک مجموعه داده در مقیاس بزرگ که تمیز و کاملاً حاشیه نویسی شده باشد نشان دهنده تلاش فوق العاده ای از نظر منابع مالی و زمان اختصاص داده شده است. بر اساس گزارش ها، مجموعه داده GREW [7] 3 ماه کار مداوم برای جمع آوری و حاشیه نویسی طول کشید. در حالی که چنین رویکردهایی در توسعه معماری های عصبی برای پردازش راه رفتن مفید بوده اند [8،9]، آنها به اندازه کافی متنوع نیستند که به درستی در محیط های آرام تر و در دنیای واقعی استفاده شوند.

جامعه هوش مصنوعی به آرامی از این رویکرد در حوزه‌های دیگر دور شده است، با روش‌هایی برای یادگیری خود نظارتی هم برای بینایی [15] و هم برای زبان [16] که کشش قابل توجهی به دست می‌آورد و اغلب از روش‌های نظارت شده سنتی پیشی می‌گیرد. یادگیری خود نظارتی اخیر نشان داد که مدل‌های خود نظارتی رفتارهای قوی‌تری دارند و در حال ظهور هستند و به‌صراحت در طول آموزش تعریف نشده‌اند.

به عنوان مثال، DINO [17]، یک مبدل بینایی که در یک رژیم خود نظارتی آموزش دیده است، ویژگی‌های خاص کلاس را آموخت که بخش‌بندی شی بدون نظارت را بدون استفاده از چنین برچسب‌هایی در طول آموزش قادر می‌سازد. Cosmaand Radoi [10] با آموزش ST-GCN [18] بر روی یک نسخه کوچکتر از DenseGait [12]، اولین روش متضاد را برای یادگیری خود نظارتی برای تحلیل راهنما پیشنهاد کرد. روش آنها نتایج معقولی را در مورد وظایف تشخیص راه رفتن پایین دستی به دست آورد و نشان داد که یک همبستگی قوی بین اندازه مجموعه داده از پیش آموزش دیده و عملکرد انتقال شات صفر وجود دارد.

در حالی که بسیاری از رویکردها برای تجزیه و تحلیل راه رفتن از شبح‌های استخراج شده از تفریق پس‌زمینه استفاده می‌کنند [6،8،9]، استخراج شبح‌ها در سناریوهای نظارت واقعی مستلزم استفاده از تکنیک‌های پیشرفته‌تر، مانند تقسیم‌بندی نمونه [19] است که هزینه محاسباتی بالایی دارد. دنباله‌ای از سیلوئت‌ها فضای ذخیره‌سازی قابل توجهی را اشغال می‌کنند و به اندازه کافی انعطاف‌پذیر نیستند تا در کارهای مجاور دیگر مانند تشخیص فعالیت استفاده شوند. علاوه بر این، سیلوئت‌ها نشانه‌های ظاهری ظریفی را رمزگذاری می‌کنند، که مشخص نمی‌کند تا چه حد از حرکت در شناسایی استفاده می‌شود [20].

از سوی دیگر، مدل‌های تخمین موقعیتی دوبعدی به طور فزاینده‌ای دقیق و از نظر محاسباتی کارآمد شده‌اند [21،22]. استخراج اسکلت‌ها ارزان هستند و در حال حاضر از مش‌های سه‌بعدی و حالت‌های سه‌بعدی، به‌ویژه در فاصله دور، قابل اعتمادتر هستند. علاوه بر این، اسکلت‌های دوبعدی از نظر ذخیره‌سازی طولانی‌مدت بسیار سبک‌تر از سیلوئت‌ها هستند.

معماری‌های فعلی برای پردازش دنباله‌های اسکلت‌ها از ساختار نمودار فضایی طبیعی موجود در اسکلت انسان استفاده می‌کنند و یک سوگیری استقرایی را در طراحی مدل معرفی می‌کنند. مدل هایی مانند ST-GCN محبوب [18] و MS-G3D [23] نتایج چشمگیری برای تشخیص عمل مبتنی بر اسکلت مشاهده کرده اند.

همزمان، انفجاری در استفاده از مدل‌های ترانسفورماتور در تقریباً تمام زمینه‌های یادگیری عمیق از زمان کاربرد اولیه آنها برای پردازش زبان طبیعی رخ داده است.

ترانسفورماتورها یک معماری کلی تری با سوگیری های القایی اندک در نظر گرفته می شوند. در ابتدا، ترانسفورماتورها برای مطابقت با مدل‌های CNN برای طبقه‌بندی تصاویر [24] تلاش کرده‌اند، اما در حال حاضر از مدل‌های دیگر پیشی گرفته‌اند و نتایج امیدوارکننده‌ای را در سناریوهای تحت نظارت خود نشان می‌دهند، بیشتر از دیگر انواع معماری‌ها، ترانسفورماتورها ظرفیت یادگیری و رفتارهای نوظهوری را تحت خود نشان داده‌اند. - نظارت [17].

Cosma و Radoi [12] اولین کسانی بودند که GaitFormer را پیشنهاد کردند، یک انطباق مستقیم از مدل رمزگذار ترانسفورماتور بینایی برای تشخیص راه رفتن، با استفاده از اسکلت‌های منفرد به عنوان "تصله‌های ورودی"، که اساسا فقط توجه زمانی را انجام می‌دهند، و روابط توجه فضایی را نادیده می‌گیرند.

GaitFormer به روشی تحت نظارت خود آموزش دید و حتی بدون تنظیم دقیق از سایر روش های تشخیص راه رفتن پیشی گرفت. چنین کارهای قبلی دلگرم کننده است و راه را برای مطالعه عمیق تر در مورد کاربرد بالقوه معماری ترانسفورماتور برای تجزیه و تحلیل راه رفتن هموار می کند. آیا می‌توان مدل‌های ترانسفورماتور بینایی را برای یادگیری خود نظارتی نمایش‌های راه رفتن اسکلت تطبیق داد؟

مسئله اصلی معماری در ترانسفورماتورهای بینایی، تعریف روابط مناسب بین وصله های تصویر است که اطلاعات محلی و جهانی را تعریف می کند. هنگامی که برای راه رفتن اعمال می شود، انتخاب ابعاد وصله با مقدار اطلاعات زمانی و مکانی کدگذاری شده دنباله اسکلت مطابقت دارد.

در این کار، ما یک مطالعه گسترده از پنج ترانسفورماتور بینایی مختلف را ارائه می‌کنیم که برای تشخیص راه رفتن تطبیق داده شده‌اند. ما مدل کلاسیک ViT [24]، CaiT [25]، CrossFormer [26]، TwinsSVT [27] و ViT توکن به توکن [28] را بررسی می کنیم.

ways to improve memory

هر معماری به طور جداگانه به شیوه ای متضاد با نظارت خود بر روی دو مجموعه داده های "در طبیعت" در مقیاس بزرگ از توالی های اسکلت راه رفتن دوبعدی آموزش داده می شود: DenseGait - مجموعه داده ای که به طور خودکار از جریان های نظارت خام جمع آوری می شود، و GREW، یک مجموعه داده کوچکتر که حاوی حاشیه نویسی های انسانی تمیز است.

ما قابلیت‌های انتقال را در دو مجموعه داده کنترل‌شده برای تشخیص راه رفتن، CASIA [6] و FVG [29] بررسی می‌کنیم. برای هر مجموعه داده، ما انتقال مستقیم (صفر شات) و کارایی داده را در طول تنظیم دقیق با آموزش با زیرمجموعه های به تدریج بزرگتر از مجموعه داده ها تجزیه و تحلیل می کنیم. ، ستون فقرات استاندارد برای اکثر ترانسفورماتورهای بینایی تا به امروز.

بقیه مقاله به شرح زیر سازماندهی شده است. ما یک مرور کلی در سطح بالا از کارهای مرتبط در مورد مدل‌های تشخیص راه رفتن و ترانسفورماتورهای بینایی انجام می‌دهیم. مشاهده می‌کنیم که مدل‌های نمایش راه رفتن از آموزش خود نظارتی برای داشتن جاسازی‌های قوی‌تر و عمومی‌تر سود می‌برند، و مدل‌های ترانسفورماتور ظرفیت مدل‌سازی زیادی را در رژیم‌های آموزشی خود نظارت نشان داده‌اند.

علاوه بر این، ما به صورت ریاضی پنج معماری را که معیار قرار می‌دهیم، توصیف می‌کنیم و پیش‌پردازش داده‌ها و تبدیل‌های اسکلتی را که باید انجام شوند، توصیف می‌کنیم، به طوری که ترانسفورماتورهای بینایی باید به طور یکپارچه روی توالی‌های اسکلت کار کنند. ما همچنین افزایش داده‌ها، مجموعه داده‌های آموزش و معیار، و تنظیمات آزمایشی را توصیف می‌کنیم.

ما نتایج CASIA-B و FVG را برای هر یک از پنج معماری و دو مجموعه داده «پیش‌آموزشی در طبیعت» نشان می‌دهیم. در نهایت، ما یک مطالعه فرسایشی در مورد رابطه بین اندازه وصله مکانی و زمانی انجام می‌دهیم و بحث مختصری از نتایج خود ارائه می‌کنیم. ما کد منبع خود را برای شفافیت و تکرارپذیری در GitHub (https://github.com/cosmaadrian/gait-vit، دسترسی به 28 فوریه 2023) در دسترس عموم قرار می دهیم.

2. کارهای مرتبط

در این بخش، مروری کوتاه بر روش‌های موجود برای تشخیص راه رفتن در محیط‌های کنترل‌نشده و «در طبیعت» داریم. علاوه بر این، ما توسعه‌های اصلی مدل‌های ترانسفورماتور و به‌ویژه کاربرد آن‌ها در حوزه بینایی را شرح می‌دهیم.

2.1. تشخیص راه رفتن

همانند شناسایی مبتنی بر چهره، تشخیص راه رفتن به یادگیری متریک متکی است. برخلاف روش‌های سنتی احراز هویت بیومتریک، که به یک تصویر تکیه می‌کنند (مثلاً تشخیص چهره) و نیاز به همکاری گسترده دارند (مثلاً تأیید هویت بیومتریک مبتنی بر عنبیه)، ویژگی‌های راه رفتن به‌عنوان دنباله‌ای از عکس‌های فوری حرکتی پردازش می‌شوند. چنین پویایی ژست‌ها به پیچیدگی بیشتری در تعیین آموزنده‌ترین توالی فرعی نیاز دارند، اما استفاده از احراز هویت محجوب در فاصله را امکان‌پذیر می‌سازند.

در این زمینه، کار مستلزم آموزش یک شبکه رمزگذار برای ترسیم توالی راه رفتن در یک فضای تعبیه شده است که در آن شباهت جاسازی با شباهت راه رفتن مطابقت دارد. تعبیه پیاده روی هایی که متعلق به یک فرد است باید نزدیک به فضای تعبیه شده باشد و کسانی که از هویت های مختلف آمده اند باید فاصله بیشتری داشته باشند. در این فضای تعبیه می توان با به دست آوردن تعبیه دنباله راه رفتن و استفاده از نزدیکترین همسایه استنباط کرد. رویکرد در پایگاه داده پیاده روی های شناخته شده

رویکردهای فعلی در تشخیص مبتنی بر راه رفتن به دو دسته تقسیم می شوند: مبتنی بر ظاهر [8،9] و مبتنی بر مدل [10،12،30]. روش‌های مبتنی بر ظاهر ابتدا شبح‌های سوژه‌های در حال راه رفتن را با الگوریتم‌های تفریق یا تقسیم‌بندی پس‌زمینه از هر فریم ویدیو به دست می‌آورند.

سپس دنباله ای از شبح ها به معماری های مبتنی بر CNN وارد می شود که ویژگی های مکانی و زمانی را استخراج می کند که در یک جاسازی نهایی برای تشخیص جمع می شوند. رویکردهای مبتنی بر مدل، اسکلت‌ها را از ویدیوهای RGB با مدل‌های تخمینی تخمینی استخراج می‌کنند [21،22]. دنباله‌های اسکلت‌ها معمولاً توسط مدل‌هایی پردازش می‌شوند که بر روی پیچیدگی‌های نمودار [10،30] برای به دست آوردن جاسازی راه رفتن تکیه دارند.

GaitSet، کار Chao و همکاران. [8]، راه رفتن را به عنوان مجموعه ای نامرتب از شبح ها در نظر می گیرد. نویسندگان استدلال می کنند که این نمایش نسبت به یک دنباله شبح انعطاف پذیرتر است، زیرا در آرایش های مختلف فریم ها یا ترکیبی از جهت ها و تغییرات چندگانه راه رفتن مقاوم است. آنها از لایه های پیچیدگی برای هر شبح استفاده می کنند تا ویژگی های سطح تصویر را به دست آورند و آنها را در یک ویژگی سطح مجموعه با Set Pooling ترکیب کنند. آنها خروجی نهایی را با استفاده از نسخه تطبیق هرمی افقی [31] به دست می آورند.

فن و همکاران [9] متوجه این واقعیت شد که بخش‌های خاصی از شبح انسان باید بیان فضایی و زمانی خود را داشته باشند زیرا هر یک دارای یک الگوی منحصر به فرد است. معماری آن‌ها، GaitPart، از لایه‌های کانولوشن کانونی (FConvs) استفاده می‌کند، که نوعی پیچیدگی تخصصی با میدان دریافتی محدودتر است. نویسندگان استدلال می‌کنند که FConvs به معماری آنها در یادگیری ویژگی‌های ریزدانه‌تر برای بخش‌های مختلف بدن متحرک کمک می‌کند. آنها همچنین ماژول‌های ضبط میکرو حرکت را معرفی می‌کنند که برای استخراج ویژگی‌های توالی‌های زمانی کوچک به کار می‌روند.

تیپ و همکاران [30] GaitGraph را پیشنهاد می‌کند که از یک شبکه کانولوشنال گراف سازگار به نام ResGCN [32] برای رمزگذاری ویژگی‌های مکانی-زمانی به‌دست‌آمده از دنباله اسکلت‌ها استفاده می‌کند. لی و همکاران [33] PTP را پیشنهاد می‌کند، که ساختاری است که ویژگی‌های زمانی چندگانه را از یک چرخه راه رفتن بر اساس تحلیل آن‌ها از مهم‌ترین مراحل راه رفتن جمع‌آوری می‌کند.

آنها همچنین از یک شبکه کانولوشن گراف برای استخراج ویژگی های فضایی استفاده می کنند که همراه با PTP کار می کند. نویسندگان یک روش جدید تقویت داده را معرفی می کنند که راه رفتن را به گونه ای تغییر می دهد که دارای گام های متعدد در یک چرخه واقعی تر باشد.

با این حال، متفاوت از کارهای قبلی، هدف ما بررسی عملکرد معماری‌های تشخیص راه رفتن در سناریوهای خود نظارت است. با الهام از پیشرفت فوق‌العاده در حوزه بینایی رایانه، ما پیشنهاد می‌کنیم که معماری‌های مبدل بینایی موجود را برای کار بر روی توالی‌های اسکلت به جای تصاویر و آزمایش ظرفیت مدل‌سازی آن‌ها در سناریوهای تحت نظارت خود، تطبیق دهیم. اکثر کارهای دیگر [8،9،30] تلاش خود را بر توسعه معماری های عصبی متمرکز می کنند که به نتایج چشمگیر در تشخیص راه رفتن روی مجموعه داده های کنترل شده دست می یابد.

با این حال، ما قصد داریم نیاز به حاشیه نویسی های دستی بسیار گران قیمت برای مجموعه داده های راه رفتن را حذف کنیم و راه هایی را بررسی کنیم که در آن یادگیری خود نظارتی برای تجزیه و تحلیل راه رفتن مناسب است.

memory enhancement

کارهای قبلی در این حوزه [10،12] پتانسیل یادگیری بازنمایی راه رفتن خوب از مجموعه داده هایی با حاشیه نویسی ضعیف را نشان دادند. Cosmaand Radoi [12] GaitFormer را پیشنهاد کرد، اولین معماری مبتنی بر ترانسفورماتور برای توالی های اسکلت پردازشی، با الهام از مدل ViT [24]. مشابه [12]، ما سعی می کنیم عملکرد سایر مدل های ترانسفورماتور بینایی را با دینامیک مکانی و زمانی متفاوت در مکانیزم پردازش پچ بررسی کنیم. مجموعه داده های مقیاس بزرگ برای تشخیص راه رفتن در گذشته پیشنهاد شده است [7،12]، که امکان توسعه معماری های عمومی برای یادگیری بازنمایی را فراهم می کند.


For more information:1950477648nn@gmail.com


شما نیز ممکن است دوست داشته باشید