کاوش ترانسفورماتورهای بینایی تحت نظارت خود برای تشخیص راه رفتن در قسمت 1 وحشی
Nov 24, 2023
خلاصه:
نحوه راه رفتن (راه رفتن) یک بیومتریک قدرتمند است که به عنوان یک روش انگشت نگاری منحصر به فرد استفاده می شود و اجازه می دهد تا تجزیه و تحلیل رفتاری محجوب در فاصله بدون همکاری موضوع انجام شود.
همه ما می دانیم که ورزش به سلامتی کمک می کند. علاوه بر این، ورزش به بهبود حافظه نیز کمک می کند. پیادهروی سادهترین و آسانترین شکل تمرین برای تمرین است و بسیاری از مردم هنگام پیادهروی یا دویدن از آرامش لذت میبرند. اکنون، تحقیقات بیشتر نشان می دهد که راه رفتن کارهای قدرتمندی برای مغز انجام می دهد.
اول، پیاده روی سیستم عصبی مغز را تحریک می کند که به تقویت عملکرد مغز کمک می کند. هنگامی که بدن حرکت می کند، ضربان قلب و جریان خون ما افزایش می یابد، که همچنین مغز را تحریک می کند تا نورون ها و سیناپس های بیشتری تولید کند. ارتباط بین این نورون ها و سیناپس ها می تواند شبکه های عصبی جدید و فرآیندهای فکری سریعتر ایجاد کند.
دوم، پیاده روی می تواند استرس و اضطراب را کاهش دهد، که برای بهبود حافظه بسیار مهم است. زمانی که ذهن و بدن در حالت تنش، افسردگی یا اضطراب هستند، مغز هورمونی به نام کورتیزول ترشح می کند. کورتیزول به نورون ها و سیناپس های مغز آسیب می رساند که می تواند منجر به از دست دادن حافظه شود. پیاده روی استرس و اضطراب را از بین می برد، تولید کورتیزول را در بدن کاهش می دهد و به حفظ سلامت نورون ها و سیناپس ها کمک می کند.
در نهایت، پیاده روی باعث افزایش گردش خون در مغز می شود. برخی از مطالعات نشان می دهد که گردش خون خوب می تواند به بهبود حافظه کمک کند. با افزایش سن، رگ های خونی مغز به تدریج مسدود می شوند و در نتیجه اکسیژن کافی به مغز نمی رسد. پیاده روی می تواند سلامت قلب را افزایش دهد و به قلب اجازه می دهد تا اکسیژن و مواد مغذی را به طور موثرتری به مغز برساند و در نتیجه حافظه و عملکرد مغز را تقویت کند.
بنابراین، پیاده روی یک شکل عالی از ورزش هم برای جوان و هم برای پیر است. پیاده روی علاوه بر بهبود سلامت جسمانی می تواند به بهبود حافظه نیز کمک کند. بگذارید هر روز مسافتی را پیاده روی کنیم تا خودمان را سالم تر و بهتر کنیم! مشاهده می شود که ما نیاز به بهبود حافظه داریم و سیستانچ دسرتیکولا می تواند حافظه را به میزان قابل توجهی بهبود بخشد زیرا سیستانچ دسرتیکولا یک ماده دارویی سنتی چینی است که اثرات منحصر به فرد بسیاری دارد که یکی از آنها بهبود حافظه است. اثربخشی گوشت چرخ کرده از مواد فعال مختلفی که شامل اسید، پلی ساکاریدها، فلاونوئیدها و غیره است، ناشی می شود. این مواد می توانند به طرق مختلف سلامت مغز را ارتقا دهند.

روی 10 روش برای بهبود حافظه کلیک کنید
برخلاف روشهای سنتیتر احراز هویت بیومتریک، تجزیه و تحلیل راه رفتن نیازی به همکاری صریح سوژه ندارد و میتواند در تنظیمات با وضوح پایین انجام شود، بدون اینکه نیازی به بدون مانع/دیدن صورت سوژه باشد. بیشتر رویکردهای کنونی در یک محیط کنترل شده، با داده های مشروح استاندارد طلایی تمیز، که به توسعه معماری های عصبی برای تشخیص و طبقه بندی کمک می کند، توسعه یافته اند.
اخیراً تجزیه و تحلیل راه رفتن جرأت کرده است از مجموعه دادههای متنوعتر، بزرگتر و واقعیتر برای شبکههای از پیش آموزشدیده به شیوهای خود نظارت استفاده کند. رژیم آموزشی خود نظارتی، یادگیری بازنمایی های متنوع و قوی راه رفتن را بدون حاشیه نویسی دستی گران قیمت انسانی امکان پذیر می کند. در این کار به دلیل استفاده فراگیر از مدل ترانسفورماتور در همه زمینههای یادگیری عمیق، از جمله بینایی رایانه، استفاده از معماریهای مختلف مبدل بینایی که مستقیماً برای تشخیص راه رفتن خود نظارت اعمال میشوند را بررسی میکنیم.
ما ViT، CaiT، CrossFormer، Token2Token و TwinsSVT ساده را بر روی دو مجموعه داده راه رفتن در مقیاس بزرگ تطبیق داده و دوباره آموزش می دهیم: GREW و DenseGait. ما نتایج گستردهای برای شات صفر و تنظیم دقیق در دو مجموعه داده تشخیص راه رفتن معیار، CASIA-B و FVG ارائه میکنیم، و رابطه بین مقدار اطلاعات راه رفتن مکانی و زمانی مورد استفاده توسط ویژوالترانسفورماتور را بررسی میکنیم.
نتایج ما نشان میدهد که طراحی مدلهای ترانسفورماتور برای پردازش حرکت از یک رویکرد سلسله مراتبی (به عنوان مثال، مدلهای CrossFormer) در نمایشگاههای حرکتی دانهریزتر نسبتاً بهتر از رویکردهای کل اسکلت قبلی استفاده میکند.
کلید واژه ها:
تشخیص راه رفتن؛ احراز هویت بیومتریک؛ ترانسفورماتور بینایی؛ تخمین وضع یادگیری خود نظارتی؛ یادگیری متضاد
1. معرفی
نحوه حرکت ما حاوی سرنخ های مهمی درباره خودمان است. به طور خاص، راه رفتن ما (نحوه راه رفتن) در پزشکی [1]، روانشناسی [2] و علوم ورزشی [3] مورد مطالعه قرار گرفته است. اخیراً، تجزیه و تحلیل راه رفتن توجه بیشتری را از جامعه علوم رایانه به خود جلب کرده است که همزمان با پیشرفت تصاعدی یادگیری عمیق و در دسترس بودن گسترده سخت افزار محاسباتی است.
سیستم های تجزیه و تحلیل راه رفتن مبتنی بر هوش مصنوعی قادر به تشخیص موفقیت آمیز افراد [6-10]، تخمین جمعیت شناختی مانند جنسیت و سن [11]، و تخمین ویژگی های خارجی مانند لباس [12]، بدون استفاده از هیچ نشانه ظاهری خارجی بوده اند. این نتایج با توجه به مقدار زیادی از تفاوت های فردی در راه رفتن، که به دلیل تفاوت در ساختار اسکلتی عضلانی، عوامل ژنتیکی و محیطی، و همچنین وضعیت عاطفی و شخصیت واکر است، تعجب آور نیست [13].
سیستمهای فعلی فقط در محیطهای داخلی کنترلشده واقعاً آموزش دیده و آزمایش میشوند. اکثر روشها از مجموعه دادههای CASIA-B [6] به عنوان معیار استاندارد برای مدلهای تشخیص راه رفتن استفاده میکنند، که شامل 124 سوژه است که در داخل خانه به شیوهای کاملاً کنترلشده با دوربینهای متعدد ضبط شدهاند. پیچیدگی در دنیای واقعی را نمی توان به طور کامل با چنین سناریوهای محدودی مدل کرد. اخیراً تمرکز بر مدلسازی راه رفتن در طبیعت، با مجموعه دادههایی مانند DenseGait [12]، GREW [7] و Gait3D [14] بوده است.

جمع آوری یک مجموعه داده در مقیاس بزرگ که تمیز و کاملاً حاشیه نویسی شده باشد نشان دهنده تلاش فوق العاده ای از نظر منابع مالی و زمان اختصاص داده شده است. بر اساس گزارش ها، مجموعه داده GREW [7] 3 ماه کار مداوم برای جمع آوری و حاشیه نویسی طول کشید. در حالی که چنین رویکردهایی در توسعه معماری های عصبی برای پردازش راه رفتن مفید بوده اند [8،9]، آنها به اندازه کافی متنوع نیستند که به درستی در محیط های آرام تر و در دنیای واقعی استفاده شوند.
جامعه هوش مصنوعی به آرامی از این رویکرد در حوزههای دیگر دور شده است، با روشهایی برای یادگیری خود نظارتی هم برای بینایی [15] و هم برای زبان [16] که کشش قابل توجهی به دست میآورد و اغلب از روشهای نظارت شده سنتی پیشی میگیرد. یادگیری خود نظارتی اخیر نشان داد که مدلهای خود نظارتی رفتارهای قویتری دارند و در حال ظهور هستند و بهصراحت در طول آموزش تعریف نشدهاند.
به عنوان مثال، DINO [17]، یک مبدل بینایی که در یک رژیم خود نظارتی آموزش دیده است، ویژگیهای خاص کلاس را آموخت که بخشبندی شی بدون نظارت را بدون استفاده از چنین برچسبهایی در طول آموزش قادر میسازد. Cosmaand Radoi [10] با آموزش ST-GCN [18] بر روی یک نسخه کوچکتر از DenseGait [12]، اولین روش متضاد را برای یادگیری خود نظارتی برای تحلیل راهنما پیشنهاد کرد. روش آنها نتایج معقولی را در مورد وظایف تشخیص راه رفتن پایین دستی به دست آورد و نشان داد که یک همبستگی قوی بین اندازه مجموعه داده از پیش آموزش دیده و عملکرد انتقال شات صفر وجود دارد.
در حالی که بسیاری از رویکردها برای تجزیه و تحلیل راه رفتن از شبحهای استخراج شده از تفریق پسزمینه استفاده میکنند [6،8،9]، استخراج شبحها در سناریوهای نظارت واقعی مستلزم استفاده از تکنیکهای پیشرفتهتر، مانند تقسیمبندی نمونه [19] است که هزینه محاسباتی بالایی دارد. دنبالهای از سیلوئتها فضای ذخیرهسازی قابل توجهی را اشغال میکنند و به اندازه کافی انعطافپذیر نیستند تا در کارهای مجاور دیگر مانند تشخیص فعالیت استفاده شوند. علاوه بر این، سیلوئتها نشانههای ظاهری ظریفی را رمزگذاری میکنند، که مشخص نمیکند تا چه حد از حرکت در شناسایی استفاده میشود [20].
از سوی دیگر، مدلهای تخمین موقعیتی دوبعدی به طور فزایندهای دقیق و از نظر محاسباتی کارآمد شدهاند [21،22]. استخراج اسکلتها ارزان هستند و در حال حاضر از مشهای سهبعدی و حالتهای سهبعدی، بهویژه در فاصله دور، قابل اعتمادتر هستند. علاوه بر این، اسکلتهای دوبعدی از نظر ذخیرهسازی طولانیمدت بسیار سبکتر از سیلوئتها هستند.
معماریهای فعلی برای پردازش دنبالههای اسکلتها از ساختار نمودار فضایی طبیعی موجود در اسکلت انسان استفاده میکنند و یک سوگیری استقرایی را در طراحی مدل معرفی میکنند. مدل هایی مانند ST-GCN محبوب [18] و MS-G3D [23] نتایج چشمگیری برای تشخیص عمل مبتنی بر اسکلت مشاهده کرده اند.
همزمان، انفجاری در استفاده از مدلهای ترانسفورماتور در تقریباً تمام زمینههای یادگیری عمیق از زمان کاربرد اولیه آنها برای پردازش زبان طبیعی رخ داده است.
ترانسفورماتورها یک معماری کلی تری با سوگیری های القایی اندک در نظر گرفته می شوند. در ابتدا، ترانسفورماتورها برای مطابقت با مدلهای CNN برای طبقهبندی تصاویر [24] تلاش کردهاند، اما در حال حاضر از مدلهای دیگر پیشی گرفتهاند و نتایج امیدوارکنندهای را در سناریوهای تحت نظارت خود نشان میدهند، بیشتر از دیگر انواع معماریها، ترانسفورماتورها ظرفیت یادگیری و رفتارهای نوظهوری را تحت خود نشان دادهاند. - نظارت [17].
Cosma و Radoi [12] اولین کسانی بودند که GaitFormer را پیشنهاد کردند، یک انطباق مستقیم از مدل رمزگذار ترانسفورماتور بینایی برای تشخیص راه رفتن، با استفاده از اسکلتهای منفرد به عنوان "تصلههای ورودی"، که اساسا فقط توجه زمانی را انجام میدهند، و روابط توجه فضایی را نادیده میگیرند.
GaitFormer به روشی تحت نظارت خود آموزش دید و حتی بدون تنظیم دقیق از سایر روش های تشخیص راه رفتن پیشی گرفت. چنین کارهای قبلی دلگرم کننده است و راه را برای مطالعه عمیق تر در مورد کاربرد بالقوه معماری ترانسفورماتور برای تجزیه و تحلیل راه رفتن هموار می کند. آیا میتوان مدلهای ترانسفورماتور بینایی را برای یادگیری خود نظارتی نمایشهای راه رفتن اسکلت تطبیق داد؟
مسئله اصلی معماری در ترانسفورماتورهای بینایی، تعریف روابط مناسب بین وصله های تصویر است که اطلاعات محلی و جهانی را تعریف می کند. هنگامی که برای راه رفتن اعمال می شود، انتخاب ابعاد وصله با مقدار اطلاعات زمانی و مکانی کدگذاری شده دنباله اسکلت مطابقت دارد.
در این کار، ما یک مطالعه گسترده از پنج ترانسفورماتور بینایی مختلف را ارائه میکنیم که برای تشخیص راه رفتن تطبیق داده شدهاند. ما مدل کلاسیک ViT [24]، CaiT [25]، CrossFormer [26]، TwinsSVT [27] و ViT توکن به توکن [28] را بررسی می کنیم.

هر معماری به طور جداگانه به شیوه ای متضاد با نظارت خود بر روی دو مجموعه داده های "در طبیعت" در مقیاس بزرگ از توالی های اسکلت راه رفتن دوبعدی آموزش داده می شود: DenseGait - مجموعه داده ای که به طور خودکار از جریان های نظارت خام جمع آوری می شود، و GREW، یک مجموعه داده کوچکتر که حاوی حاشیه نویسی های انسانی تمیز است.
ما قابلیتهای انتقال را در دو مجموعه داده کنترلشده برای تشخیص راه رفتن، CASIA [6] و FVG [29] بررسی میکنیم. برای هر مجموعه داده، ما انتقال مستقیم (صفر شات) و کارایی داده را در طول تنظیم دقیق با آموزش با زیرمجموعه های به تدریج بزرگتر از مجموعه داده ها تجزیه و تحلیل می کنیم. ، ستون فقرات استاندارد برای اکثر ترانسفورماتورهای بینایی تا به امروز.
بقیه مقاله به شرح زیر سازماندهی شده است. ما یک مرور کلی در سطح بالا از کارهای مرتبط در مورد مدلهای تشخیص راه رفتن و ترانسفورماتورهای بینایی انجام میدهیم. مشاهده میکنیم که مدلهای نمایش راه رفتن از آموزش خود نظارتی برای داشتن جاسازیهای قویتر و عمومیتر سود میبرند، و مدلهای ترانسفورماتور ظرفیت مدلسازی زیادی را در رژیمهای آموزشی خود نظارت نشان دادهاند.
علاوه بر این، ما به صورت ریاضی پنج معماری را که معیار قرار میدهیم، توصیف میکنیم و پیشپردازش دادهها و تبدیلهای اسکلتی را که باید انجام شوند، توصیف میکنیم، به طوری که ترانسفورماتورهای بینایی باید به طور یکپارچه روی توالیهای اسکلت کار کنند. ما همچنین افزایش دادهها، مجموعه دادههای آموزش و معیار، و تنظیمات آزمایشی را توصیف میکنیم.
ما نتایج CASIA-B و FVG را برای هر یک از پنج معماری و دو مجموعه داده «پیشآموزشی در طبیعت» نشان میدهیم. در نهایت، ما یک مطالعه فرسایشی در مورد رابطه بین اندازه وصله مکانی و زمانی انجام میدهیم و بحث مختصری از نتایج خود ارائه میکنیم. ما کد منبع خود را برای شفافیت و تکرارپذیری در GitHub (https://github.com/cosmaadrian/gait-vit، دسترسی به 28 فوریه 2023) در دسترس عموم قرار می دهیم.
2. کارهای مرتبط
در این بخش، مروری کوتاه بر روشهای موجود برای تشخیص راه رفتن در محیطهای کنترلنشده و «در طبیعت» داریم. علاوه بر این، ما توسعههای اصلی مدلهای ترانسفورماتور و بهویژه کاربرد آنها در حوزه بینایی را شرح میدهیم.
2.1. تشخیص راه رفتن
همانند شناسایی مبتنی بر چهره، تشخیص راه رفتن به یادگیری متریک متکی است. برخلاف روشهای سنتی احراز هویت بیومتریک، که به یک تصویر تکیه میکنند (مثلاً تشخیص چهره) و نیاز به همکاری گسترده دارند (مثلاً تأیید هویت بیومتریک مبتنی بر عنبیه)، ویژگیهای راه رفتن بهعنوان دنبالهای از عکسهای فوری حرکتی پردازش میشوند. چنین پویایی ژستها به پیچیدگی بیشتری در تعیین آموزندهترین توالی فرعی نیاز دارند، اما استفاده از احراز هویت محجوب در فاصله را امکانپذیر میسازند.
در این زمینه، کار مستلزم آموزش یک شبکه رمزگذار برای ترسیم توالی راه رفتن در یک فضای تعبیه شده است که در آن شباهت جاسازی با شباهت راه رفتن مطابقت دارد. تعبیه پیاده روی هایی که متعلق به یک فرد است باید نزدیک به فضای تعبیه شده باشد و کسانی که از هویت های مختلف آمده اند باید فاصله بیشتری داشته باشند. در این فضای تعبیه می توان با به دست آوردن تعبیه دنباله راه رفتن و استفاده از نزدیکترین همسایه استنباط کرد. رویکرد در پایگاه داده پیاده روی های شناخته شده
رویکردهای فعلی در تشخیص مبتنی بر راه رفتن به دو دسته تقسیم می شوند: مبتنی بر ظاهر [8،9] و مبتنی بر مدل [10،12،30]. روشهای مبتنی بر ظاهر ابتدا شبحهای سوژههای در حال راه رفتن را با الگوریتمهای تفریق یا تقسیمبندی پسزمینه از هر فریم ویدیو به دست میآورند.
سپس دنباله ای از شبح ها به معماری های مبتنی بر CNN وارد می شود که ویژگی های مکانی و زمانی را استخراج می کند که در یک جاسازی نهایی برای تشخیص جمع می شوند. رویکردهای مبتنی بر مدل، اسکلتها را از ویدیوهای RGB با مدلهای تخمینی تخمینی استخراج میکنند [21،22]. دنبالههای اسکلتها معمولاً توسط مدلهایی پردازش میشوند که بر روی پیچیدگیهای نمودار [10،30] برای به دست آوردن جاسازی راه رفتن تکیه دارند.
GaitSet، کار Chao و همکاران. [8]، راه رفتن را به عنوان مجموعه ای نامرتب از شبح ها در نظر می گیرد. نویسندگان استدلال می کنند که این نمایش نسبت به یک دنباله شبح انعطاف پذیرتر است، زیرا در آرایش های مختلف فریم ها یا ترکیبی از جهت ها و تغییرات چندگانه راه رفتن مقاوم است. آنها از لایه های پیچیدگی برای هر شبح استفاده می کنند تا ویژگی های سطح تصویر را به دست آورند و آنها را در یک ویژگی سطح مجموعه با Set Pooling ترکیب کنند. آنها خروجی نهایی را با استفاده از نسخه تطبیق هرمی افقی [31] به دست می آورند.
فن و همکاران [9] متوجه این واقعیت شد که بخشهای خاصی از شبح انسان باید بیان فضایی و زمانی خود را داشته باشند زیرا هر یک دارای یک الگوی منحصر به فرد است. معماری آنها، GaitPart، از لایههای کانولوشن کانونی (FConvs) استفاده میکند، که نوعی پیچیدگی تخصصی با میدان دریافتی محدودتر است. نویسندگان استدلال میکنند که FConvs به معماری آنها در یادگیری ویژگیهای ریزدانهتر برای بخشهای مختلف بدن متحرک کمک میکند. آنها همچنین ماژولهای ضبط میکرو حرکت را معرفی میکنند که برای استخراج ویژگیهای توالیهای زمانی کوچک به کار میروند.
تیپ و همکاران [30] GaitGraph را پیشنهاد میکند که از یک شبکه کانولوشنال گراف سازگار به نام ResGCN [32] برای رمزگذاری ویژگیهای مکانی-زمانی بهدستآمده از دنباله اسکلتها استفاده میکند. لی و همکاران [33] PTP را پیشنهاد میکند، که ساختاری است که ویژگیهای زمانی چندگانه را از یک چرخه راه رفتن بر اساس تحلیل آنها از مهمترین مراحل راه رفتن جمعآوری میکند.
آنها همچنین از یک شبکه کانولوشن گراف برای استخراج ویژگی های فضایی استفاده می کنند که همراه با PTP کار می کند. نویسندگان یک روش جدید تقویت داده را معرفی می کنند که راه رفتن را به گونه ای تغییر می دهد که دارای گام های متعدد در یک چرخه واقعی تر باشد.
با این حال، متفاوت از کارهای قبلی، هدف ما بررسی عملکرد معماریهای تشخیص راه رفتن در سناریوهای خود نظارت است. با الهام از پیشرفت فوقالعاده در حوزه بینایی رایانه، ما پیشنهاد میکنیم که معماریهای مبدل بینایی موجود را برای کار بر روی توالیهای اسکلت به جای تصاویر و آزمایش ظرفیت مدلسازی آنها در سناریوهای تحت نظارت خود، تطبیق دهیم. اکثر کارهای دیگر [8،9،30] تلاش خود را بر توسعه معماری های عصبی متمرکز می کنند که به نتایج چشمگیر در تشخیص راه رفتن روی مجموعه داده های کنترل شده دست می یابد.
با این حال، ما قصد داریم نیاز به حاشیه نویسی های دستی بسیار گران قیمت برای مجموعه داده های راه رفتن را حذف کنیم و راه هایی را بررسی کنیم که در آن یادگیری خود نظارتی برای تجزیه و تحلیل راه رفتن مناسب است.

کارهای قبلی در این حوزه [10،12] پتانسیل یادگیری بازنمایی راه رفتن خوب از مجموعه داده هایی با حاشیه نویسی ضعیف را نشان دادند. Cosmaand Radoi [12] GaitFormer را پیشنهاد کرد، اولین معماری مبتنی بر ترانسفورماتور برای توالی های اسکلت پردازشی، با الهام از مدل ViT [24]. مشابه [12]، ما سعی می کنیم عملکرد سایر مدل های ترانسفورماتور بینایی را با دینامیک مکانی و زمانی متفاوت در مکانیزم پردازش پچ بررسی کنیم. مجموعه داده های مقیاس بزرگ برای تشخیص راه رفتن در گذشته پیشنهاد شده است [7،12]، که امکان توسعه معماری های عمومی برای یادگیری بازنمایی را فراهم می کند.
For more information:1950477648nn@gmail.com






