AttentionMNIST: مجموعه داده ردیابی توجه با کلیک ماوس برای تشخیص اعداد دست نویس و الفبا

Feb 22, 2024

چندین مدل مبتنی بر توجه که اشیاء را از طریق دنباله‌ای از نگاه‌ها تشخیص می‌دهند، نتایجی را در زمینه تشخیص اعداد دست‌نویس گزارش کرده‌اند. با این حال، هیچ داده ردیابی توجه برای تشخیص اعداد دستی یا حروف الفبا در دسترس نیست. در دسترس بودن چنین داده هایی به مدل های مبتنی بر توجه اجازه می دهد تا در مقایسه با عملکرد انسان ارزیابی شوند. ما داده‌های ردیابی توجه کلیک ماوس را از 382 شرکت‌کننده جمع‌آوری می‌کنیم که سعی می‌کنند اعداد دست‌نویس و حروف الفبا (بزرگ و کوچک) را از طریق نمونه‌گیری متوالی از تصاویر تشخیص دهند. تصاویر از مجموعه داده های معیار به عنوان محرک ارائه می شوند. مجموعه داده جمع آوری شده، به نام AttentionMNIST، شامل دنباله ای از مکان های نمونه (کلیک ماوس)، prبرچسب(های) کلاس در هر نمونه برداری، و مدت زمان هر نمونه برداری. به طور متوسط، شرکت کنندگان ما تنها 12.8٪ از یک تصویر را برای تشخیص مشاهده می کنند. ما یک مدل پایه برای پیش‌بینی مکان و کلاس(های) که شرکت‌کننده در نمونه‌گیری بعدی انتخاب می‌کند، پیشنهاد می‌کنیم. هنگامی که در معرض محرک‌ها و شرایط آزمایشی مشابه شرکت‌کنندگان ما قرار می‌گیرد، یک مدل تقویتی مبتنی بر توجه بسیار مورد استناد از کارایی انسانی برخوردار نیست.

Chinese herb cistanche

سیستانچ چینیگیاه دارویی- جلوگیری از محصولات بیماری آلزایمر

مدل‌های یادگیری ماشینی (ML) که اشیا را از طریق دنباله‌ای از نگاه‌ها تشخیص می‌دهند، در سال‌های اخیر به دلیل مقیاس‌پذیری و کارایی‌شان مورد توجه قرار گرفته‌اند. بسیاری از این مدل‌ها، مانند 1 تا 7، نتایج تجربی را بر روی مجموعه داده‌های معیار MNIST برای تشخیص اعداد دست‌نویس گزارش کرده‌اند. متأسفانه، هیچ داده ردیابی توجه برای MNIST در دسترس نیست. این امر از ارزیابی مدل های مبتنی بر توجه در مقایسه با عملکرد انسانی جلوگیری می کند. ما با جمع‌آوری مجموعه داده‌ای از شرکت‌کنندگان بزرگسال که سعی می‌کردند اعداد دست‌نویس و حروف الفبای تصاویر را از طریق نمونه‌گیری متوالی تشخیص دهند، در آن شکاف افتادیم. بر خلاف ردیابی توجه حرکت چشم (emAT)، شرکت‌کننده روی مکانی در تصویری که می‌خواهد ببیند کلیک می‌کند (شکلی از ردیابی توجه با کلیک ماوس (mcAT)). بلافاصله پس از آن، کلاس(هایی) را انتخاب می کند که پیش بینی می کند شی ممکن است بر اساس مشاهداتش تا کنون به آن تعلق داشته باشد. بنابراین، در هر قسمت نمونه‌برداری، داده‌های ما شامل مکان تصویر انتخاب شده، برچسب(های) کلاس پیش‌بینی‌شده و زمان صرف شده از آخرین قسمت توسط شرکت‌کننده است. پس از هر تصویر، شرکت کننده بر اساس عملکرد خود (دقت و کارایی) جایزه دریافت می کند.

Anti Alzheimer's disease

فواید سیستانچ توبولوزا-ضد آلزایمر

مزایای mcAT نسبت به emAT برای تشخیص دست نوشته اعداد/الفبا.

(1) گوشت دارای تنوع درونی و بین فردی قابل توجهی در محل تثبیت است، به ویژه برای محرک های ساکن (تصاویر) 8،9. بنابراین برای رسیدن به نتایج آماری قابل توجهی به مقدار زیادی داده فیکساسیون چشم نیاز است. mcAT به برخی از منابع نویز فنی رایج در داده های ردیابی چشم حساس نیست. (2) حرکات چشم می تواند ناشی از مکانیسم های ارادی و غیر ارادی باشد. برای تسهیل تصمیم‌گیری وابسته به کار، سیگنال‌های زمان، زمینه و تقویت کافی را به شرکت‌کنندگان ارائه می‌کنیم که می‌تواند به یک مدل ML نیز ارائه شود. (3) دقت و صحت داده های emAT به ردیاب چشم بستگی دارد در حالی که همان mcAT مستقل از هر دستگاهی است. (4) همگام سازی حرکات چشم با انتخاب کلاس یک چالش است. برای غلبه بر این، در مورد ما، محل نمونه‌گیری و کلاس(های) در همان قسمت انتخاب می‌شوند. (5) در نهایت، روش ما امکان جمع‌آوری داده‌ها را با استفاده از Amazon Mechanical Turk (MTurk) می‌دهد، که در 12،13، مقرون به صرفه و مقرون به صرفه است و به راحتی قابل تکرار است.

مشارکت ها

ما یک مجموعه داده mcAT به نام AttentionMNIST را با استفاده از MTurk از 382 شرکت‌کننده جمع‌آوری می‌کنیم، که برای تشخیص دقیق و کارآمد اعداد دست‌نویس و الفبای دست‌نویس (بزرگ و کوچک) از تصاویر از طریق نمونه‌گیری متوالی پاداش دریافت می‌کنیم. تصاویر از مجموعه داده های معیار (MNIST، EMNIST) به عنوان محرک ارائه می شوند. به طور متوسط، 169.1 پاسخ در هر کلاس اعداد/الفبا ثبت می شود. با استفاده از این مجموعه داده، موارد زیر را نشان می‌دهیم: • به طور متوسط، شرکت‌کنندگان به 4.2، 4.7، و 4.9 نمونه نیاز دارند تا الفبای اعداد، بزرگ و کوچک را تشخیص دهند که به ترتیب تنها با 11.3، 13.4 و 13.7 درصد از مساحت تصویر مطابقت دارند. . دقت طبقه بندی با چندین نمونه افزایش می یابد. • مدلی که به عنوان خط مبنا ارائه می‌شود، می‌تواند کلاس(ها) و مکانی را که شرکت‌کننده در قسمت نمونه‌گیری بعدی انتخاب می‌کند، به ترتیب با دقت 74.4% و 67.7% پیش‌بینی کند که هر دو در تمام نمونه‌گیری‌ها و مجموعه داده‌ها میانگین گرفته شده‌اند. دقت پیش‌بینی کلاس با افزایش نمونه‌ها افزایش می‌یابد و دقت پیش‌بینی مکان کاهش می‌یابد. • هنگامی که در معرض محرک‌ها و شرایط مشابه شرکت‌کنندگان ما قرار می‌گیرد، یک مدل توجه مکرر مبتنی بر تقویت (RAM)3 که به شدت مورد استناد قرار می‌گیرد، به 3.7، 8.5، و 7.6 نمونه نیاز دارد تا یک الفبای اعداد، بزرگ و کوچک را تشخیص دهد که با 8.9٪ مطابقت دارد. , 21.0% به ترتیب 18.7% از مساحت تصویر. سایر مدل های تقویت مبتنی بر توجه (به عنوان مثال، 1،2،4،5،7،14) را می توان به طور مشابه در مقایسه با عملکرد انسان ارزیابی کرد.

Cistanche supplement near me-Improve memory2

مکمل سیستانچ نزدیک من-بهبود حافظه

برای مشاهده محصولات تقویت کننده حافظه و پیشگیری از بیماری آلزایمر Cistanche اینجا را کلیک کنید

【بیشتر بخواهید】 ایمیل:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

کار مرتبط

توالی زمانی کلیک‌های ماوس در mcAT مشابه مسیر اسکن حرکت چشم است. mcAT می تواند به طور موثر جایگزین emAT شود زیرا آنها به طور قابل توجهی همبستگی دارند10،12،13،15-17. انواع مختلفی از محرک ها در مطالعات mcAT استفاده شده است، مانند تصاویری از اشیاء جاندار و بی جان10، تصاویر صحنه های طبیعی12،13، صفحات وب ایستا13، طرح بندی صفحات جستجو16، و دو لیست از رشته های الفبایی عددی برای مقایسه بصری17. با این حال، mcAT برای کارهای دسته‌بندی اعداد/الفبای دست‌نویس یا ارزیابی مدل‌های طبقه‌بندی مبتنی بر توجه استفاده نشده است. مطالعات mcAT از ویژگی‌هایی مانند زمان تماس، فرکانس تثبیت نسبی در مناطق مورد علاقه (AOI)، نسبت نسبی افرادی که حداقل یک بار در یک AOI10 کلیک کرده‌اند، تعداد تثبیت‌ها در هر آزمایش، اصلاح مجدد در آزمایش‌ها، زمان‌های ماندن و مسیرهای اسکن استفاده کرده‌اند. نقشه های تثبیت12،13، AOI و الگوی جریان اطلاعات16. توالی مکان‌های کلیک با مهر زمانی و برچسب‌های کلاس پیش‌بینی‌شده، داده‌های خام لازم برای ارزیابی کارایی و دقت مدل‌های مبتنی بر توجه یا انسان‌ها در وظایف طبقه‌بندی را تشکیل می‌دهند. از این داده ها می توان ویژگی های مختلفی را استخراج کرد. مجموعه داده mcAT ما، با مزایای متعدد نسبت به داده های ردیابی چشم، شکاف مهمی را در تحقیقات مدل مبتنی بر توجه در هوش مصنوعی، ML و سایر زمینه ها پر می کند. مجموعه داده ما به مدل های مبتنی بر توجه اجازه می دهد تا در مقایسه با عملکرد انسان ارزیابی شوند. در میان چیزهای دیگر، این توسعه سیستم‌های تشخیص کاراکتر نوری کارآمد و بلادرنگ را که در عمل کاربرد وسیعی دارند، تسهیل می‌کند (به مثال 18-20 مراجعه کنید). اصول هدایت تثبیت بصری را می توان با استفاده از مجموعه داده ما فرضیه و آزمایش کرد. اصول موفقیت‌آمیز را می‌توان برای توسعه سیستم‌هایی برای کارهای تشخیص بصری در دنیای واقعی که در آن کارایی یک نگرانی کلیدی است، مانند رانندگی خودکار، منتقل کرد.

داده ها

داده‌های ما شامل دنباله‌ای از قسمت‌های T برای هر شرکت‌کننده است. داده های هر قسمت شامل (1) مکان در تصویر کلیک شده توسط شرکت کننده (یک کلیک در تصویر در هر قسمت)، (2) کلاس(های) انتخاب شده توسط شرکت کننده، و (3) زمان صرف شده توسط شرکت کننده است. شرکت کننده برای ثبت نمونه فعلی (یعنی زمان سپری شده بین آخرین و کلیک فعلی در تصویر). این بخش فرآیند جمع آوری داده های ما از جمله انتخاب محرک ها، شرکت کنندگان، وظایف بصری، امتیازدهی عملکرد و فیلتر کردن داده ها را توضیح می دهد.

انتخاب محرک. محرک ها از تصاویر در دو مجموعه داده معیار انتخاب می شوند: (1)

مجموعه داده MNIST21 شامل 70،000 تصویر برچسب دار (28×28 پیکسل) از 10 عدد دست نویس {0، 1، ...، 9} است. (2)

مجموعه داده EMNIST22 شامل 145600 تصویر (28×28 پیکسل) از الفبای دست نویس انگلیسی به حروف بزرگ و کوچک است که یک کلاس متعادل را تشکیل می دهد. همه تصاویر با یکی از 26 کلاس {a, b, ..., z} برچسب گذاری شده اند. با این حال، برچسب بزرگ یا کوچک با هیچ تصویر مرتبط نیست. از هر دسته، ما 15 اعداد خوش فرم را از MNIST و 15 الفبای خوش فرم را از مجموعه داده های بزرگ و کوچک EMNIST انتخاب می کنیم. یک عدد یا الفبای خوش فرم شبیه به هنجار کلاس خود است. بنابراین، ما محرک‌هایی را از مجموعه‌ای از 15({12}})=930 تصویر منحصربه‌فرد، با ۱۵ تصویر متعلق به هر یک از ۶۲ کلاس ارائه می‌کنیم. تصاویر 930 خوش فرم به صورت زیر انتخاب می شوند:

مرحله 1: هر تصویر را با استفاده از min-max نرمال کنید تا شدت بین 0 و 1 مقیاس شود.

مرحله 2: تصاویر EMNIST را با حروف بزرگ یا کوچک برچسب بزنید. برای هر کلاس الفبا، یک الفبای خوش فرم از هر دو تصویر بزرگ و کوچک به صورت دستی انتخاب و برچسب گذاری می شود. شباهت کسینوس تمام تصاویر متعلق به آن کلاس با دو تصویر برچسب زده شده محاسبه می شود. به تصاویری که بالاتر از آستانه تشابه کسینوس هستند (به طور تجربی به عنوان 0.8 انتخاب شده اند) برچسب بزرگ یا کوچک اختصاص داده می شود.

مرحله 3: میانگین تصاویر متعلق به هر کلاس را محاسبه کنید. تصویر متوسط ​​یک طبقه هنجار آن را تشکیل می دهد. اگر شباهت کسینوس آن با میانگین تصویر کلاسش بیشتر از آستانه تعیین شده تجربی باشد (7/{1}} برای MNIST، 0}.75 برای EMNIST) یک تصویر واجد شرایط محرک بودن است.

مرحله 4: از بین تصاویر واجد شرایط، 15 تصویر از هر کلاس بر اساس میزان شکل گیری آنها به صورت دستی انتخاب می شوند. هر تصویر، که در اصل 28×28 پیکسل است، با حذف پیکسل‌های نزدیک به مرزها به 27×25 کاهش می‌یابد زیرا هیچ تغییر شدتی ندارند. میانگین این 15 تصویر برای هر یک از 62 کلاس محاسبه می شود. ما این تصاویر میانگین را به صورت I1، I2، ...، In برای n کلاس در هر مجموعه داده مشخص می کنیم.

شركت كنندگان.

در مجموع 382 فرد بالغ مجزا در مطالعه ما شرکت کردند. هیچ معیار انتخابی استفاده نشد. یک شرکت‌کننده می‌تواند به چندین تصویر پاسخ دهد. برای هر یک از 62 کلاس، به طور متوسط ​​169.1 پاسخ ثبت شد.

man-5989553_960_720

فواید سیستانچ توبولوزاضد بیماری آلزایمر

کار بصری

رابط MTurk برای کار بصری ما در شکل 1 نشان داده شده است. یک بوم با اندازه 270×250 یک تصویر پس زمینه با شدت کم را همیشه نمایش می دهد. پس‌زمینه و تصاویر محرک ده بار به 270×250 نمونه‌برداری می‌شوند. مرکز بوم با مرکز تصاویر تراز شده است. پس‌زمینه در ابتدا، پس‌زمینه میانگین تمام تصاویر موجود در مجموعه داده‌ای است که محرک از آن گرفته شده است. پس از اولین قسمت، پس‌زمینه میانگین تمام تصاویر از مجموعه کلاس‌های انتخاب شده توسط شرکت‌کننده در قسمت آخر است. در دنیای واقعی، زمینه مکان، اندازه و جهت یک عدد یا الفبا از نوشته های همسایه آن به دست می آید که در اینجا وجود ندارد. زمانی که آزمایش‌های ما با پس‌زمینه خالی انجام می‌شد، شرکت‌کنندگان اغلب مکان‌هایی از تصویر را که شامل هیچ بخشی از جسم نبود نمونه‌برداری کردند. این رفتار با ارائه میانگین تصویر کلاس(های) انتخاب شده در پس زمینه کم شدت و کاهش اندازه تمام تصاویر MNIST و EMNIST از 28×28 پیکسل به 27×25 انجام شد. هر بار که شرکت‌کننده با کلیک بر روی آن، مکانی را در بوم انتخاب می‌کند، یک پچ 50×50 پیکسل در مرکز آن مکان از تصویر محرک نمایان می‌شود. یک پچ پس از فاش شدن، تا قسمت آخر نمایش داده می شود. وظیفه یک شرکت‌کننده در هر قسمت t شامل سه مرحله است (t=1، ...، T):

مرحله 1: روی هر نقطه از بوم 270×250 کلیک کنید تا پچ مورد نظر برای نمونه نمایش داده شود. فقط اولین کلیک پذیرفته می شود.

مرحله 2: اعداد/الفبا را از تمام نمونه های مشاهده شده تا کنون تشخیص دهید. شرکت‌کننده می‌تواند چندین کلاس را انتخاب کند و باید حداقل یک کلاس را از لیست کلاس‌های نشان داده شده در زیر بوم انتخاب کند.

مرحله 3: برای ادامه روی "Next" در پایین صفحه کلیک کنید. برای استنباط دقیق و سریع کلاس، شرکت‌کننده باید با توجه به مشاهدات خود تا قسمت فعلی مکان‌ها را با احتیاط انتخاب کند. هیچ محدودیت زمانی برای یک قسمت وجود ندارد. با این حال، کل زمان T اپیزود یک تصویر را به شش دقیقه محدود می کنیم. ما T=12 را انتخاب می‌کنیم زیرا آثار پراستناد در زمینه تشخیص یا تولید دست خط مبتنی بر توجه از کمتر از ۱۲ نگاه اجمالی استفاده کرده‌اند (به عنوان مثال، RAM3 می‌تواند اعداد MNIST را در ۷ نگاه اجمالی تشخیص دهد، DRAW23 می‌تواند اعداد MNIST را در ۱۱ نگاه اجمالی ایجاد کند)، و انسان ها می توانند اعداد و الفبای دست نویس را در کمتر از 12 نگاه اجمالی تشخیص دهند.

امتیازدهی عملکرد. امتیازی به شرکت کننده بر اساس دقت و کارایی وی از نظر تعداد نمونه مشاهده شده تعلق می گیرد. بگذارید مجموعه کلاس هایی باشد که او در هر قسمت t انتخاب کرد. ده، نمره او در t است:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

شکل 1. رابط MTurk ما همانطور که توسط یک شرکت کننده دیده می شود. نمونه دوم برای یک الفبای بزرگ EMNIST نشان داده شده است.

image


کجا |.| نشان دهنده اصلی بودن یک مجموعه است. مجموع امتیاز کسب شده در قسمت های T h {{0}} T t=1 امتیاز است. بنابراین، حداکثر امتیازی که یک نفر می تواند در قسمت های T کسب کند، اگر همیشه فقط کلاس صحیح را انتخاب کند، T است. اگر او همیشه مجموعه‌ای از کلاس‌ها را انتخاب کند که شامل کلاس صحیح نباشد، حداقل امتیازی که یک نفر می‌تواند در قسمت‌های T کسب کند، صفر است. بنابراین، 0 کمتر یا مساوی h کمتر یا مساوی T است. بنابراین، این مکانیسم امتیازدهی دقت تشخیص و کارایی نمونه‌گیری را در نظر می‌گیرد. تلاش برای به حداکثر رساندن امتیاز با انتخاب تنها یک کلاس از همان قسمت اول مخاطره آمیز خواهد بود زیرا اگر کلاس صحیح نباشد نمره صفر تعلق می گیرد، در حالی که اگر شرکت کننده چندین کلاس را انتخاب کند امتیازی بیشتر از صفر تعلق می گیرد. حتی همه کلاس ها) که شامل کلاس صحیح است. این باعث می شود شرکت کننده در هر قسمت بر اساس کلاس های احتمالی در ذهن خود پاسخ دهد. امتیازی که در هر قسمت تعلق می‌گیرد، تنها پس از اتمام اپیزود T اعلام می‌شود تا از ارائه هرگونه راهنمایی به شرکت‌کننده خودداری شود. در MTurk، پاداشی که یک شرکت‌کننده برای یک تصویر دریافت می‌کند، متناسب با نمره کل او، h است.

فیلتر کردن داده ها

اگر امتیاز یک شرکت‌کننده در قسمت نهایی (یعنی T-امین) برای یک تصویر محرک صفر باشد، داده‌های ثبت‌شده او برای آن تصویر کنار گذاشته می‌شود. اگر یک شرکت‌کننده کار را ناقص رها کند، داده‌ها نیز کنار گذاشته می‌شوند. با این معیار انتخاب، ما پاسخ‌هایی را روی 1736 محرک از MNIST، 4431 محرک از حروف بزرگ EMNIST و 4315 محرک از حروف کوچک EMNIST به دست آوردیم. یعنی به طور متوسط ​​169.1 پاسخ در هر کلاس.

مدل ها و روش های استفاده از داده ها

در این بخش، ما کاربرد داده‌های جمع‌آوری‌شده را با ارائه یک مدل پایه برای پیش‌بینی رفتار یک شرکت‌کننده، و (۴.۲) نشان می‌دهیم که چگونه یک مدل تقویتی مبتنی بر توجه موجود را می‌توان با تشخیص اعداد/الفبای انسانی مقایسه کرد. کارایی. خط پایه برای پیش بینی رفتار رفتار در هر قسمت t شامل انتخاب مکان و انتخاب کلاس است. از آنجایی که یک نمونه حاوی مقادیر متفاوتی از اطلاعات برای ناظران مختلف، یا حتی برای یک ناظر در زمان‌های مختلف است، پیش‌بینی رفتار هر شرکت‌کننده مشکل دشواری است. فرض کنید n تعداد کلاس‌های یک مجموعه داده باشد، ηt مجموعه تک‌تنه‌ای باشد که شامل کلاس واقعی برای تصویر محرک در t، ct مجموعه‌ای از کلاس‌ها و مکان انتخاب‌شده توسط یک شرکت‌کننده در t باشد تا مشاهده او در t باشد. t و 1:t نشان دهنده دنباله 1، 2، ...، t است. تا هر t، مشاهدات یک شرکت‌کننده o1:t و مکان‌هایی که انتخاب کرده است l1:t است. ما مشکل پیش‌بینی رفتار یک شرکت‌کننده را به صورت زیر فرموله می‌کنیم: پیش‌بینی کلاس احتمال i∈ct (i=1, 2, ..., n) را با توجه به o1:t و l1:t، یعنی P( تخمین بزنید. i ∈ ct|o1:t، l1:t). پیش‌بینی مکان احتمال lt+1 را با توجه به o1:t، l1:t و ct، یعنی P(lt+1|o1:t، l1:t،ct) تخمین بزنید. پیش بینی کلاس برای پیش‌بینی کلاسی که یک شرکت‌کننده در قسمت t انتخاب می‌کند، با توجه به مکان‌های انتخابی شرکت‌کننده l1:t و مشاهدات مربوطه o1:t، احتمال اینکه محرک تصویر در t متعلق به کلاس I باشد را محاسبه می‌کنیم:

image

که در آن Ii میانگین تصاویر محرک (27×25) متعلق به کلاس i است، I' یک تصویر 27×25 است که حاوی o1:t در l1:t، · نشان‌دهنده حاصلضرب اسکالر، و نشان‌دهنده هنجار اقلیدسی است. تمام شدت پیکسل ها غیر منفی هستند. در هر قسمت t، k بالاترین کلاس‌های احتمالی از توزیع باور P(i|o1:t، l1:t) مجموعه کلاس‌ها، ˆct، پیش‌بینی‌شده توسط مدل ما را تشکیل می‌دهند، جایی که k=|ct|. دقت طبقه بندی با استفاده از شاخص جاکارد (JI) اندازه گیری می شود. JI شباهت بین دو مجموعه X و Y را اندازه گیری می کند: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI بین 0 و 1 محدود شده است. اگر X=Y، J(X، Y)=1. در هر قسمت t، دقت طبقه‌بندی یک شرکت‌کننده J(ηt,ct) است در حالی که دقت مدل ما J(ηt, ˆct) است. با توجه به مخرج آن، JI بیشتر جریمه می‌کند زیرا تعداد عناصر موجود در مجموعه پیش‌بینی‌شده (ct یا ˆct) که در ηt نیستند افزایش می‌یابد، که یک ویژگی مطلوب برای مورد ما است. شباهت بین طبقه بندی یک شرکت کننده و مدل ما با J(ct، ˆct) اندازه گیری می شود. مدل ما همچنین از نظر انتخاب کلاس و دقت رد با توجه به هر شرکت‌کننده ارزیابی می‌شود. بگذارید st=ct − ct−1 مجموعه کلاس‌های جدید انتخاب‌شده و rt=ct−1 − ct مجموعه‌ای از کلاس‌هایی باشد که توسط یک شرکت‌کننده در t رد شده است. به طور مشابه، ˆst=ˆct − ct−1 مجموعه ای از کلاس های جدید انتخاب شده است، و ˆrt=ct−1 − ˆct مجموعه کلاس هایی است که توسط مدل ما در t رد شده است. سپس انتخاب و رد کلاس مدل را می توان با J(st, ˆst) با یک شرکت کننده مقایسه کرد که |st| > 0 و J(rt, ˆrt) وقتی |rt| به ترتیب > 0. پیش بینی موقعیت مکانی فرضیه در حالت ایده‌آل، توزیع باور در تمام طبقات باید یک‌وجهی باشد (یعنی فقط یک قله) و یک گاوسی نازک (یعنی انحراف معیار کوچک) شکلی داشته باشد که نشان‌دهنده اطمینان شرکت‌کننده در مورد کلاس (وضعیت) محرک (محیط) باشد. با این حال، همانطور که از داده های ما مشهود است (رجوع کنید به شکل 2)، یک شرکت کننده اغلب بین چندین کلاس سردرگم می شود، به خصوص در چند قسمت اولیه. در این موارد، توزیع اعتقادی او دارای قله های متعدد یا گاوسی چاق است. ما فرض می‌کنیم که هدف یک شرکت‌کننده همگرایی به یک گاوسی یک‌وجهی و نازک است، برای دستیابی به آن، او به‌طور انتخابی مکان‌هایی را نمونه‌برداری می‌کند که احتمال همه کلاس‌ها را به جز یکی کاهش می‌دهد. این فرضیه منجر به به حداقل رساندن عدم قطعیت بر طبقات (وضعیت های محیطی) می شود که یک اصل شناخته شده هدایت کننده اقدامات24 از جمله حرکات چشم است.

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.


شکل 2. مدت زمان و توزیع کلاس بر روی همه شرکت کنندگان و محرک های متعلق به دسته های "0"، "a" و "A".

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ، که در آن آستانه θ=0.5 × max(D) یک کمیت اسکالر به صورت تجربی تعیین شده است.

ما دو معیار نامتقارن، واگرایی و تفاوت Kullback-Leibler (KL) را به عنوان کاندیدای تابع g در نظر می گیریم. واگرایی KL با توجه به دو تصویر میانگین نرمال شده، Ii و Ij، واگرایی KL KL(Ii, Ij) وقتی از Ij برای تقریب Ii استفاده می شود، از دست رفتن اطلاعات را اندازه گیری می کند. این برای هر پیکسل k as26 محاسبه می شود: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ، که در آن Ij,k شدت k امین پیکسل است از Ij، و δ یک ثابت منظم شدن است. وقتی Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. تفاوت با توجه به دو تصویر میانگین نرمال شده، Ii و Ij، تفاوت برای هر پیکسل k Diff (Ii,k, Ij,k) است=Ii,k − Ij,k. وقتی Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. یک شرکت‌کننده در مورد مجموعه کلاس‌ها، ct، که در قسمت فعلی انتخاب کرده است، مطمئن نیست. از این رو، برای پیش‌بینی مکان، فقط آن نقشه‌های برجسته را در D در نظر می‌گیریم که کلاس‌های ct را شامل می‌شود. مکانی پیش‌بینی می‌شود که بر اساس این نقشه‌های برجستگی برجسته باشد و هرگز توسط شرکت‌کننده انتخاب نشده باشد. Tus، با توجه به o1:t، l1:t و ct، مکان lt{12}} به صورت زیر پیش‌بینی می‌شود:

image

که در آن Ŵ مجموعه ای از 3-تاپل ها حاوی مکان پیش بینی شده ˆl، کلاسی که برای (i) برجسته است، و نسبت به کدام کلاس (j) است. اگر �ˆl، i، j� ∈ Ŵ وجود داشته باشد، مکان به درستی پیش بینی می شود که �ˆl − lt+1� < ǫ، I ∈ ct+1 و j /∈ ct{{3} }، که در آن ǫ حداکثر فاصله اقلیدسی بین پیکسل مرکزی و هر پیکسل در یک پچ مشاهده است. شبه کد برای پیش بینی مکان در الگوریتم 1 نشان داده شده است. توضیح دقیق شبه کد در بخش S1 مطالب تکمیلی گنجانده شده است. (توزیع احتمال، P(lt+1|o1:t، l1:t،ct)، ممکن است با فرض صفر بودن امتیاز برجستگی مکان‌هایی که در Ŵ نیستند، محاسبه شود، و سپس امتیاز برجستگی همه نرمال شود. مکان ها برای جمع واحد. با این حال، از این احتمال استفاده نشده است، زیرا معادله (3) برای اهداف این مقاله کافی است.)

image

ارزیابی مدل های مبتنی بر توجه

به‌عنوان نماینده مدل‌های مبتنی بر توجه، ما مدل توجه مکرر پراستناد (RAM)3 را در نظر می‌گیریم که نتایج تجربی را بر روی مجموعه داده MNIST گزارش می‌کند. مدل تقویت‌کننده به‌طور متوالی یک تصویر را نمونه‌برداری می‌کند و تصمیم می‌گیرد در هر لحظه نمونه‌برداری کجا نمونه بعدی را انتخاب کند، و آن را برای ارزیابی با استفاده از داده‌های جمع‌آوری‌شده مناسب می‌کند.

رم

تصاویر را با استفاده از دنباله ای از نگاه ها طبقه بندی می کند. مکان بعدی به صورت تصادفی از یک توزیع توزیع شده توسط شبکه مکان انتخاب می شود. مدل انتها به انتها با به حداکثر رساندن هدف زیر آموزش داده می شود:

image


که در آن M تعداد قسمت‌ها، T تعداد مشاهدات، xi 1:t دنباله‌های تعاملی است که با اجرای عامل فعلی تا قسمت‌های I، ui t عمل جاری، θ مجموعه پارامترهای قابل آموزش، Rit است. پاداش تجمعی است، bt یک خط پایه است، و π(ui t|xi 1:t؛ θ) خط مشی است. رفتار RAM ممکن است با مقایسه نقشه های تثبیت به دست آمده از ترتیب مکان های پیش بینی شده توسط RAM و مکان های انتخاب شده توسط شرکت کنندگان، با شرکت کنندگان مقایسه شود. یک نقشه fxation با اختصاص دادن مقداری به هر مکان برابر با فرکانس انتخاب آن، و سپس عادی سازی آن مقادیر برای ایجاد توزیع در تمام مکان ها محاسبه می شود.

معیارهای مقایسه نقشه های تثبیت برای معیارهای مقایسه دو نقشه تثبیت، P و Q، ما به دقت از 26 پیروی می کنیم. ما از سه معیار مبتنی بر توزیع استفاده می کنیم: واگرایی KL (KL)، ضریب همبستگی پیرسون (CC)، و شباهت (SIM)، برای مقایسه توزیع مکان های نمونه گیری. از مدلی که از شرکت کنندگان در داده های جمع آوری شده ثبت شده است.

KL (که قبلاً تعریف شد) به مقادیر صفر بسیار حساس است.

CC می تواند رابطه خطی بین دو نقشه را به صورت26 ارزیابی کند: CC(P, Q)=σ (P, Q) σ (P)σ (Q) که σ واریانس یا کوواریانس است. از آنجایی که CC متقارن است، نمی تواند استنباط کند که آیا تفاوت بین نقشه های تثبیت به دلیل مثبت کاذب یا منفی کاذب است.

سیم کارت به صورت 26 اندازه گیری می شود: SIM(P، Q)=k min(Pk، Qk)، که در آن k Pk=k Qk=1. مانند CC، سیم کارت متقارن است و همان اشکال را به ارث می برد. همچنین، سیم کارت به مقادیر از دست رفته بسیار حساس است و پیش‌بینی‌هایی را که در محاسبه چگالی حقیقت زمین ناکام هستند جریمه می‌کند.

تحقیقات انسان و حیوان.

هیئت بررسی نهادی در دانشگاه ممفیس تشخیص داده است که این مطالعه با تعریف دفتر حفاظت از تحقیقات افراد انسانی در مورد تحقیقات افراد انسانی مطابقت ندارد و 45 CFR قسمت 46 اعمال نمی شود. از این رو، این مطالعه نیازی به تایید یا بررسی IRB ندارد.

نتایج تجربی تجزیه و تحلیل داده ها.

داده های جمع آوری شده را می توان از نظر توالی توزیع مکان های انتخاب شده (شکل 3)، کلاس های انتخاب شده (شکل 2) و مدت زمان بین قسمت های متوالی (شکل 2) تجسم کرد. این توزیع ها برای سه مجموعه داده بسیار مشابه هستند. برای هر عدد یا حروف الفبای، توزیع مکان‌های انتخابی پس از قسمت آخر شبیه توزیع شدت پیکسل‌های کلاس آن از مجموعه داده است. با این حال، توالی مکان‌های انتخاب شده ماهیت تصادفی دارد. توزیع کلاس نشان‌دهنده سردرگمی بین دسته‌ها با ساختارهای مشابه در چند قسمت اولیه است که شرکت‌کنندگان چندین کلاس را انتخاب می‌کنند. این سردرگمی با نمونه گیری بیشتر کاهش می یابد. بین میزان سردرگمی (# کلاس انتخابی/کل # کلاس) و مدت زمان نمونه گیری رابطه مثبت و معناداری وجود دارد (شکل 4 را ببینید). اگر تعداد کلاس های انتخابی زیاد (کم) باشد، مدت زمان بین قسمت های متوالی زیاد (کم) است. CC توالی مکان های انتخاب شده توسط یک شرکت کننده برای یک کلاس قابل توجه نیست (جدول 1). این به دلیل تنوع بین موضوعی در نمونه برداری از تصاویر استاتیک انتظار می رود. میانگین تعداد نمونه‌گیری‌های مورد نیاز یک شرکت‌کننده برای پیش‌بینی دقیق یک کلاس بسیار کم است. به طور متوسط، 4.2، 4.7، و 4.9 نمونه مربوط به 36، 44.1، و 48.1 ثانیه برای طبقه بندی دقیق تصاویر MNIST، EMNIST با حروف بزرگ و کوچک به ترتیب طول می کشد. شرکت کنندگان به طور متوسط ​​تنها 11.3%، 13.4% و 13.7% از ناحیه تصویر را برای طبقه بندی دقیق یک تصویر الفبای اعداد، بزرگ و کوچک مشاهده کردند (شکل S2 را در مطالب تکمیلی ببینید). این نتایج کارایی سیستم استدلال بصری انسان را برجسته می‌کند، البته با وضوح کمتر از داده‌های ردیابی چشم، اما با نویز و تنوع کمتر. این نتایج تجربی ممکن است برای طراحی مدل‌های مبتنی بر توجه برای کاربردهای دنیای واقعی مفید باشد. پیش بینی رفتار در این بخش، عملکرد مدل پایه ما از نظر اینکه چقدر می تواند مکان هر شرکت کننده و انتخاب کلاس را پیش بینی کند، ارزیابی می شود. از آنجایی که نتایج تجربی ما با استفاده از دو تابع امتیازدهی برجسته، واگرایی KL و تفاوت، کاملاً مشابه هستند، نتایج فقط با استفاده از تفاوت گزارش می‌شوند، مگر اینکه خلاف آن ذکر شود. پیش بینی کلاس پیش‌بینی کلاس و روش‌های ارزیابی دقت آن در بخش «پیش‌بینی کلاس» توضیح داده شده است. دقت پیش‌بینی کلاس، که در شکل 5 نشان داده شده است، بر روی همه کلاس‌ها برای همه نمونه‌ها محاسبه می‌شود. میانگین دقت پیش‌بینی کلاس در تمام نمونه‌ها و مجموعه داده‌ها 74.4٪ است (std. dev. 26.5). شکل‌های 5a و b نشان می‌دهند که مجموعه کلاس‌های انتخاب شده توسط شرکت‌کنندگان و مدل پایه ما (معادل 2) در قسمت‌های اولیه کاملاً نادرست است و با افزایش نمونه‌ها بهبود می‌یابد. شکل 5c نشان می دهد که در طول قسمت های اولیه، این دو مجموعه، ct و ˆct، کاملاً متفاوت هستند. شباهت با افزایش نمونه ها افزایش می یابد. همین امر در مورد انتخاب‌های کلاس جدید نیز صدق می‌کند (شکل 5f). با این حال، رد کلاس در قسمت های اولیه مشابه است. شباهت با نمونه های بیشتر بیشتر می شود (به شکل 5e مراجعه کنید). از آنجایی که J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| و J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1− (ct∩ˆct)|، می‌توان از شکل 5e، f استنباط کرد که در قسمت‌های اولیه، تقاطع بین ct−1 و ct∪ˆct کوچک است، که نشان می‌دهد در ابتدا شرکت‌کنندگان و مدل پایه ما تغییرات زیادی در انتخاب کلاس خود بین قسمت های متوالی ایجاد کنند. بنابراین، در ابتدا، فرآیند انتخاب کلاس بسیار تصادفی است. در حالی که برخی تفاوت‌ها بین پیش‌بینی کلاس شرکت‌کنندگان و مدل ما در طول قسمت‌های اولیه وجود دارد، رفتارها با نمونه‌های بیشتر شبیه‌تر می‌شوند. در طول چند قسمت اول (معمولاً 4 تا 7) قسمت های بسیار برجسته یک محرک آشکار می شود. این به انتخاب تنها کلاس صحیح در نمونه گیری های بعدی کمک می کند که دقت پیش بینی را افزایش می دهد. از آنجایی که کلاس های زیادی وجود دارند که الگوهای میانگین آنها با بخش های مشاهده شده محرک در چند قسمت اولیه مطابقت دارد، فرآیند انتخاب کلاس به طور قابل توجهی تصادفی تر است که منجر به دقت طبقه بندی پایین از سوی شرکت کنندگان و همچنین مدل ما می شود.

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.


شکل 3. توزیع مکان های نمونه بر روی همه شرکت کنندگان برای هر کلاس اعداد/الفبا و هر قسمت نمونه برداری. هر ردیف مربوط به یک کلاس است، هر ستون مربوط به یک قسمت نمونه است که از چپ به راست افزایش می یابد.

پیش بینی موقعیت مکانی دقت پیش‌بینی مکان مدل پایه ما (معادل 3) که در تمام نمونه‌ها و مجموعه‌های داده به طور میانگین به دست می‌آید، 67.7٪ است (std. dev. 14.1) (مرجع به شکل 5d). روند این دقت پیش‌بینی برخلاف دقت پیش‌بینی کلاس است. با این حال، توضیح همان باقی می ماند. دقت پیش‌بینی مکان در طول نمونه‌گیری‌های اولیه بالاست، زیرا در طول این قسمت‌ها، مکان‌های بسیار برجسته انتخاب می‌شوند و باعث می‌شود مکان‌های کمتر برجسته در قسمت‌های بعدی انتخاب شوند. از آنجایی که مکان‌های زیادی با برجستگی کم وجود دارد، فرآیند انتخاب آنها بسیار تصادفی است و بنابراین پیش‌بینی آن دشوار است، که منجر به کاهش دقت پیش‌بینی با افزایش نمونه‌گیری می‌شود. روند کاهشی برای هر مجموعه داده منحصربه‌فرد است (شکل 5d). هرچه تعداد کلاس ها و مکان های متمایز بسیار برجسته کمتر باشد، با افزایش نمونه گیری ها، دقت پیش بینی مکان سریعتر کاهش می یابد.

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

شکل 4. (سمت چپ) نمودار نوار خطای اختلاف زمانی (ثانیه) بین نمونه های متوالی به طور میانگین در تمام کلاس ها. Tat است، مقدار نشان داده شده در قسمت نمونه t زمان سپری شده بین کلیک های یک شرکت کننده در تصویر در t − 1 و t است. (راست) نمودار نوار خطای سردرگمی به طور میانگین در تمام کلاس ها در هر قسمت. نوارهای خطا std را نشان می دهد. توسعه دهنده

Figure 5. Evaluation of our baseline model (ref.

شکل 5. ارزیابی مدل پایه ما (مراجعه کنید به بخش "پایه برای پیش بینی رفتار"). (الف) دقت طبقه‌بندی شرکت‌کنندگان و (ب) مدل پایه ما با برچسب‌های واقعی به عنوان حقیقت پایه. (ج) شباهت طبقه‌بندی (J(ct، ˆct))، (د) دقت پیش‌بینی مکان، (ه) دقت رد کلاس و (f) دقت انتخاب کلاس مدل پایه ما با داده‌های شرکت‌کنندگان به عنوان حقیقت پایه. برای جزئیات بیشتر به بخش «پیش‌بینی رفتار» مراجعه کنید.

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.


جدول 1. میانگین ضریب همبستگی پیرسون (corr.) برای دنباله های fxation برای همان کلاس. برای هر تثبیت، فاصله اقلیدسی است و جهت به عنوان زاویه قطبی با توجه به مرکز محرک ها به عنوان مبدا اندازه گیری می شود. Std. توسعه دهنده داخل پرانتز قرار می گیرند.

ارزیابی رم

برای هر کلاس و نمونه‌برداری، نقشه‌های تثبیت از RAM (ما از پیاده‌سازی RAM از github.com/hehefan/Recurrent-Attention-Model استفاده کردیم) و داده‌های جمع‌آوری‌شده برای محرک‌های مشابه ارائه‌شده در MTurk مقایسه می‌شوند. برای مقایسه منصفانه با شرکت‌کنندگان، در RAM طول دنباله را در T=12، اولین مکان نمونه‌گیری در مرکز تصویر، مشاهده ورودی را در یک پچ 5×5 با مکان انتخابی به عنوان مرکز آن، و تابع پاداش را با معادله اصلاح کرد. (1). پاداش تجمعی، Rt در معادله. (4،) با نمره تجمعی t τ=1 Pτ به‌دست‌آمده از معادله جایگزین می‌شود. (1). از آنجایی که یک شرکت‌کننده می‌تواند چندین کلاس را در هر قسمت انتخاب کند، برای مدل RAM، به‌جای پیش‌بینی یک کلاس منفرد بر اساس بالاترین احتمال، میانگین احتمال را روی همه کلاس‌ها به عنوان آستانه در نظر می‌گیریم و مجموعه کلاس‌های ct را با احتمالات بیشتر از آستانه. این ct برای محاسبه امتیاز با استفاده از معادله استفاده می شود. (1). تحت این شرایط، RAM به 3.7، 8.5، و 7.6 نمونه برای تشخیص اعداد MNIST، حروف بزرگ و کوچک الفبای EMNIST نیاز دارد که به ترتیب با 8.9٪، 21.0٪، 18.7٪ از ناحیه تصویر مطابقت دارند. بنابراین، در مقایسه با شرکت کنندگان ما (رجوع کنید به بخش "تحلیل داده ها")، RAM کارایی کمتری دارد. جدول 2 را ببینید. نتایج حاصل از مقایسه نقشه های تثبیت از RAM و داده های جمع آوری شده در جدول 3 نشان داده شده است. KL به دلیل حساسیت آن به مقادیر صفر بالاتر است. این بدان معناست که چندین مکان توسط شرکت‌کنندگان نمونه‌برداری شده است، اما نه توسط RAM. این آزمایش‌ها می‌توانند به‌عنوان پایه‌ای برای ارزیابی مکان‌های نمونه‌گیری شده توسط یک مدل توجه استفاده شوند.

cistanche-Improve memory2

مزایای سیستانچ - بهبود حافظه

بحث ها

پارادایم mcAT، همانطور که در این مقاله استفاده شده است، دارای نقاط تمایز خاصی با مواردی است که در درجه اول به حرکات چشم و نگاه ها برای مطالعه مکانیسم های تشخیص اشیا متکی هستند. در دومی، ابتدا قسمت‌های برجسته صحنه جلب توجه می‌کنند و به دنبال آن حرکات ساکادیک چشم، نگاه چشم را به سمت مکان‌های برجسته هدایت می‌کند. نگاه توسط سیگنال های پایین به بالا و از بالا به پایین هدایت می شود که همراه با اطلاعات برجسته، نقشه های اولویتی را تشکیل می دهند که حرکات چشم را برای تشخیص اشیا هدایت می کند. از آنجایی که شرکت کنندگان در مطالعه حاضر به تصاویر ایستا در شرایط مشاهده آزاد و با زمان کافی (شش دقیقه برای نمونه گیری T{4}}) نگاه کردند، آنها احتمالاً درگیر یک سری حرکات ساکادیک چشم یا استدلال بصری28 برای کاوش بودند. تصویر قبل از کلیک بر روی یک AOI. این حرکات چشم را می‌توان در emAT (با استفاده از ردیاب چشم) ثبت کرد اما در mcAT نه. با این حال، این حرکات چشم تحت تأثیر سرگردانی ذهن است. در حالی که mcAT نیز تحت تأثیر سرگردانی ذهنی قرار می گیرد، هر زمان که شرکت کنندگان پس از استدلال بصری پاسخ دادند، تأثیر ممکن است کاهش یابد. از آنجایی که حرکات چشم در پاسخ به یک محرک تحت تأثیر کار مورد نظر قرار می گیرد، الگوهای حرکت چشم شرکت کنندگان احتمالاً تحت تأثیر کار سه مرحله ای تعیین شده در هر نمونه قرار گرفته است (رجوع کنید به بخش "وظیفه بصری"). اگر از یک ردیاب چشم استفاده می‌شد، حرکات چشم شرکت‌کنندگان برای کاوش نمونه با حرکات چشم ترکیب می‌شد تا کلاس‌های انتخابی آنها را کلیک کنند، که تفسیر کاوش بصری نمونه را پیچیده می‌کرد. کلیک کردن بر روی کلاس(های) یک مرحله ضروری است، زیرا کلاس(های) پیش بینی شده را در ذهن یک شرکت کننده آشکار می کند، البته به صورت درون نگر. این احتمال وجود دارد که نگاه‌ها بلافاصله قبل و بعد از انتخاب AOI - شاید با کمک حرکات چشم ثابت{10}} بیشترین کمک را در تشخیص اعداد/الفبا داشته باشند. در واقع، ما حدس می‌زنیم که شرکت‌کنندگان قسمت‌های تشخیصی تصویر را برای تمایز بین کلاس‌ها انتخاب کردند، و این مناطق احتمالاً حاوی ترکیبی از اطلاعات تشخیصی از پایین به بالا (مثلاً کنتراست بصری) و از بالا به پایین (الگوی اعداد/الفبا) هستند. این با یافته ما مطابقت دارد که شرکت کنندگان به سرعت (به طور متوسط ​​در عرض 5 نمونه) بین کلاس های محرک ظاهراً با انتخاب تکه های تشخیصی تمایز قائل شدند.

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

جدول 2. مقایسه کارایی بین شرکت کنندگان ما و مدل RAM از نظر میانگین تعداد نمونه های مورد نیاز برای تشخیص یک عدد/الفبا. درصد مساحت تصویر مشاهده شده در پرانتز گنجانده شده است.

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.


جدول 3. ارزیابی نقشه های تثبیت از RAM برای محرک های ارائه شده در آزمایش های MTurk به طور میانگین در تمام کلاس ها و نمونه ها. Std. توسعه دهنده داخل پرانتز قرار می گیرند.

نتیجه گیری

ما یک مجموعه داده mcAT را برای تشخیص اعداد و الفبای دست‌نویس از طریق نمونه‌گیری متوالی معرفی کردیم. داده‌ها از 382 شرکت‌کننده جمع‌آوری شده است که تصاویر انتخاب شده از مجموعه داده‌های معیار (MNIST، EMNIST) ارائه شده‌اند. به طور متوسط، 169.1 پاسخ در هر کلاس اعداد/الفبا ثبت می شود. داده ها به طور دقیق تجزیه و تحلیل می شوند تا کارایی تشخیص بصری انسان را آشکار کنند. شرکت کنندگان تنها 12.8 درصد از یک تصویر را برای تشخیص مشاهده کردند. ما یک مدل پایه را برای پیش‌بینی مکان و کلاس (های) یک شرکت‌کننده در نمونه‌گیری بعدی پیشنهاد کردیم. ما نشان دادیم که چگونه می‌توان از شرایط و داده‌های تجربی ما برای ارزیابی یک مدل تقویت مبتنی بر توجه در مقایسه با عملکرد انسانی استفاده کرد. این مجموعه داده mcAT، با مزایای متعدد نسبت به داده های ردیابی چشم، شکاف مهمی را در تحقیقات مدل مبتنی بر توجه در هوش مصنوعی، ML و سایر زمینه ها پر می کند.

منابع

1. Ranzato، MA در مورد یادگیری کجا باید نگاه کرد. arXiv:1405.5488، (2014).

2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ یادگیری مدل های توجه مکرر بیداری-خواب. در NIPS، 2593–2601 (2015).

3. منیح، وی و همکاران. مدل های تکرارشونده توجه بصری در NIPS، 2204–2212 (2014).

4. Ba, J., Mnih, V., & Kavukcuoglu, K. تشخیص چند شیء با توجه بصری. arXiv:1412.7755 (2014).

5. Dutta, JK & Banerjee, B. تنوع در دقت طبقه بندی با تعداد اجمالی. در IJCNN، 447-453 (IEEE، 2017).

6. لاروشل، اچ و هینتون، جنرال الکتریک یادگیری ترکیب اجمالی فووآل با دستگاه بولتزمن درجه سوم. در NIPS، 1243-1251 (2010).

7. Elsayed, G., Kornblith, S. & Le, QV Saccader: بهبود دقت مدلهای توجه سخت برای بینایی. در NIPS، 702–714 (2019).

8. van Beers، RJ Te منابع تنوع در حرکات چشم ساکادیک. J. Neurosci. 27 (33)، 8757-8770 (2007).

9. Itti, L. & Baldi, P. Bayesian سورپرایز توجه انسان را به خود جلب می کند. Vis. Res. 49 (10)، 1295-1306 (2009).

10. Egner, S. et al. توجه و کسب اطلاعات: مقایسه کلیک ماوس با ردیابی توجه حرکت چشم. J. Eye Mov. Res. 11 (6)، (2018).

11. Peterson, MS, Kramer, AF & Irwin, DE تغییر توجه پنهان قبل از حرکات غیر ارادی چشم. درک کنید. روانشناسی. 66 (3)، 398-405 (2004).

12. جیانگ، ام و همکاران. سیلیکون: برجستگی در زمینه. در CVPR، 1072-1080 (2015).

13. کیم، NW و همکاران. BubbleView: رابطی برای جمع سپاری نقشه های اهمیت تصویر و ردیابی توجه بصری. ACM Trans. محاسبه کنید. هوم تعامل داشتن. 24 (5)، 1-40 (2017).

14. Sermanet, P., Frome, A. & Real, E. توجه برای طبقه بندی ریزدانه. arXiv:1412.7054 (2014).

15. Egner, S., Itti, L. & Scheier, C. مقایسه مدل های توجه با انواع مختلف داده های رفتاری. تحقیق کنید افتالمول. Vis. علمی 41 (4)، S39 (2000).

16. Navalpakkam, V. et al. اندازه گیری و مدل سازی رفتار چشم و موش در حضور صفحه آرایی غیرخطی. در Proc. بین المللی Conf. WWW، 953–964 (2013).

17. Matzen, LE, Stites, MC & Gastelum, ZN مطالعه جستجوی بصری بدون ردیاب چشم: ارزیابی فوواسیون مصنوعی. شناخت. Res. پرنس ضمنی 6 (1)، 1-22 (2021).

18. تافی، AP و همکاران. OCR به عنوان یک سرویس: ارزیابی تجربی از Google Docs OCR، Tesseract، ABBYY FineReader، و Transym. در بین المللی علائم Vis. Comput., 735-746 (اسپرینگر، 2016).

19. Memon, J., Sami, M., Khan, RA & Uddin, M. Handwritten Optical character recognition (OCR): مروری بر ادبیات سیستماتیک جامع (SLR). دسترسی IEEE 8، 142642–142668 (2020).

20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Optical character recognition system. در سیستم‌های تشخیص کاراکتر نوری برای زبان‌های مختلف با محاسبات نرم‌افزاری، ۹–۴۱ (اسپرینگر، ۲۰۱۷).

21. LeCun، Y. و همکاران. یادگیری مبتنی بر گرادیان برای شناسایی اسناد اعمال می شود. Proc. IEEE 86(11)، 2278-2324 (1998).

22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: گسترش MNIST به نامه های دست نویس. arXiv:1702.05373، (2017).

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: یک شبکه عصبی تکراری برای تولید تصویر. در ICML، 1462-1471 (2015).

24. Friston، K. Te اصل انرژی آزاد: راهنمای تقریبی برای مغز؟. روندهای شناختی. علمی 13 (7)، 293-301 (2009).

25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. معرفی مدل بیزی توجه انتخابی بر اساس استنتاج فعال. علمی 9 (1)، 1–22 (2019).

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. معیارهای ارزیابی مختلف در مورد مدل های برجسته چه چیزی به ما می گویند؟ IEEE Trans. الگوی مقعدی ماخ هوشمند 41 (3)، 740-757 (2018).

27. Itti, L. & Koch, C. مدلسازی محاسباتی توجه بصری. نات. کشیش نوروسی. 2 (3)، 194-203 (2001).

28. Lamme، VAF توابع بصری که دید آگاهانه را ایجاد می کنند. جلو. Psychol., 11, (2020).

29. da Silva، MRD & Postma، M. ذهن های سرگردان، موش های سرگردان: ردیابی ماوس کامپیوتری به عنوان روشی برای تشخیص سرگردانی ذهن. محاسبه کنید. هوم رفتار 112, 106453 (2020).

30. Schütz، AC، Braun، DI و Gegenfurtner، KR حرکات و درک چشم: یک بررسی انتخابی. J. Vis. 11 (5)، 9-9 (2011).

31. Intoy, J. & Rucci, M. حرکات دقیق چشم، دقت بینایی را افزایش می دهد. نات. اشتراک. 11 (1)، 1-11 (2020).

شما نیز ممکن است دوست داشته باشید