AttentionMNIST: مجموعه داده ردیابی توجه با کلیک ماوس برای تشخیص اعداد دست نویس و الفبا
Feb 22, 2024
چندین مدل مبتنی بر توجه که اشیاء را از طریق دنبالهای از نگاهها تشخیص میدهند، نتایجی را در زمینه تشخیص اعداد دستنویس گزارش کردهاند. با این حال، هیچ داده ردیابی توجه برای تشخیص اعداد دستی یا حروف الفبا در دسترس نیست. در دسترس بودن چنین داده هایی به مدل های مبتنی بر توجه اجازه می دهد تا در مقایسه با عملکرد انسان ارزیابی شوند. ما دادههای ردیابی توجه کلیک ماوس را از 382 شرکتکننده جمعآوری میکنیم که سعی میکنند اعداد دستنویس و حروف الفبا (بزرگ و کوچک) را از طریق نمونهگیری متوالی از تصاویر تشخیص دهند. تصاویر از مجموعه داده های معیار به عنوان محرک ارائه می شوند. مجموعه داده جمع آوری شده، به نام AttentionMNIST، شامل دنباله ای از مکان های نمونه (کلیک ماوس)، prبرچسب(های) کلاس در هر نمونه برداری، و مدت زمان هر نمونه برداری. به طور متوسط، شرکت کنندگان ما تنها 12.8٪ از یک تصویر را برای تشخیص مشاهده می کنند. ما یک مدل پایه برای پیشبینی مکان و کلاس(های) که شرکتکننده در نمونهگیری بعدی انتخاب میکند، پیشنهاد میکنیم. هنگامی که در معرض محرکها و شرایط آزمایشی مشابه شرکتکنندگان ما قرار میگیرد، یک مدل تقویتی مبتنی بر توجه بسیار مورد استناد از کارایی انسانی برخوردار نیست.

سیستانچ چینیگیاه دارویی- جلوگیری از محصولات بیماری آلزایمر
مدلهای یادگیری ماشینی (ML) که اشیا را از طریق دنبالهای از نگاهها تشخیص میدهند، در سالهای اخیر به دلیل مقیاسپذیری و کاراییشان مورد توجه قرار گرفتهاند. بسیاری از این مدلها، مانند 1 تا 7، نتایج تجربی را بر روی مجموعه دادههای معیار MNIST برای تشخیص اعداد دستنویس گزارش کردهاند. متأسفانه، هیچ داده ردیابی توجه برای MNIST در دسترس نیست. این امر از ارزیابی مدل های مبتنی بر توجه در مقایسه با عملکرد انسانی جلوگیری می کند. ما با جمعآوری مجموعه دادهای از شرکتکنندگان بزرگسال که سعی میکردند اعداد دستنویس و حروف الفبای تصاویر را از طریق نمونهگیری متوالی تشخیص دهند، در آن شکاف افتادیم. بر خلاف ردیابی توجه حرکت چشم (emAT)، شرکتکننده روی مکانی در تصویری که میخواهد ببیند کلیک میکند (شکلی از ردیابی توجه با کلیک ماوس (mcAT)). بلافاصله پس از آن، کلاس(هایی) را انتخاب می کند که پیش بینی می کند شی ممکن است بر اساس مشاهداتش تا کنون به آن تعلق داشته باشد. بنابراین، در هر قسمت نمونهبرداری، دادههای ما شامل مکان تصویر انتخاب شده، برچسب(های) کلاس پیشبینیشده و زمان صرف شده از آخرین قسمت توسط شرکتکننده است. پس از هر تصویر، شرکت کننده بر اساس عملکرد خود (دقت و کارایی) جایزه دریافت می کند.

فواید سیستانچ توبولوزا-ضد آلزایمر
مزایای mcAT نسبت به emAT برای تشخیص دست نوشته اعداد/الفبا.
(1) گوشت دارای تنوع درونی و بین فردی قابل توجهی در محل تثبیت است، به ویژه برای محرک های ساکن (تصاویر) 8،9. بنابراین برای رسیدن به نتایج آماری قابل توجهی به مقدار زیادی داده فیکساسیون چشم نیاز است. mcAT به برخی از منابع نویز فنی رایج در داده های ردیابی چشم حساس نیست. (2) حرکات چشم می تواند ناشی از مکانیسم های ارادی و غیر ارادی باشد. برای تسهیل تصمیمگیری وابسته به کار، سیگنالهای زمان، زمینه و تقویت کافی را به شرکتکنندگان ارائه میکنیم که میتواند به یک مدل ML نیز ارائه شود. (3) دقت و صحت داده های emAT به ردیاب چشم بستگی دارد در حالی که همان mcAT مستقل از هر دستگاهی است. (4) همگام سازی حرکات چشم با انتخاب کلاس یک چالش است. برای غلبه بر این، در مورد ما، محل نمونهگیری و کلاس(های) در همان قسمت انتخاب میشوند. (5) در نهایت، روش ما امکان جمعآوری دادهها را با استفاده از Amazon Mechanical Turk (MTurk) میدهد، که در 12،13، مقرون به صرفه و مقرون به صرفه است و به راحتی قابل تکرار است.
مشارکت ها
ما یک مجموعه داده mcAT به نام AttentionMNIST را با استفاده از MTurk از 382 شرکتکننده جمعآوری میکنیم، که برای تشخیص دقیق و کارآمد اعداد دستنویس و الفبای دستنویس (بزرگ و کوچک) از تصاویر از طریق نمونهگیری متوالی پاداش دریافت میکنیم. تصاویر از مجموعه داده های معیار (MNIST، EMNIST) به عنوان محرک ارائه می شوند. به طور متوسط، 169.1 پاسخ در هر کلاس اعداد/الفبا ثبت می شود. با استفاده از این مجموعه داده، موارد زیر را نشان میدهیم: • به طور متوسط، شرکتکنندگان به 4.2، 4.7، و 4.9 نمونه نیاز دارند تا الفبای اعداد، بزرگ و کوچک را تشخیص دهند که به ترتیب تنها با 11.3، 13.4 و 13.7 درصد از مساحت تصویر مطابقت دارند. . دقت طبقه بندی با چندین نمونه افزایش می یابد. • مدلی که به عنوان خط مبنا ارائه میشود، میتواند کلاس(ها) و مکانی را که شرکتکننده در قسمت نمونهگیری بعدی انتخاب میکند، به ترتیب با دقت 74.4% و 67.7% پیشبینی کند که هر دو در تمام نمونهگیریها و مجموعه دادهها میانگین گرفته شدهاند. دقت پیشبینی کلاس با افزایش نمونهها افزایش مییابد و دقت پیشبینی مکان کاهش مییابد. • هنگامی که در معرض محرکها و شرایط مشابه شرکتکنندگان ما قرار میگیرد، یک مدل توجه مکرر مبتنی بر تقویت (RAM)3 که به شدت مورد استناد قرار میگیرد، به 3.7، 8.5، و 7.6 نمونه نیاز دارد تا یک الفبای اعداد، بزرگ و کوچک را تشخیص دهد که با 8.9٪ مطابقت دارد. , 21.0% به ترتیب 18.7% از مساحت تصویر. سایر مدل های تقویت مبتنی بر توجه (به عنوان مثال، 1،2،4،5،7،14) را می توان به طور مشابه در مقایسه با عملکرد انسان ارزیابی کرد.

مکمل سیستانچ نزدیک من-بهبود حافظه
برای مشاهده محصولات تقویت کننده حافظه و پیشگیری از بیماری آلزایمر Cistanche اینجا را کلیک کنید
【بیشتر بخواهید】 ایمیل:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
کار مرتبط
توالی زمانی کلیکهای ماوس در mcAT مشابه مسیر اسکن حرکت چشم است. mcAT می تواند به طور موثر جایگزین emAT شود زیرا آنها به طور قابل توجهی همبستگی دارند10،12،13،15-17. انواع مختلفی از محرک ها در مطالعات mcAT استفاده شده است، مانند تصاویری از اشیاء جاندار و بی جان10، تصاویر صحنه های طبیعی12،13، صفحات وب ایستا13، طرح بندی صفحات جستجو16، و دو لیست از رشته های الفبایی عددی برای مقایسه بصری17. با این حال، mcAT برای کارهای دستهبندی اعداد/الفبای دستنویس یا ارزیابی مدلهای طبقهبندی مبتنی بر توجه استفاده نشده است. مطالعات mcAT از ویژگیهایی مانند زمان تماس، فرکانس تثبیت نسبی در مناطق مورد علاقه (AOI)، نسبت نسبی افرادی که حداقل یک بار در یک AOI10 کلیک کردهاند، تعداد تثبیتها در هر آزمایش، اصلاح مجدد در آزمایشها، زمانهای ماندن و مسیرهای اسکن استفاده کردهاند. نقشه های تثبیت12،13، AOI و الگوی جریان اطلاعات16. توالی مکانهای کلیک با مهر زمانی و برچسبهای کلاس پیشبینیشده، دادههای خام لازم برای ارزیابی کارایی و دقت مدلهای مبتنی بر توجه یا انسانها در وظایف طبقهبندی را تشکیل میدهند. از این داده ها می توان ویژگی های مختلفی را استخراج کرد. مجموعه داده mcAT ما، با مزایای متعدد نسبت به داده های ردیابی چشم، شکاف مهمی را در تحقیقات مدل مبتنی بر توجه در هوش مصنوعی، ML و سایر زمینه ها پر می کند. مجموعه داده ما به مدل های مبتنی بر توجه اجازه می دهد تا در مقایسه با عملکرد انسان ارزیابی شوند. در میان چیزهای دیگر، این توسعه سیستمهای تشخیص کاراکتر نوری کارآمد و بلادرنگ را که در عمل کاربرد وسیعی دارند، تسهیل میکند (به مثال 18-20 مراجعه کنید). اصول هدایت تثبیت بصری را می توان با استفاده از مجموعه داده ما فرضیه و آزمایش کرد. اصول موفقیتآمیز را میتوان برای توسعه سیستمهایی برای کارهای تشخیص بصری در دنیای واقعی که در آن کارایی یک نگرانی کلیدی است، مانند رانندگی خودکار، منتقل کرد.
داده ها
دادههای ما شامل دنبالهای از قسمتهای T برای هر شرکتکننده است. داده های هر قسمت شامل (1) مکان در تصویر کلیک شده توسط شرکت کننده (یک کلیک در تصویر در هر قسمت)، (2) کلاس(های) انتخاب شده توسط شرکت کننده، و (3) زمان صرف شده توسط شرکت کننده است. شرکت کننده برای ثبت نمونه فعلی (یعنی زمان سپری شده بین آخرین و کلیک فعلی در تصویر). این بخش فرآیند جمع آوری داده های ما از جمله انتخاب محرک ها، شرکت کنندگان، وظایف بصری، امتیازدهی عملکرد و فیلتر کردن داده ها را توضیح می دهد.
انتخاب محرک. محرک ها از تصاویر در دو مجموعه داده معیار انتخاب می شوند: (1)
مجموعه داده MNIST21 شامل 70،000 تصویر برچسب دار (28×28 پیکسل) از 10 عدد دست نویس {0، 1، ...، 9} است. (2)
مجموعه داده EMNIST22 شامل 145600 تصویر (28×28 پیکسل) از الفبای دست نویس انگلیسی به حروف بزرگ و کوچک است که یک کلاس متعادل را تشکیل می دهد. همه تصاویر با یکی از 26 کلاس {a, b, ..., z} برچسب گذاری شده اند. با این حال، برچسب بزرگ یا کوچک با هیچ تصویر مرتبط نیست. از هر دسته، ما 15 اعداد خوش فرم را از MNIST و 15 الفبای خوش فرم را از مجموعه داده های بزرگ و کوچک EMNIST انتخاب می کنیم. یک عدد یا الفبای خوش فرم شبیه به هنجار کلاس خود است. بنابراین، ما محرکهایی را از مجموعهای از 15({12}})=930 تصویر منحصربهفرد، با ۱۵ تصویر متعلق به هر یک از ۶۲ کلاس ارائه میکنیم. تصاویر 930 خوش فرم به صورت زیر انتخاب می شوند:
مرحله 1: هر تصویر را با استفاده از min-max نرمال کنید تا شدت بین 0 و 1 مقیاس شود.
مرحله 2: تصاویر EMNIST را با حروف بزرگ یا کوچک برچسب بزنید. برای هر کلاس الفبا، یک الفبای خوش فرم از هر دو تصویر بزرگ و کوچک به صورت دستی انتخاب و برچسب گذاری می شود. شباهت کسینوس تمام تصاویر متعلق به آن کلاس با دو تصویر برچسب زده شده محاسبه می شود. به تصاویری که بالاتر از آستانه تشابه کسینوس هستند (به طور تجربی به عنوان 0.8 انتخاب شده اند) برچسب بزرگ یا کوچک اختصاص داده می شود.
مرحله 3: میانگین تصاویر متعلق به هر کلاس را محاسبه کنید. تصویر متوسط یک طبقه هنجار آن را تشکیل می دهد. اگر شباهت کسینوس آن با میانگین تصویر کلاسش بیشتر از آستانه تعیین شده تجربی باشد (7/{1}} برای MNIST، 0}.75 برای EMNIST) یک تصویر واجد شرایط محرک بودن است.
مرحله 4: از بین تصاویر واجد شرایط، 15 تصویر از هر کلاس بر اساس میزان شکل گیری آنها به صورت دستی انتخاب می شوند. هر تصویر، که در اصل 28×28 پیکسل است، با حذف پیکسلهای نزدیک به مرزها به 27×25 کاهش مییابد زیرا هیچ تغییر شدتی ندارند. میانگین این 15 تصویر برای هر یک از 62 کلاس محاسبه می شود. ما این تصاویر میانگین را به صورت I1، I2، ...، In برای n کلاس در هر مجموعه داده مشخص می کنیم.
شركت كنندگان.
در مجموع 382 فرد بالغ مجزا در مطالعه ما شرکت کردند. هیچ معیار انتخابی استفاده نشد. یک شرکتکننده میتواند به چندین تصویر پاسخ دهد. برای هر یک از 62 کلاس، به طور متوسط 169.1 پاسخ ثبت شد.

فواید سیستانچ توبولوزاضد بیماری آلزایمر
کار بصری
رابط MTurk برای کار بصری ما در شکل 1 نشان داده شده است. یک بوم با اندازه 270×250 یک تصویر پس زمینه با شدت کم را همیشه نمایش می دهد. پسزمینه و تصاویر محرک ده بار به 270×250 نمونهبرداری میشوند. مرکز بوم با مرکز تصاویر تراز شده است. پسزمینه در ابتدا، پسزمینه میانگین تمام تصاویر موجود در مجموعه دادهای است که محرک از آن گرفته شده است. پس از اولین قسمت، پسزمینه میانگین تمام تصاویر از مجموعه کلاسهای انتخاب شده توسط شرکتکننده در قسمت آخر است. در دنیای واقعی، زمینه مکان، اندازه و جهت یک عدد یا الفبا از نوشته های همسایه آن به دست می آید که در اینجا وجود ندارد. زمانی که آزمایشهای ما با پسزمینه خالی انجام میشد، شرکتکنندگان اغلب مکانهایی از تصویر را که شامل هیچ بخشی از جسم نبود نمونهبرداری کردند. این رفتار با ارائه میانگین تصویر کلاس(های) انتخاب شده در پس زمینه کم شدت و کاهش اندازه تمام تصاویر MNIST و EMNIST از 28×28 پیکسل به 27×25 انجام شد. هر بار که شرکتکننده با کلیک بر روی آن، مکانی را در بوم انتخاب میکند، یک پچ 50×50 پیکسل در مرکز آن مکان از تصویر محرک نمایان میشود. یک پچ پس از فاش شدن، تا قسمت آخر نمایش داده می شود. وظیفه یک شرکتکننده در هر قسمت t شامل سه مرحله است (t=1، ...، T):
مرحله 1: روی هر نقطه از بوم 270×250 کلیک کنید تا پچ مورد نظر برای نمونه نمایش داده شود. فقط اولین کلیک پذیرفته می شود.
مرحله 2: اعداد/الفبا را از تمام نمونه های مشاهده شده تا کنون تشخیص دهید. شرکتکننده میتواند چندین کلاس را انتخاب کند و باید حداقل یک کلاس را از لیست کلاسهای نشان داده شده در زیر بوم انتخاب کند.
مرحله 3: برای ادامه روی "Next" در پایین صفحه کلیک کنید. برای استنباط دقیق و سریع کلاس، شرکتکننده باید با توجه به مشاهدات خود تا قسمت فعلی مکانها را با احتیاط انتخاب کند. هیچ محدودیت زمانی برای یک قسمت وجود ندارد. با این حال، کل زمان T اپیزود یک تصویر را به شش دقیقه محدود می کنیم. ما T=12 را انتخاب میکنیم زیرا آثار پراستناد در زمینه تشخیص یا تولید دست خط مبتنی بر توجه از کمتر از ۱۲ نگاه اجمالی استفاده کردهاند (به عنوان مثال، RAM3 میتواند اعداد MNIST را در ۷ نگاه اجمالی تشخیص دهد، DRAW23 میتواند اعداد MNIST را در ۱۱ نگاه اجمالی ایجاد کند)، و انسان ها می توانند اعداد و الفبای دست نویس را در کمتر از 12 نگاه اجمالی تشخیص دهند.
امتیازدهی عملکرد. امتیازی به شرکت کننده بر اساس دقت و کارایی وی از نظر تعداد نمونه مشاهده شده تعلق می گیرد. بگذارید مجموعه کلاس هایی باشد که او در هر قسمت t انتخاب کرد. ده، نمره او در t است:

شکل 1. رابط MTurk ما همانطور که توسط یک شرکت کننده دیده می شود. نمونه دوم برای یک الفبای بزرگ EMNIST نشان داده شده است.

کجا |.| نشان دهنده اصلی بودن یک مجموعه است. مجموع امتیاز کسب شده در قسمت های T h {{0}} T t=1 امتیاز است. بنابراین، حداکثر امتیازی که یک نفر می تواند در قسمت های T کسب کند، اگر همیشه فقط کلاس صحیح را انتخاب کند، T است. اگر او همیشه مجموعهای از کلاسها را انتخاب کند که شامل کلاس صحیح نباشد، حداقل امتیازی که یک نفر میتواند در قسمتهای T کسب کند، صفر است. بنابراین، 0 کمتر یا مساوی h کمتر یا مساوی T است. بنابراین، این مکانیسم امتیازدهی دقت تشخیص و کارایی نمونهگیری را در نظر میگیرد. تلاش برای به حداکثر رساندن امتیاز با انتخاب تنها یک کلاس از همان قسمت اول مخاطره آمیز خواهد بود زیرا اگر کلاس صحیح نباشد نمره صفر تعلق می گیرد، در حالی که اگر شرکت کننده چندین کلاس را انتخاب کند امتیازی بیشتر از صفر تعلق می گیرد. حتی همه کلاس ها) که شامل کلاس صحیح است. این باعث می شود شرکت کننده در هر قسمت بر اساس کلاس های احتمالی در ذهن خود پاسخ دهد. امتیازی که در هر قسمت تعلق میگیرد، تنها پس از اتمام اپیزود T اعلام میشود تا از ارائه هرگونه راهنمایی به شرکتکننده خودداری شود. در MTurk، پاداشی که یک شرکتکننده برای یک تصویر دریافت میکند، متناسب با نمره کل او، h است.
فیلتر کردن داده ها
اگر امتیاز یک شرکتکننده در قسمت نهایی (یعنی T-امین) برای یک تصویر محرک صفر باشد، دادههای ثبتشده او برای آن تصویر کنار گذاشته میشود. اگر یک شرکتکننده کار را ناقص رها کند، دادهها نیز کنار گذاشته میشوند. با این معیار انتخاب، ما پاسخهایی را روی 1736 محرک از MNIST، 4431 محرک از حروف بزرگ EMNIST و 4315 محرک از حروف کوچک EMNIST به دست آوردیم. یعنی به طور متوسط 169.1 پاسخ در هر کلاس.
مدل ها و روش های استفاده از داده ها
در این بخش، ما کاربرد دادههای جمعآوریشده را با ارائه یک مدل پایه برای پیشبینی رفتار یک شرکتکننده، و (۴.۲) نشان میدهیم که چگونه یک مدل تقویتی مبتنی بر توجه موجود را میتوان با تشخیص اعداد/الفبای انسانی مقایسه کرد. کارایی. خط پایه برای پیش بینی رفتار رفتار در هر قسمت t شامل انتخاب مکان و انتخاب کلاس است. از آنجایی که یک نمونه حاوی مقادیر متفاوتی از اطلاعات برای ناظران مختلف، یا حتی برای یک ناظر در زمانهای مختلف است، پیشبینی رفتار هر شرکتکننده مشکل دشواری است. فرض کنید n تعداد کلاسهای یک مجموعه داده باشد، ηt مجموعه تکتنهای باشد که شامل کلاس واقعی برای تصویر محرک در t، ct مجموعهای از کلاسها و مکان انتخابشده توسط یک شرکتکننده در t باشد تا مشاهده او در t باشد. t و 1:t نشان دهنده دنباله 1، 2، ...، t است. تا هر t، مشاهدات یک شرکتکننده o1:t و مکانهایی که انتخاب کرده است l1:t است. ما مشکل پیشبینی رفتار یک شرکتکننده را به صورت زیر فرموله میکنیم: پیشبینی کلاس احتمال i∈ct (i=1, 2, ..., n) را با توجه به o1:t و l1:t، یعنی P( تخمین بزنید. i ∈ ct|o1:t، l1:t). پیشبینی مکان احتمال lt+1 را با توجه به o1:t، l1:t و ct، یعنی P(lt+1|o1:t، l1:t،ct) تخمین بزنید. پیش بینی کلاس برای پیشبینی کلاسی که یک شرکتکننده در قسمت t انتخاب میکند، با توجه به مکانهای انتخابی شرکتکننده l1:t و مشاهدات مربوطه o1:t، احتمال اینکه محرک تصویر در t متعلق به کلاس I باشد را محاسبه میکنیم:

که در آن Ii میانگین تصاویر محرک (27×25) متعلق به کلاس i است، I' یک تصویر 27×25 است که حاوی o1:t در l1:t، · نشاندهنده حاصلضرب اسکالر، و نشاندهنده هنجار اقلیدسی است. تمام شدت پیکسل ها غیر منفی هستند. در هر قسمت t، k بالاترین کلاسهای احتمالی از توزیع باور P(i|o1:t، l1:t) مجموعه کلاسها، ˆct، پیشبینیشده توسط مدل ما را تشکیل میدهند، جایی که k=|ct|. دقت طبقه بندی با استفاده از شاخص جاکارد (JI) اندازه گیری می شود. JI شباهت بین دو مجموعه X و Y را اندازه گیری می کند: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI بین 0 و 1 محدود شده است. اگر X=Y، J(X، Y)=1. در هر قسمت t، دقت طبقهبندی یک شرکتکننده J(ηt,ct) است در حالی که دقت مدل ما J(ηt, ˆct) است. با توجه به مخرج آن، JI بیشتر جریمه میکند زیرا تعداد عناصر موجود در مجموعه پیشبینیشده (ct یا ˆct) که در ηt نیستند افزایش مییابد، که یک ویژگی مطلوب برای مورد ما است. شباهت بین طبقه بندی یک شرکت کننده و مدل ما با J(ct، ˆct) اندازه گیری می شود. مدل ما همچنین از نظر انتخاب کلاس و دقت رد با توجه به هر شرکتکننده ارزیابی میشود. بگذارید st=ct − ct−1 مجموعه کلاسهای جدید انتخابشده و rt=ct−1 − ct مجموعهای از کلاسهایی باشد که توسط یک شرکتکننده در t رد شده است. به طور مشابه، ˆst=ˆct − ct−1 مجموعه ای از کلاس های جدید انتخاب شده است، و ˆrt=ct−1 − ˆct مجموعه کلاس هایی است که توسط مدل ما در t رد شده است. سپس انتخاب و رد کلاس مدل را می توان با J(st, ˆst) با یک شرکت کننده مقایسه کرد که |st| > 0 و J(rt, ˆrt) وقتی |rt| به ترتیب > 0. پیش بینی موقعیت مکانی فرضیه در حالت ایدهآل، توزیع باور در تمام طبقات باید یکوجهی باشد (یعنی فقط یک قله) و یک گاوسی نازک (یعنی انحراف معیار کوچک) شکلی داشته باشد که نشاندهنده اطمینان شرکتکننده در مورد کلاس (وضعیت) محرک (محیط) باشد. با این حال، همانطور که از داده های ما مشهود است (رجوع کنید به شکل 2)، یک شرکت کننده اغلب بین چندین کلاس سردرگم می شود، به خصوص در چند قسمت اولیه. در این موارد، توزیع اعتقادی او دارای قله های متعدد یا گاوسی چاق است. ما فرض میکنیم که هدف یک شرکتکننده همگرایی به یک گاوسی یکوجهی و نازک است، برای دستیابی به آن، او بهطور انتخابی مکانهایی را نمونهبرداری میکند که احتمال همه کلاسها را به جز یکی کاهش میدهد. این فرضیه منجر به به حداقل رساندن عدم قطعیت بر طبقات (وضعیت های محیطی) می شود که یک اصل شناخته شده هدایت کننده اقدامات24 از جمله حرکات چشم است.

شکل 2. مدت زمان و توزیع کلاس بر روی همه شرکت کنندگان و محرک های متعلق به دسته های "0"، "a" و "A".
Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ، که در آن آستانه θ=0.5 × max(D) یک کمیت اسکالر به صورت تجربی تعیین شده است.
ما دو معیار نامتقارن، واگرایی و تفاوت Kullback-Leibler (KL) را به عنوان کاندیدای تابع g در نظر می گیریم. واگرایی KL با توجه به دو تصویر میانگین نرمال شده، Ii و Ij، واگرایی KL KL(Ii, Ij) وقتی از Ij برای تقریب Ii استفاده می شود، از دست رفتن اطلاعات را اندازه گیری می کند. این برای هر پیکسل k as26 محاسبه می شود: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ، که در آن Ij,k شدت k امین پیکسل است از Ij، و δ یک ثابت منظم شدن است. وقتی Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. تفاوت با توجه به دو تصویر میانگین نرمال شده، Ii و Ij، تفاوت برای هر پیکسل k Diff (Ii,k, Ij,k) است=Ii,k − Ij,k. وقتی Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. یک شرکتکننده در مورد مجموعه کلاسها، ct، که در قسمت فعلی انتخاب کرده است، مطمئن نیست. از این رو، برای پیشبینی مکان، فقط آن نقشههای برجسته را در D در نظر میگیریم که کلاسهای ct را شامل میشود. مکانی پیشبینی میشود که بر اساس این نقشههای برجستگی برجسته باشد و هرگز توسط شرکتکننده انتخاب نشده باشد. Tus، با توجه به o1:t، l1:t و ct، مکان lt{12}} به صورت زیر پیشبینی میشود:

که در آن Ŵ مجموعه ای از 3-تاپل ها حاوی مکان پیش بینی شده ˆl، کلاسی که برای (i) برجسته است، و نسبت به کدام کلاس (j) است. اگر �ˆl، i، j� ∈ Ŵ وجود داشته باشد، مکان به درستی پیش بینی می شود که �ˆl − lt+1� < ǫ، I ∈ ct+1 و j /∈ ct{{3} }، که در آن ǫ حداکثر فاصله اقلیدسی بین پیکسل مرکزی و هر پیکسل در یک پچ مشاهده است. شبه کد برای پیش بینی مکان در الگوریتم 1 نشان داده شده است. توضیح دقیق شبه کد در بخش S1 مطالب تکمیلی گنجانده شده است. (توزیع احتمال، P(lt+1|o1:t، l1:t،ct)، ممکن است با فرض صفر بودن امتیاز برجستگی مکانهایی که در Ŵ نیستند، محاسبه شود، و سپس امتیاز برجستگی همه نرمال شود. مکان ها برای جمع واحد. با این حال، از این احتمال استفاده نشده است، زیرا معادله (3) برای اهداف این مقاله کافی است.)

ارزیابی مدل های مبتنی بر توجه
بهعنوان نماینده مدلهای مبتنی بر توجه، ما مدل توجه مکرر پراستناد (RAM)3 را در نظر میگیریم که نتایج تجربی را بر روی مجموعه داده MNIST گزارش میکند. مدل تقویتکننده بهطور متوالی یک تصویر را نمونهبرداری میکند و تصمیم میگیرد در هر لحظه نمونهبرداری کجا نمونه بعدی را انتخاب کند، و آن را برای ارزیابی با استفاده از دادههای جمعآوریشده مناسب میکند.
رم
تصاویر را با استفاده از دنباله ای از نگاه ها طبقه بندی می کند. مکان بعدی به صورت تصادفی از یک توزیع توزیع شده توسط شبکه مکان انتخاب می شود. مدل انتها به انتها با به حداکثر رساندن هدف زیر آموزش داده می شود:

که در آن M تعداد قسمتها، T تعداد مشاهدات، xi 1:t دنبالههای تعاملی است که با اجرای عامل فعلی تا قسمتهای I، ui t عمل جاری، θ مجموعه پارامترهای قابل آموزش، Rit است. پاداش تجمعی است، bt یک خط پایه است، و π(ui t|xi 1:t؛ θ) خط مشی است. رفتار RAM ممکن است با مقایسه نقشه های تثبیت به دست آمده از ترتیب مکان های پیش بینی شده توسط RAM و مکان های انتخاب شده توسط شرکت کنندگان، با شرکت کنندگان مقایسه شود. یک نقشه fxation با اختصاص دادن مقداری به هر مکان برابر با فرکانس انتخاب آن، و سپس عادی سازی آن مقادیر برای ایجاد توزیع در تمام مکان ها محاسبه می شود.
معیارهای مقایسه نقشه های تثبیت برای معیارهای مقایسه دو نقشه تثبیت، P و Q، ما به دقت از 26 پیروی می کنیم. ما از سه معیار مبتنی بر توزیع استفاده می کنیم: واگرایی KL (KL)، ضریب همبستگی پیرسون (CC)، و شباهت (SIM)، برای مقایسه توزیع مکان های نمونه گیری. از مدلی که از شرکت کنندگان در داده های جمع آوری شده ثبت شده است.
KL (که قبلاً تعریف شد) به مقادیر صفر بسیار حساس است.
CC می تواند رابطه خطی بین دو نقشه را به صورت26 ارزیابی کند: CC(P, Q)=σ (P, Q) σ (P)σ (Q) که σ واریانس یا کوواریانس است. از آنجایی که CC متقارن است، نمی تواند استنباط کند که آیا تفاوت بین نقشه های تثبیت به دلیل مثبت کاذب یا منفی کاذب است.
سیم کارت به صورت 26 اندازه گیری می شود: SIM(P، Q)=k min(Pk، Qk)، که در آن k Pk=k Qk=1. مانند CC، سیم کارت متقارن است و همان اشکال را به ارث می برد. همچنین، سیم کارت به مقادیر از دست رفته بسیار حساس است و پیشبینیهایی را که در محاسبه چگالی حقیقت زمین ناکام هستند جریمه میکند.
تحقیقات انسان و حیوان.
هیئت بررسی نهادی در دانشگاه ممفیس تشخیص داده است که این مطالعه با تعریف دفتر حفاظت از تحقیقات افراد انسانی در مورد تحقیقات افراد انسانی مطابقت ندارد و 45 CFR قسمت 46 اعمال نمی شود. از این رو، این مطالعه نیازی به تایید یا بررسی IRB ندارد.
نتایج تجربی تجزیه و تحلیل داده ها.
داده های جمع آوری شده را می توان از نظر توالی توزیع مکان های انتخاب شده (شکل 3)، کلاس های انتخاب شده (شکل 2) و مدت زمان بین قسمت های متوالی (شکل 2) تجسم کرد. این توزیع ها برای سه مجموعه داده بسیار مشابه هستند. برای هر عدد یا حروف الفبای، توزیع مکانهای انتخابی پس از قسمت آخر شبیه توزیع شدت پیکسلهای کلاس آن از مجموعه داده است. با این حال، توالی مکانهای انتخاب شده ماهیت تصادفی دارد. توزیع کلاس نشاندهنده سردرگمی بین دستهها با ساختارهای مشابه در چند قسمت اولیه است که شرکتکنندگان چندین کلاس را انتخاب میکنند. این سردرگمی با نمونه گیری بیشتر کاهش می یابد. بین میزان سردرگمی (# کلاس انتخابی/کل # کلاس) و مدت زمان نمونه گیری رابطه مثبت و معناداری وجود دارد (شکل 4 را ببینید). اگر تعداد کلاس های انتخابی زیاد (کم) باشد، مدت زمان بین قسمت های متوالی زیاد (کم) است. CC توالی مکان های انتخاب شده توسط یک شرکت کننده برای یک کلاس قابل توجه نیست (جدول 1). این به دلیل تنوع بین موضوعی در نمونه برداری از تصاویر استاتیک انتظار می رود. میانگین تعداد نمونهگیریهای مورد نیاز یک شرکتکننده برای پیشبینی دقیق یک کلاس بسیار کم است. به طور متوسط، 4.2، 4.7، و 4.9 نمونه مربوط به 36، 44.1، و 48.1 ثانیه برای طبقه بندی دقیق تصاویر MNIST، EMNIST با حروف بزرگ و کوچک به ترتیب طول می کشد. شرکت کنندگان به طور متوسط تنها 11.3%، 13.4% و 13.7% از ناحیه تصویر را برای طبقه بندی دقیق یک تصویر الفبای اعداد، بزرگ و کوچک مشاهده کردند (شکل S2 را در مطالب تکمیلی ببینید). این نتایج کارایی سیستم استدلال بصری انسان را برجسته میکند، البته با وضوح کمتر از دادههای ردیابی چشم، اما با نویز و تنوع کمتر. این نتایج تجربی ممکن است برای طراحی مدلهای مبتنی بر توجه برای کاربردهای دنیای واقعی مفید باشد. پیش بینی رفتار در این بخش، عملکرد مدل پایه ما از نظر اینکه چقدر می تواند مکان هر شرکت کننده و انتخاب کلاس را پیش بینی کند، ارزیابی می شود. از آنجایی که نتایج تجربی ما با استفاده از دو تابع امتیازدهی برجسته، واگرایی KL و تفاوت، کاملاً مشابه هستند، نتایج فقط با استفاده از تفاوت گزارش میشوند، مگر اینکه خلاف آن ذکر شود. پیش بینی کلاس پیشبینی کلاس و روشهای ارزیابی دقت آن در بخش «پیشبینی کلاس» توضیح داده شده است. دقت پیشبینی کلاس، که در شکل 5 نشان داده شده است، بر روی همه کلاسها برای همه نمونهها محاسبه میشود. میانگین دقت پیشبینی کلاس در تمام نمونهها و مجموعه دادهها 74.4٪ است (std. dev. 26.5). شکلهای 5a و b نشان میدهند که مجموعه کلاسهای انتخاب شده توسط شرکتکنندگان و مدل پایه ما (معادل 2) در قسمتهای اولیه کاملاً نادرست است و با افزایش نمونهها بهبود مییابد. شکل 5c نشان می دهد که در طول قسمت های اولیه، این دو مجموعه، ct و ˆct، کاملاً متفاوت هستند. شباهت با افزایش نمونه ها افزایش می یابد. همین امر در مورد انتخابهای کلاس جدید نیز صدق میکند (شکل 5f). با این حال، رد کلاس در قسمت های اولیه مشابه است. شباهت با نمونه های بیشتر بیشتر می شود (به شکل 5e مراجعه کنید). از آنجایی که J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| و J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1− (ct∩ˆct)|، میتوان از شکل 5e، f استنباط کرد که در قسمتهای اولیه، تقاطع بین ct−1 و ct∪ˆct کوچک است، که نشان میدهد در ابتدا شرکتکنندگان و مدل پایه ما تغییرات زیادی در انتخاب کلاس خود بین قسمت های متوالی ایجاد کنند. بنابراین، در ابتدا، فرآیند انتخاب کلاس بسیار تصادفی است. در حالی که برخی تفاوتها بین پیشبینی کلاس شرکتکنندگان و مدل ما در طول قسمتهای اولیه وجود دارد، رفتارها با نمونههای بیشتر شبیهتر میشوند. در طول چند قسمت اول (معمولاً 4 تا 7) قسمت های بسیار برجسته یک محرک آشکار می شود. این به انتخاب تنها کلاس صحیح در نمونه گیری های بعدی کمک می کند که دقت پیش بینی را افزایش می دهد. از آنجایی که کلاس های زیادی وجود دارند که الگوهای میانگین آنها با بخش های مشاهده شده محرک در چند قسمت اولیه مطابقت دارد، فرآیند انتخاب کلاس به طور قابل توجهی تصادفی تر است که منجر به دقت طبقه بندی پایین از سوی شرکت کنندگان و همچنین مدل ما می شود.

شکل 3. توزیع مکان های نمونه بر روی همه شرکت کنندگان برای هر کلاس اعداد/الفبا و هر قسمت نمونه برداری. هر ردیف مربوط به یک کلاس است، هر ستون مربوط به یک قسمت نمونه است که از چپ به راست افزایش می یابد.
پیش بینی موقعیت مکانی دقت پیشبینی مکان مدل پایه ما (معادل 3) که در تمام نمونهها و مجموعههای داده به طور میانگین به دست میآید، 67.7٪ است (std. dev. 14.1) (مرجع به شکل 5d). روند این دقت پیشبینی برخلاف دقت پیشبینی کلاس است. با این حال، توضیح همان باقی می ماند. دقت پیشبینی مکان در طول نمونهگیریهای اولیه بالاست، زیرا در طول این قسمتها، مکانهای بسیار برجسته انتخاب میشوند و باعث میشود مکانهای کمتر برجسته در قسمتهای بعدی انتخاب شوند. از آنجایی که مکانهای زیادی با برجستگی کم وجود دارد، فرآیند انتخاب آنها بسیار تصادفی است و بنابراین پیشبینی آن دشوار است، که منجر به کاهش دقت پیشبینی با افزایش نمونهگیری میشود. روند کاهشی برای هر مجموعه داده منحصربهفرد است (شکل 5d). هرچه تعداد کلاس ها و مکان های متمایز بسیار برجسته کمتر باشد، با افزایش نمونه گیری ها، دقت پیش بینی مکان سریعتر کاهش می یابد.

شکل 4. (سمت چپ) نمودار نوار خطای اختلاف زمانی (ثانیه) بین نمونه های متوالی به طور میانگین در تمام کلاس ها. Tat است، مقدار نشان داده شده در قسمت نمونه t زمان سپری شده بین کلیک های یک شرکت کننده در تصویر در t − 1 و t است. (راست) نمودار نوار خطای سردرگمی به طور میانگین در تمام کلاس ها در هر قسمت. نوارهای خطا std را نشان می دهد. توسعه دهنده

شکل 5. ارزیابی مدل پایه ما (مراجعه کنید به بخش "پایه برای پیش بینی رفتار"). (الف) دقت طبقهبندی شرکتکنندگان و (ب) مدل پایه ما با برچسبهای واقعی به عنوان حقیقت پایه. (ج) شباهت طبقهبندی (J(ct، ˆct))، (د) دقت پیشبینی مکان، (ه) دقت رد کلاس و (f) دقت انتخاب کلاس مدل پایه ما با دادههای شرکتکنندگان به عنوان حقیقت پایه. برای جزئیات بیشتر به بخش «پیشبینی رفتار» مراجعه کنید.

جدول 1. میانگین ضریب همبستگی پیرسون (corr.) برای دنباله های fxation برای همان کلاس. برای هر تثبیت، فاصله اقلیدسی است و جهت به عنوان زاویه قطبی با توجه به مرکز محرک ها به عنوان مبدا اندازه گیری می شود. Std. توسعه دهنده داخل پرانتز قرار می گیرند.
ارزیابی رم
برای هر کلاس و نمونهبرداری، نقشههای تثبیت از RAM (ما از پیادهسازی RAM از github.com/hehefan/Recurrent-Attention-Model استفاده کردیم) و دادههای جمعآوریشده برای محرکهای مشابه ارائهشده در MTurk مقایسه میشوند. برای مقایسه منصفانه با شرکتکنندگان، در RAM طول دنباله را در T=12، اولین مکان نمونهگیری در مرکز تصویر، مشاهده ورودی را در یک پچ 5×5 با مکان انتخابی به عنوان مرکز آن، و تابع پاداش را با معادله اصلاح کرد. (1). پاداش تجمعی، Rt در معادله. (4،) با نمره تجمعی t τ=1 Pτ بهدستآمده از معادله جایگزین میشود. (1). از آنجایی که یک شرکتکننده میتواند چندین کلاس را در هر قسمت انتخاب کند، برای مدل RAM، بهجای پیشبینی یک کلاس منفرد بر اساس بالاترین احتمال، میانگین احتمال را روی همه کلاسها به عنوان آستانه در نظر میگیریم و مجموعه کلاسهای ct را با احتمالات بیشتر از آستانه. این ct برای محاسبه امتیاز با استفاده از معادله استفاده می شود. (1). تحت این شرایط، RAM به 3.7، 8.5، و 7.6 نمونه برای تشخیص اعداد MNIST، حروف بزرگ و کوچک الفبای EMNIST نیاز دارد که به ترتیب با 8.9٪، 21.0٪، 18.7٪ از ناحیه تصویر مطابقت دارند. بنابراین، در مقایسه با شرکت کنندگان ما (رجوع کنید به بخش "تحلیل داده ها")، RAM کارایی کمتری دارد. جدول 2 را ببینید. نتایج حاصل از مقایسه نقشه های تثبیت از RAM و داده های جمع آوری شده در جدول 3 نشان داده شده است. KL به دلیل حساسیت آن به مقادیر صفر بالاتر است. این بدان معناست که چندین مکان توسط شرکتکنندگان نمونهبرداری شده است، اما نه توسط RAM. این آزمایشها میتوانند بهعنوان پایهای برای ارزیابی مکانهای نمونهگیری شده توسط یک مدل توجه استفاده شوند.

مزایای سیستانچ - بهبود حافظه
بحث ها
پارادایم mcAT، همانطور که در این مقاله استفاده شده است، دارای نقاط تمایز خاصی با مواردی است که در درجه اول به حرکات چشم و نگاه ها برای مطالعه مکانیسم های تشخیص اشیا متکی هستند. در دومی، ابتدا قسمتهای برجسته صحنه جلب توجه میکنند و به دنبال آن حرکات ساکادیک چشم، نگاه چشم را به سمت مکانهای برجسته هدایت میکند. نگاه توسط سیگنال های پایین به بالا و از بالا به پایین هدایت می شود که همراه با اطلاعات برجسته، نقشه های اولویتی را تشکیل می دهند که حرکات چشم را برای تشخیص اشیا هدایت می کند. از آنجایی که شرکت کنندگان در مطالعه حاضر به تصاویر ایستا در شرایط مشاهده آزاد و با زمان کافی (شش دقیقه برای نمونه گیری T{4}}) نگاه کردند، آنها احتمالاً درگیر یک سری حرکات ساکادیک چشم یا استدلال بصری28 برای کاوش بودند. تصویر قبل از کلیک بر روی یک AOI. این حرکات چشم را میتوان در emAT (با استفاده از ردیاب چشم) ثبت کرد اما در mcAT نه. با این حال، این حرکات چشم تحت تأثیر سرگردانی ذهن است. در حالی که mcAT نیز تحت تأثیر سرگردانی ذهنی قرار می گیرد، هر زمان که شرکت کنندگان پس از استدلال بصری پاسخ دادند، تأثیر ممکن است کاهش یابد. از آنجایی که حرکات چشم در پاسخ به یک محرک تحت تأثیر کار مورد نظر قرار می گیرد، الگوهای حرکت چشم شرکت کنندگان احتمالاً تحت تأثیر کار سه مرحله ای تعیین شده در هر نمونه قرار گرفته است (رجوع کنید به بخش "وظیفه بصری"). اگر از یک ردیاب چشم استفاده میشد، حرکات چشم شرکتکنندگان برای کاوش نمونه با حرکات چشم ترکیب میشد تا کلاسهای انتخابی آنها را کلیک کنند، که تفسیر کاوش بصری نمونه را پیچیده میکرد. کلیک کردن بر روی کلاس(های) یک مرحله ضروری است، زیرا کلاس(های) پیش بینی شده را در ذهن یک شرکت کننده آشکار می کند، البته به صورت درون نگر. این احتمال وجود دارد که نگاهها بلافاصله قبل و بعد از انتخاب AOI - شاید با کمک حرکات چشم ثابت{10}} بیشترین کمک را در تشخیص اعداد/الفبا داشته باشند. در واقع، ما حدس میزنیم که شرکتکنندگان قسمتهای تشخیصی تصویر را برای تمایز بین کلاسها انتخاب کردند، و این مناطق احتمالاً حاوی ترکیبی از اطلاعات تشخیصی از پایین به بالا (مثلاً کنتراست بصری) و از بالا به پایین (الگوی اعداد/الفبا) هستند. این با یافته ما مطابقت دارد که شرکت کنندگان به سرعت (به طور متوسط در عرض 5 نمونه) بین کلاس های محرک ظاهراً با انتخاب تکه های تشخیصی تمایز قائل شدند.

جدول 2. مقایسه کارایی بین شرکت کنندگان ما و مدل RAM از نظر میانگین تعداد نمونه های مورد نیاز برای تشخیص یک عدد/الفبا. درصد مساحت تصویر مشاهده شده در پرانتز گنجانده شده است.

جدول 3. ارزیابی نقشه های تثبیت از RAM برای محرک های ارائه شده در آزمایش های MTurk به طور میانگین در تمام کلاس ها و نمونه ها. Std. توسعه دهنده داخل پرانتز قرار می گیرند.
نتیجه گیری
ما یک مجموعه داده mcAT را برای تشخیص اعداد و الفبای دستنویس از طریق نمونهگیری متوالی معرفی کردیم. دادهها از 382 شرکتکننده جمعآوری شده است که تصاویر انتخاب شده از مجموعه دادههای معیار (MNIST، EMNIST) ارائه شدهاند. به طور متوسط، 169.1 پاسخ در هر کلاس اعداد/الفبا ثبت می شود. داده ها به طور دقیق تجزیه و تحلیل می شوند تا کارایی تشخیص بصری انسان را آشکار کنند. شرکت کنندگان تنها 12.8 درصد از یک تصویر را برای تشخیص مشاهده کردند. ما یک مدل پایه را برای پیشبینی مکان و کلاس (های) یک شرکتکننده در نمونهگیری بعدی پیشنهاد کردیم. ما نشان دادیم که چگونه میتوان از شرایط و دادههای تجربی ما برای ارزیابی یک مدل تقویت مبتنی بر توجه در مقایسه با عملکرد انسانی استفاده کرد. این مجموعه داده mcAT، با مزایای متعدد نسبت به داده های ردیابی چشم، شکاف مهمی را در تحقیقات مدل مبتنی بر توجه در هوش مصنوعی، ML و سایر زمینه ها پر می کند.
منابع
1. Ranzato، MA در مورد یادگیری کجا باید نگاه کرد. arXiv:1405.5488، (2014).
2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ یادگیری مدل های توجه مکرر بیداری-خواب. در NIPS، 2593–2601 (2015).
3. منیح، وی و همکاران. مدل های تکرارشونده توجه بصری در NIPS، 2204–2212 (2014).
4. Ba, J., Mnih, V., & Kavukcuoglu, K. تشخیص چند شیء با توجه بصری. arXiv:1412.7755 (2014).
5. Dutta, JK & Banerjee, B. تنوع در دقت طبقه بندی با تعداد اجمالی. در IJCNN، 447-453 (IEEE، 2017).
6. لاروشل، اچ و هینتون، جنرال الکتریک یادگیری ترکیب اجمالی فووآل با دستگاه بولتزمن درجه سوم. در NIPS، 1243-1251 (2010).
7. Elsayed, G., Kornblith, S. & Le, QV Saccader: بهبود دقت مدلهای توجه سخت برای بینایی. در NIPS، 702–714 (2019).
8. van Beers، RJ Te منابع تنوع در حرکات چشم ساکادیک. J. Neurosci. 27 (33)، 8757-8770 (2007).
9. Itti, L. & Baldi, P. Bayesian سورپرایز توجه انسان را به خود جلب می کند. Vis. Res. 49 (10)، 1295-1306 (2009).
10. Egner, S. et al. توجه و کسب اطلاعات: مقایسه کلیک ماوس با ردیابی توجه حرکت چشم. J. Eye Mov. Res. 11 (6)، (2018).
11. Peterson, MS, Kramer, AF & Irwin, DE تغییر توجه پنهان قبل از حرکات غیر ارادی چشم. درک کنید. روانشناسی. 66 (3)، 398-405 (2004).
12. جیانگ، ام و همکاران. سیلیکون: برجستگی در زمینه. در CVPR، 1072-1080 (2015).
13. کیم، NW و همکاران. BubbleView: رابطی برای جمع سپاری نقشه های اهمیت تصویر و ردیابی توجه بصری. ACM Trans. محاسبه کنید. هوم تعامل داشتن. 24 (5)، 1-40 (2017).
14. Sermanet, P., Frome, A. & Real, E. توجه برای طبقه بندی ریزدانه. arXiv:1412.7054 (2014).
15. Egner, S., Itti, L. & Scheier, C. مقایسه مدل های توجه با انواع مختلف داده های رفتاری. تحقیق کنید افتالمول. Vis. علمی 41 (4)، S39 (2000).
16. Navalpakkam, V. et al. اندازه گیری و مدل سازی رفتار چشم و موش در حضور صفحه آرایی غیرخطی. در Proc. بین المللی Conf. WWW، 953–964 (2013).
17. Matzen, LE, Stites, MC & Gastelum, ZN مطالعه جستجوی بصری بدون ردیاب چشم: ارزیابی فوواسیون مصنوعی. شناخت. Res. پرنس ضمنی 6 (1)، 1-22 (2021).
18. تافی، AP و همکاران. OCR به عنوان یک سرویس: ارزیابی تجربی از Google Docs OCR، Tesseract، ABBYY FineReader، و Transym. در بین المللی علائم Vis. Comput., 735-746 (اسپرینگر، 2016).
19. Memon, J., Sami, M., Khan, RA & Uddin, M. Handwritten Optical character recognition (OCR): مروری بر ادبیات سیستماتیک جامع (SLR). دسترسی IEEE 8، 142642–142668 (2020).
20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Optical character recognition system. در سیستمهای تشخیص کاراکتر نوری برای زبانهای مختلف با محاسبات نرمافزاری، ۹–۴۱ (اسپرینگر، ۲۰۱۷).
21. LeCun، Y. و همکاران. یادگیری مبتنی بر گرادیان برای شناسایی اسناد اعمال می شود. Proc. IEEE 86(11)، 2278-2324 (1998).
22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: گسترش MNIST به نامه های دست نویس. arXiv:1702.05373، (2017).
23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: یک شبکه عصبی تکراری برای تولید تصویر. در ICML، 1462-1471 (2015).
24. Friston، K. Te اصل انرژی آزاد: راهنمای تقریبی برای مغز؟. روندهای شناختی. علمی 13 (7)، 293-301 (2009).
25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. معرفی مدل بیزی توجه انتخابی بر اساس استنتاج فعال. علمی 9 (1)، 1–22 (2019).
26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. معیارهای ارزیابی مختلف در مورد مدل های برجسته چه چیزی به ما می گویند؟ IEEE Trans. الگوی مقعدی ماخ هوشمند 41 (3)، 740-757 (2018).
27. Itti, L. & Koch, C. مدلسازی محاسباتی توجه بصری. نات. کشیش نوروسی. 2 (3)، 194-203 (2001).
28. Lamme، VAF توابع بصری که دید آگاهانه را ایجاد می کنند. جلو. Psychol., 11, (2020).
29. da Silva، MRD & Postma، M. ذهن های سرگردان، موش های سرگردان: ردیابی ماوس کامپیوتری به عنوان روشی برای تشخیص سرگردانی ذهن. محاسبه کنید. هوم رفتار 112, 106453 (2020).
30. Schütz، AC، Braun، DI و Gegenfurtner، KR حرکات و درک چشم: یک بررسی انتخابی. J. Vis. 11 (5)، 9-9 (2011).
31. Intoy, J. & Rucci, M. حرکات دقیق چشم، دقت بینایی را افزایش می دهد. نات. اشتراک. 11 (1)، 1-11 (2020).






