بینایی سه‌بُعدی

همراه با نرم‌افزار یادگیری عمیق برای شناسایی خودکار میوه

 

باسلر با همکاری شرکت برلینی دیتا اسپری یک برنامه یادگیری عمیق برای شناخت و طبقه‌بندی میوه‌ها ایجاد کرده است. سیستم بینایی مبتنی بر یک دوربین Basler blaze Time of-Flight و یک پلتفرم یادگیری عمیق از شرکت دیتا اسپری است.

 

1.بررسی اجمالی

روش‌های یادگیری عمیق نه‌تنها به دلیل افزایش دقت، بلکه به دلیل کاهش زمان توسعه سیستم‌های آماده برای استفاده، مزایایی نسبت به روش‌های کلاسیک پردازش تصویر دارند. ماشین‌آلات مبتنی بر شبکه عصبی کاملاً آموزش‌دیده، نه‌تنها در برابر تغییرپذیری اجسامی که قرار است شناسایی شوند محکم هستند، بلکه می‌توانند به‌طور مداوم در طول چرخه کامل عمر خود بهبود یابند و بنابراین در شرایط مرزی متفاوت، نتایج مطلوبی ایجاد می‌کنند.

یک مثال بسیار خوب، طبقه‌بندی و فرآوری محصولات کشاورزی است. این محصولات می‌توانند ازنظر شکل و رنگ بسیار متفاوت باشند که چالش بزرگی برای روش‌های ثابت پردازش تصویر است.

 

2.راه‌حل

باسلر ضمن همکاری نزدیک با شرکت ارائه‌دهنده نرم‌افزار دیتا اسپری، یک راه‌حل بینایی برای شناسایی و طبقه‌بندی میوه‌ها ایجاد کرده است. نقاط قوت تکنیک سه‌بعدی زمان پرواز با یک الگوریتم یادگیری عمیق بسیار ساده ترکیب می‌شود تا یک راه‌حل بسیار دقیق و قوی بلادرنگ برای مرتب‌سازی میوه ارائه دهد.

 

بینایی سه‌بُعدی

2.1. سخت‌افزار

سیستم بینایی مبتنی بر یادگیری عمیق از یک کامپیوتر استاندارد و یک دوربین ToF باسلر بلیز تشکیل شده است.

دوربین باسلر بلیز به لطف جدیدترین فناوری حسگر Sony DepthSense ™ IMX556PLR، تصاویر سه‌بعدی با وضوح بالا را با دقت تقریباً میلی‌متری ارائه می‌دهد. این دوربین درواقع یک دوربین سه‌بعدی است که نه‌تنها از روش زمان پرواز (ToF) برای تولید یک تصویر در مقیاس خاکستری به‌عنوان تصویر شدتی استفاده می‌کند، بلکه از اندازه‌گیری زمان پرواز پالس‌های نور در محدوده نزدیک به مادون‌قرمز (NIR) نیز برای اندازه‌گیری فاصله هر پیکسل بهره می‌برد. تصویر حاصله سپس به‌صورت ابر نقاط سه‌بعدی در دسترس قرار گرفته و اطلاعات بیشتری در مورد صحنه نشان داده‌شده ارائه می‌دهد. در مقایسه با تصاویر RGB دوبعدی، اطلاعات رنگ با اطلاعات شکل جایگزین می‌شود که نه‌تنها دارای مزایایی در تشخیص هم‌زمان سیب‌های قرمز و سبز است بلکه کاربردهای دیگری مانند موقعیت دقیق و اندازه‌گیری اشیای شناسایی‌شده را نیز امکان‌پذیر می‌کند.

بینایی سه‌بُعدی

2.2. نرم‌افزار

تصاویر گرفته‌شده توسط دوربین باسلر بلیز توسط نرم‌افزار Deep Learning DS شرکت دیتا اسپری که یک راه‌حل نرم‌افزاری مبتنی بر شبکه‌های عصبی عمیق (یادگیری عمیق) است، ارزیابی می‌شوند. راه‌حل دیتا اسپری بسیار کاربرپسند است و امکان توسعه آسان مدل‌های یادگیری عمیق و بدون تجربه قبلی را فراهم می‌کند.

برای راه‌اندازی، انجام مراحل زیر لازم است:

1.اکتساب داده

هر شبکه عصبی برای طبقه‌بندی بعدی به تعداد زیادی عکس نمونه نیاز دارد. به‌عنوان‌مثال، ابتدا حدود 500 تصویر از میوه‌های مختلف (موز ، سیب و گلابی) با دوربین باسلر بلیز به دست می‌آیند. سپس نرم‌افزار دوربین، از تصاویر شدتی و عمقی سیاه‌وسفید، تصاویری 2 کاناله تولید می‌کند. این داده‌ها حاوی فاصله تا شی‌ء برحسب میلی‌متر در هر پیکسل هستند. این داده‌های تصویری در پلتفرم Deep Learning DS بارگیری می‌شوند.

2.حاشیه‌نویسی

سپس داده‌های تصویر با فراداده غنی می‌شوند. برای این منظور، به‌صورت دستی در اطراف هر یک از میوه‌ها، کادری کشیده شده و گروه متناظر (سیب، گلابی و غیره) به آن اختصاص داده می‌شود. این کار، آنچه را که در مرحله بعدی به شبکه عصبی آموزش داده می‌شود، مشخص می‌کند. این روند که پیش‌ازاین بسیار  وقت‌گیر و پرزحمت بود، پس از حدود 100 تصویر با حاشیه‌نویسی دستی سرعت می‌گیرد زیرا یک مدل یادگیری عمیق اولیه، از قبل پیشنهادهایی را برای تصاویر پس‌ازآن ایجاد می‌کند که فقط باید اصلاح شوند.

3.آموزش

پس‌ازآنکه که همه 500 تصویر حاشیه‌نویسی شدند، فقط با چند کلیک ماوس، مدل دیگری ایجاد شده و شبکه عصبی عمیق (DNN)  به‌طور خودکار آموزش می‌بیند. در طول آموزش، دقت تشخیص به‌طور منظم با استفاده از مجموعه داده‌های آزمون ارزیابی می‌شود.

تدارک (به‌کارگیری) و کاربرد (استنتاج) شبکه آموزش‌دیده بر روی سخت‌افزار هدف

پس از اتمام آموزش، مدل تکمیل‌شده بر روی سخت‌افزار موردنظر بارگذاری گردیده و در آنجا می‌تواند مستقیماً با استفاده از نرم‌افزار اجرای استنتاج دیتا اسپری اجرا شود. دوربین ToF blaze Basler که شامل پردازش اولیه است، از قبل به‌طور کامل یکپارچه شده است تا برنامه یادگیری عمیق قادر به شروع خودکار باشد.

 

2.3. مزایای راه‌حل

این راه‌حل چندین مزیت را ارائه می‌دهد:

  • شناسایی و طبقه‌بندی دقیق و قابل‌اعتماد اشیا با تلفیق اطلاعات مکانی توسط دوربین سه‌بعدی (زمان پرواز) در یادگیری شبکه‌های عصبی
  • کاهش پیچیدگی کاربرد، به دلیل آنکه در تعداد زیادی از برنامه‌ها، دیگر نیازی به فناوری حسگر مکمل نیست
  • از طریق راه‌حل نرم‌افزاری ساده و راحت دیتا اسپری، می‌توان برنامه‌های یادگیری عمیق را حتی بدون دانش قبلی از برنامه‌نویسی و یادگیری عمیق تهیه کرد
  • نتایج دقیق اندازه‌گیری حتی در نور کم، نور روز و بدون کنتراست
  • استفاده از سخت‌افزار دوربین مورد تأیید صنعتی و بادوام با کلاس محافظتی استاندارد IP67
  • نصب آسان سخت‌افزار به دلیل روشنایی یکپارچه و اپتیک کالیبره شده

 

بینایی سه‌بُعدی

 

3.نتیجه‌گیری

باسلر با همکاری شرکت دیتا اسپری، به کمک کاربرد مثال فوق در جهت طبقه‌بندی میوه، ثابت کرد که ترکیب یک دوربین سه‌بعدی قوی با مدل‌های یادگیری عمیق به کاربران این امکان را می‌دهد که وظایف پیچیده را به روشی مقرون‌به‌صرفه ازنظر زمان و هزینه حل کنند. اطلاعات عمق اضافی ارائه شده توسط دوربین زمان-پرواز باسلر می‌تواند در کاربردهای مختلف هنگام آنالیز احجام، اشکال یا موقعیت اشیا کمک کند.

باسلر شریک مناسبی برای توسعه راه‌حل‌های هوشمند بینایی سه‌بعدی است که سخت‌افزار قوی را با نرم‌افزار کاربرپسند ترکیب می‌کند.

 

صفحه اختصاصی دیپ لرنینگ
منبع