Apple випускає підібраний набір даних ШІ для дослідження редагування зображень – 9to5Mac

Apple випускає підібраний набір даних ШІ для дослідження редагування зображень – 9to5Mac


Apple випустила Pico-Banana-400K, ретельно підібраний дослідницький набір із 400 000 зображень, який, що цікаво, було створено за допомогою моделі Gemini-2.5 від Google. ось деталі.

Дослідницька група Apple опублікувала цікаве дослідження під назвою «Pico-Banana-400K: великомасштабний набір даних для текстового редагування зображень».

На додаток до дослідження вони також опублікували повний набір даних із 400 000 зображень, які вони створили, які вони тримають згідно з ліцензією на некомерційні дослідження. Це означає, що будь-хто може використовувати та досліджувати його, за умови, що це призначено для академічної роботи чи дослідницьких цілей ШІ. Іншими словами, його не можна використовувати в комерційних цілях.

Добре, але що це?

Кілька місяців тому Google випустив модель Flash-image Gemini-2.5, також відому як Nanon-Banana, яка, можливо, є найсучаснішою моделлю редагування зображень.

Інші моделі також зазнали значних покращень, але, як відзначили дослідники Apple:

«Незважаючи на ці досягнення, відкриті дослідження обмежені відсутністю широкомасштабних, високоякісних наборів даних для редагування, які можна повністю використовувати. Існуючі набори даних часто покладаються на власні моделі або синтетичні генерації з обмежених підмножин, які курує людина. Крім того, ці набори даних часто демонструють варіації домену, незбалансований розподіл типів редагування та непослідовний контроль якості, що перешкоджає розробці надійних моделей редагування».

Тому Apple вирішила щось з цим зробити.

Pico-Banana-400K Build

Перше, що зробила Apple, це витягла невизначену кількість реальних фотографій із набору даних OpenImages, «відібраних для забезпечення покриття людей, об’єктів і текстових сцен».

так, вони дійсно використовували comic sans

Потім він склав список із 35 різних типів змін, які користувач міг попросити внести модель, розділених на вісім категорій. Наприклад:

  • Піксель і фотометричний: Додайте зернистість плівки або старовинний фільтр
  • Орієнтований на людину: Іграшкова фігурка людини в стилі фанко-поп
  • Візуальна композиція та мультидисципліна: Зміна погодних умов (сонячно/дощ/сніг)
  • Семантика на рівні об’єкта: Перемістити об’єкт (змінити його положення/просторове співвідношення)
  • масштаб: збільшити

Потім дослідники завантажать зображення разом із одним із цих сигналів у нанобанан. Коли Nano-Banana створює відредаговане зображення, дослідники аналізують результати Gemini-2.5-Pro, схвалюючи або відхиляючи їх на основі відповідності інструкціям і якості зображення.

Результатом став Pico-Banana-400K, який включає зображення, створені за допомогою редагування в один хід (одна підказка), послідовності редагування в кілька оборотів (кілька ітераційних підказок) і пари переваг, які порівнюють успішні та невдалі результати (щоб модель також могла дізнатися, як виглядають небажані результати).

Визнаючи обмеження Nano-Banana у детальному просторовому редагуванні, екстраполяції компонування та типографіці, дослідники кажуть, що вони сподіваються, що Pico-Banana-400K послужить «міцною основою для навчання та порівняльного аналізу наступного покоління моделей редагування зображень із текстовим керуванням».

Ви можете знайти дослідження на arXiv, а набір даних доступний безкоштовно на GitHub.

Пропозиції аксесуарів на Amazon

FTC: ми використовуємо автоматичні партнерські посилання, які приносять дохід. більше.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *