Sau khi có bằng chứng xuất hiện Vào năm 2018, các thuật toán phân tích khuôn mặt hàng đầu kém chính xác hơn đối với những người có làn da sẫm màu hơn, các công ty bao gồm Google và Meta đã áp dụng các biện pháp đo tông màu da để kiểm tra tính hiệu quả của phần mềm AI của họ. Nghiên cứu mới của Sony cho thấy những thử nghiệm đó chưa phát hiện được khía cạnh quan trọng về sự đa dạng của màu da con người.
Bằng cách thể hiện tông màu da chỉ bằng thang trượt từ sáng nhất đến tối nhất hoặc trắng sang đen, các biện pháp phổ biến ngày nay bỏ qua sự đóng góp của màu vàng và đỏ đối với phạm vi của da con người. theo các nhà nghiên cứu của Sony. Họ phát hiện ra rằng các hệ thống AI tổng hợp, thuật toán cắt xén hình ảnh và các công cụ phân tích ảnh đều phải vật lộn với làn da vàng nói riêng. Điểm yếu tương tự có thể áp dụng cho nhiều công nghệ mà độ chính xác được chứng minh là bị ảnh hưởng bởi màu da, chẳng hạn như phần mềm AI để nhận dạng khuôn mặt, theo dõi cơ thể và phát hiện deepfake hoặc các tiện ích như máy đo nhịp tim và máy phát hiện chuyển động.
Alice Xiang, nhà khoa học nghiên cứu chính và người đứng đầu toàn cầu về Đạo đức AI tại Sony, cho biết: “Nếu các sản phẩm chỉ được đánh giá theo cách rất một chiều này thì sẽ có rất nhiều thành kiến sẽ không bị phát hiện và không được khắc phục”. “Chúng tôi hy vọng rằng công việc chúng tôi đang thực hiện ở đây có thể giúp thay thế một số thang màu da hiện tại vốn thực sự chỉ tập trung vào vùng sáng và vùng tối.”
Nhưng không phải ai cũng chắc chắn rằng các lựa chọn hiện có là không đủ để chấm điểm hệ thống AI. Ellis Monk, nhà xã hội học của Đại học Harvard, cho biết bảng màu gồm 10 tông màu da mang đến các lựa chọn từ sáng đến tối mà ông giới thiệu cùng với Google năm ngoái không phải là một bảng màu. Monk, người có thang đo Monk Skin Tone, cho biết: “Tôi phải thừa nhận là hơi bối rối trước tuyên bố rằng nghiên cứu trước đây trong lĩnh vực này đã bỏ qua các tông màu và màu sắc”. Google cung cấp cho người khác sử dụng. “Nghiên cứu được dành riêng để quyết định nên ưu tiên những tông màu nào theo thang đo và ở những điểm nào.” Anh ấy đã chọn 10 tông màu da theo thang đo của mình dựa trên nghiên cứu của chính anh ấy về chủ nghĩa màu sắc và sau khi tham khảo ý kiến của các chuyên gia khác và những người từ các cộng đồng ít đại diện.
X. Eyeé, CEO của công ty tư vấn đạo đức AI Malo Santo và là người trước đây đã thành lập nhóm nghiên cứu tông màu da của Google, cho biết thang đo Monk chưa bao giờ được coi là giải pháp cuối cùng và coi công việc của Sony là tiến bộ quan trọng. Nhưng Eyeé cũng cảnh báo rằng vị trí camera ảnh hưởng đến giá trị màu CIELAB trong ảnh, một trong nhiều vấn đề khiến tiêu chuẩn trở thành điểm tham chiếu có thể không đáng tin cậy. Eyeé cho biết: “Trước khi chúng tôi bật tính năng đo màu da trong các thuật toán AI trong thế giới thực—như bộ lọc máy ảnh và hội nghị truyền hình—cần phải làm việc nhiều hơn để đảm bảo phép đo nhất quán”.
Việc tranh cãi trên quy mô không chỉ mang tính học thuật. Tìm kiếm các biện pháp “công bằng” thích hợp, như các nhà nghiên cứu AI gọi, là ưu tiên hàng đầu của ngành công nghệ khi các nhà lập pháp, bao gồm cả ở Liên minh Châu Âu và Hoa Kỳ, tranh luận về việc yêu cầu các công ty kiểm tra hệ thống AI của họ và chỉ ra những rủi ro và sai sót. Các nhà nghiên cứu của Sony cho biết các phương pháp đánh giá không hợp lý có thể làm xói mòn một số lợi ích thực tế của các quy định.
Về màu da, Xiang cho biết những nỗ lực phát triển các biện pháp bổ sung và cải tiến sẽ không ngừng nghỉ. Cô nói: “Chúng ta cần tiếp tục cố gắng để đạt được tiến bộ. Monk cho biết các biện pháp khác nhau có thể hữu ích tùy thuộc vào tình hình. “Tôi rất vui vì ngày càng có nhiều người quan tâm đến lĩnh vực này sau một thời gian dài bị lãng quên,” ông nói. Người phát ngôn của Google Brian Gabriel cho biết công ty hoan nghênh nghiên cứu mới và đang xem xét nó.
Màu da của một người đến từ sự tương tác của ánh sáng với protein, tế bào máu và các sắc tố như melanin. Cách tiêu chuẩn để kiểm tra độ lệch của thuật toán do màu da gây ra là để kiểm tra xem chúng hoạt động như thế nào trên các tông màu da khác nhau, dọc theo thang đo gồm sáu tùy chọn chạy từ sáng nhất đến tối nhất được gọi là thang đo Fitzpatrick. Nó ban đầu được phát triển bởi một bác sĩ da liễu để ước tính phản ứng của da với tia UV. Năm ngoái, các nhà nghiên cứu AI trong lĩnh vực công nghệ đã hoan nghênh việc Google giới thiệu thang đo Monk, gọi nó là toàn diện hơn.
Các nhà nghiên cứu của Sony cho biết trong một nghiên cứu đang được trình bày tại Hội nghị quốc tế về thị giác máy tính ở Paris tuần này rằng một tiêu chuẩn màu sắc quốc tế được gọi là CIELAB được sử dụng trong quá trình chỉnh sửa và sản xuất ảnh hướng đến một cách thậm chí còn trung thực hơn để thể hiện nhiều loại da. Khi họ áp dụng tiêu chuẩn CIELAB để phân tích ảnh của những người khác nhau, họ nhận thấy rằng làn da của họ thay đổi không chỉ về tông màu—độ sâu của màu—mà còn về màu sắc hoặc độ chuyển màu của nó.
Thang màu da không nắm bắt chính xác màu đỏ và màu vàng trên da người dường như đã giúp một số sai lệch không bị phát hiện trong các thuật toán hình ảnh. Khi các nhà nghiên cứu của Sony thử nghiệm các hệ thống AI nguồn mở, bao gồm công cụ cắt hình ảnh do Twitter phát triển và một cặp thuật toán tạo hình ảnh, họ đã tìm thấy ưu tiên cho làn da đỏ hơn, nghĩa là một số lượng lớn những người có làn da có nhiều màu vàng hơn sẽ không được thể hiện rõ trong những hình ảnh cuối cùng mà thuật toán đưa ra. Điều đó có thể khiến nhiều nhóm dân cư khác nhau, bao gồm từ Đông Á, Nam Á, Mỹ Latinh và Trung Đông, gặp bất lợi.
Các nhà nghiên cứu của Sony đã đề xuất một cách mới để thể hiện màu da nhằm nắm bắt được sự đa dạng mà trước đây bị bỏ qua. Hệ thống của họ mô tả màu da trong ảnh bằng hai tọa độ, thay vì một số. Nó chỉ định cả một phạm vi từ sáng đến tối và liên tục từ vàng đến đỏ, hoặc những gì ngành công nghiệp mỹ phẩm đôi khi gọi là tông màu ấm đến mát.
Phương pháp mới hoạt động bằng cách cô lập tất cả các pixel trong hình ảnh hiển thị da, chuyển đổi giá trị màu RGB của từng pixel thành mã CIELAB và tính toán màu sắc và tông màu trung bình trên các cụm pixel da. Một ví dụ trong nghiên cứu cho thấy những bức ảnh chụp rõ ràng khuôn mặt của cựu ngôi sao bóng đá Hoa Kỳ Terrell Owens và nữ diễn viên quá cố Eva Gabor có cùng tông màu da nhưng được phân tách bằng màu sắc, với hình ảnh Owens đỏ hơn và hình ảnh Gabor vàng hơn.
Khi nhóm Sony áp dụng phương pháp tiếp cận của họ đối với các hệ thống dữ liệu và AI có sẵn trực tuyến, họ đã phát hiện ra các vấn đề nghiêm trọng. CelebAMask-HQmột tập dữ liệu phổ biến về các khuôn mặt người nổi tiếng được sử dụng để đào tạo nhận dạng khuôn mặt và các chương trình thị giác máy tính khác có 82% hình ảnh nghiêng về màu da đỏ và một tập dữ liệu khác FFHQCác nhà nghiên cứu nhận thấy , được phát triển bởi Nvidia, nghiêng 66% về phía bên đỏ. Hai mô hình AI tổng quát được đào tạo trên FFHQ đã tái tạo thành kiến: Khoảng 4 trong số 5 hình ảnh mà mỗi mô hình trong số chúng tạo ra bị lệch về màu đỏ.
Nó không kết thúc ở đó. chương trình AI ArcFace, FaceNetVà Dlib Theo nghiên cứu của Sony, hoạt động tốt hơn trên làn da đỏ hơn khi được yêu cầu xác định xem hai bức chân dung có tương ứng với cùng một người hay không. Davis King, nhà phát triển đã tạo ra Dlib, cho biết ông không ngạc nhiên về sự sai lệch này vì người mẫu này chủ yếu được đào tạo về hình ảnh của những người nổi tiếng ở Mỹ.
Công cụ AI trên nền tảng đám mây từ Microsoft Azure Và Dịch vụ web của Amazon để phát hiện nụ cười cũng hoạt động tốt hơn trên các màu đỏ hơn. Sarah Bird, người đứng đầu bộ phận kỹ thuật AI chịu trách nhiệm tại Microsoft, cho biết công ty đã và đang tăng cường đầu tư trong sự công bằng và minh bạch. Người phát ngôn của Amazon, Patrick Neighorn, cho biết: “Chúng tôi hoan nghênh sự hợp tác với cộng đồng nghiên cứu và chúng tôi đang xem xét cẩn thận nghiên cứu này”. Nvidia từ chối bình luận.
Bản thân là một người có làn da hơi vàng, việc phát hiện ra những hạn chế trong cách kiểm tra AI ngày nay khiến Xiang lo ngại. Cô cho biết Sony sẽ phân tích các mô hình thị giác máy tính lấy con người làm trung tâm bằng cách sử dụng hệ thống mới khi chúng được đưa ra để xem xét, mặc dù cô từ chối nêu rõ đó là mô hình nào. “Tất cả chúng ta đều có những loại màu da khác nhau. Đây không phải là thứ được dùng để phân biệt đối xử với chúng tôi,” cô nói.
Cách tiếp cận của Sony có thêm một lợi thế tiềm năng. Các biện pháp như thang đo Monk của Google yêu cầu con người phân loại mức độ phù hợp trên quang phổ của làn da của một cá nhân cụ thể. Đó là nhiệm vụ mà các nhà phát triển AI cho rằng sẽ tạo ra sự thay đổi, bởi vì nhận thức của mọi người bị ảnh hưởng bởi vị trí của họ hoặc quan niệm riêng về chủng tộc và bản sắc.
Phương pháp tiếp cận của Sony hoàn toàn tự động—không cần đến sự đánh giá của con người. Nhưng Monk của Harvard đặt câu hỏi liệu điều đó có tốt hơn không. Các biện pháp khách quan như của Sony cuối cùng có thể đơn giản hóa hoặc bỏ qua những vấn đề phức tạp khác về sự đa dạng của con người. Ông nói: “Nếu mục đích của chúng tôi là loại bỏ thành kiến, vốn cũng là một hiện tượng xã hội, thì tôi không chắc chúng tôi có nên loại bỏ cách con người nhìn nhận về màu da về mặt xã hội khỏi phân tích của mình hay không”.
Joanne Rondilla, nhà xã hội học của Đại học Bang San José, người đã nghiên cứu về chủ nghĩa màu sắc và cộng đồng người Mỹ gốc Á, cho biết cô đánh giá cao nỗ lực của Sony trong việc xem xét màu sắc. Cô cũng hy vọng các nhà phát triển AI sẽ hợp tác với các nhà khoa học xã hội để xem xét chính trị, cơ cấu quyền lực và các khía cạnh xã hội bổ sung ảnh hưởng như thế nào đến nhận thức về màu da. Cô nói: “Thang đo được phát triển thông qua dự án Sony có thể hỗ trợ các học giả hiểu được các vấn đề về phân biệt màu sắc”.
Xiang của Sony thừa nhận rằng chủ nghĩa màu sắc không thể tránh khỏi được đưa vào cách mọi người thảo luận và suy nghĩ về làn da. Cuối cùng, không chỉ có máy móc mới cần nhìn màu sắc khác nhau. Cô hy vọng lĩnh vực này có thể phát triển tốt hơn nhưng cũng nhận thức được rằng tiến trình không nhất thiết phải suôn sẻ. Mặc dù các nhà nghiên cứu AI như cô đã thúc đẩy lĩnh vực này có cái nhìn sắc thái hơn về giới tính, nhưng nhiều nghiên cứu vẫn tập trung vào việc phân loại mỗi người thành hai nam hoặc nữ.
Xiang nói: “Những quy trình cực kỳ có vấn đề này xuất phát từ mong muốn rất mạnh mẽ là đưa mọi người vào các thùng tối thiểu có thể mà bạn cần phải thực hiện đánh giá công bằng và vượt qua một số loại bài kiểm tra”. Cô nói, sự đơn giản có giá trị nhưng việc bổ sung thêm các khía cạnh mới là quan trọng khi hành động làm cho máy móc có thể đọc được con người cuối cùng lại che khuất sự đa dạng thực sự của họ.