Một năm trong tầm nhìn máy tính - Phần 2 của 4

- Phần thứ hai: Phân đoạn, siêu độ phân giải / chuyển màu / chuyển kiểu, nhận dạng hành động

Lưu ý: Nếu bạn muốn robot trong nhà của bạn và muốn thấy điều đó xảy ra sớm hơn là sau đó, thì vui lòng thực hiện khảo sát rất ngắn của chúng tôi. Phản hồi của bạn giúp hướng dẫn các dự án nghiên cứu môi trường và robot mô phỏng của chúng tôi

Dành 3 phút thời gian của bạn: https://forms.gle/hPiP1p3sJ734Hzk19
Cám ơn sự tử tế của anh!
Tác phẩm sau đây được lấy từ một ấn phẩm gần đây được biên soạn bởi nhóm nghiên cứu của chúng tôi liên quan đến lĩnh vực Tầm nhìn Máy tính. Phần một và hai hiện có sẵn thông qua trang web của chúng tôi, với các phần còn lại (ba và bốn) sẽ được phát hành trong tương lai gần.

Các ấn phẩm đầy đủ sẽ có sẵn miễn phí trên trang web của chúng tôi trong vài tuần tới, Phần 1 Khăn2 hiện có sẵn thông qua: www.themtank.org

Chúng tôi khuyến khích độc giả xem tác phẩm thông qua trang web của chính chúng tôi, vì chúng tôi bao gồm nội dung được nhúng và các chức năng điều hướng dễ dàng để làm cho báo cáo động nhất có thể. Trang web của chúng tôi không tạo ra doanh thu cho nhóm và chỉ đơn giản là nhằm mục đích làm cho các tài liệu trở nên hấp dẫn và trực quan cho độc giả nhất có thể. Bất kỳ thông tin phản hồi về bài thuyết trình đều được chúng tôi hết lòng hoan nghênh!

Vui lòng theo dõi, chia sẻ và hỗ trợ công việc của chúng tôi thông qua bất kỳ kênh nào bạn thích (và vỗ vào nội dung trái tim của bạn!). Vui lòng liên hệ với các biên tập viên với bất kỳ câu hỏi hoặc để xem về khả năng đóng góp cho các tác phẩm trong tương lai: info@themtank.com

Phân khúc

Trung tâm Tầm nhìn Máy tính là quá trình Phân đoạn, phân chia toàn bộ hình ảnh thành các nhóm pixel sau đó có thể được gắn nhãn và phân loại. Hơn nữa, Phân đoạn ngữ nghĩa đi xa hơn bằng cách cố gắng hiểu ngữ nghĩa về vai trò của từng pixel trong hình ảnh, ví dụ: nó là một con mèo, xe hơi hoặc một số loại khác? Phân đoạn sơ thẩm thực hiện điều này hơn nữa bằng cách phân đoạn các phiên bản khác nhau của các lớp, ví dụ: ghi nhãn ba con chó khác nhau với ba màu sắc khác nhau. Đây là một trong những ứng dụng của Computer Vision hiện đang được sử dụng trong các bộ công nghệ lái xe tự động.

Có lẽ, một số cải tiến tốt nhất trong lĩnh vực phân khúc đến từ FAIR, người tiếp tục xây dựng dựa trên công việc DeepMask của họ từ năm 2015 [46]. DeepMask tạo ra ‘mặt nạ thô trên các đối tượng như một hình thức phân khúc ban đầu. Vào năm 2016, Fair đã giới thiệu SharpMask [47], tinh chỉnh ‘mặt nạ, được cung cấp bởi DeepMask, sửa lỗi mất chi tiết và cải thiện phân đoạn ngữ nghĩa. Ngoài ra, MultiPathNet [48] xác định các đối tượng được mô tả bởi mỗi mặt nạ.

Để ghi lại hình dạng đối tượng chung, bạn phải có hiểu biết cấp cao về những gì bạn đang xem (DeepMask), nhưng để đặt chính xác các ranh giới bạn cần nhìn lại các tính năng cấp thấp hơn cho đến các pixel ( SharpMask). TIẾNG - Đô la Piotr, 2016. [49]
Hình 6: Trình diễn các kỹ thuật FAIR đang hoạt động
Lưu ý: Các hình ảnh trên thể hiện các kỹ thuật phân đoạn được FAIR sử dụng. Chúng bao gồm ứng dụng các kỹ thuật DeepMask, SharpMask và MultiPathNet được áp dụng theo thứ tự đó. Quá trình này cho phép phân đoạn và phân loại chính xác trong nhiều cảnh khác nhau. Nguồn: Đô la (2016) [50]

Mạng tuyên truyền video [51] cố gắng tạo một mô hình đơn giản để truyền bá mặt nạ đối tượng chính xác, được gán ở khung đầu tiên, thông qua toàn bộ chuỗi video cùng với một số thông tin bổ sung.

Năm 2016, các nhà nghiên cứu đã nghiên cứu tìm cấu hình mạng thay thế để giải quyết các vấn đề đã nói ở trên về quy mô và nội địa hóa. DeepLab [52] là một ví dụ như vậy để đạt được kết quả đáng khích lệ cho các nhiệm vụ phân đoạn hình ảnh ngữ nghĩa. Khoreva và cộng sự. (2016) [53] xây dựng dựa trên công việc trước đó của Deeplab (khoảng năm 2015) và đề xuất một phương pháp đào tạo được giám sát yếu, đạt được kết quả tương đương với các mạng được giám sát đầy đủ.

Computer Vision tiếp tục tinh chỉnh việc chia sẻ mạng của phương pháp tiếp cận thông tin hữu ích thông qua việc sử dụng các mạng đầu cuối, giúp giảm các yêu cầu tính toán của nhiều nhiệm vụ đa hướng để phân loại. Hai giấy tờ chính sử dụng phương pháp này là:

  • 100 Lớp Tiramisu [54] là một DenseNet tích hợp hoàn toàn, kết nối mọi lớp, với mọi lớp khác, theo kiểu chuyển tiếp. Nó cũng đạt được SOTA trên nhiều bộ dữ liệu điểm chuẩn với ít tham số và đào tạo / xử lý hơn.
  • Phân đoạn ngữ nghĩa nhận thức hoàn toàn theo trường hợp [55] thực hiện dự đoán và phân loại mặt nạ cá thể cùng nhau (hai nhiệm vụ).
    Người chiến thắng thử thách phân khúc COCO MSRA. AP 37,3%.
    Bước nhảy tuyệt đối 9,1% từ MSRAVC năm 2015 trong thử thách COCO.

Mặc dù ENet [56], một kiến ​​trúc DNN cho phân đoạn ngữ nghĩa thời gian thực, không thuộc loại này, nhưng nó thể hiện giá trị thương mại của việc giảm chi phí tính toán và cho phép truy cập nhiều hơn vào các thiết bị di động.

Công việc của chúng tôi mong muốn liên quan đến càng nhiều những tiến bộ này trở lại với các ứng dụng công cộng hữu hình càng tốt. Với ý nghĩ này, phần sau đây chứa một số ứng dụng phân khúc chăm sóc sức khỏe thú vị nhất trong năm 2016;
  • Một điểm chuẩn cho phân đoạn cảnh nội soi của hình ảnh nội soi [57]
  • Mạng tích chập hoàn toàn 3D cho phân đoạn dưới vỏ não trong MRI: Một nghiên cứu quy mô lớn [58]
  • Học bán giám sát bằng cách sử dụng Bộ khử tự động khử nhiễu để phát hiện và phân đoạn tổn thương não [59]
  • Phân đoạn hình ảnh siêu âm 3D: Một khảo sát [60]
  • Một cách tiếp cận dự đoán có cấu trúc dựa trên cấu trúc mạng thần kinh hoàn toàn hướng tới phân đoạn mạch võng mạc [61]
  • Mạng lưới thần kinh chuyển đổi 3 chiều cho phân đoạn u nguyên bào thần kinh đệm [62]

Một trong những ứng dụng phân đoạn bán y tế yêu thích của chúng tôi là FusionNet [63] - một mạng lưới thần kinh tích chập hoàn toàn còn lại sâu để phân đoạn hình ảnh trong kết nối [64] so với các phương pháp phân đoạn kính hiển vi điện tử SOTA (EM).

Siêu phân giải, Chuyển kiểu & Colourisation

Không phải tất cả các nghiên cứu về Computer Vision đều có tác dụng mở rộng khả năng nhận thức giả của máy móc, và thường là tính linh hoạt của mạng lưới thần kinh, cũng như các kỹ thuật ML khác, cho vay nhiều ứng dụng mới lạ khác tràn vào không gian công cộng. Năm ngoái, những tiến bộ trong việc cải thiện độ phân giải, chuyển giao phong cách và màu sắc chiếm không gian cho chúng tôi.

Siêu phân giải đề cập đến quá trình ước tính hình ảnh có độ phân giải cao từ đối tác có độ phân giải thấp và dự đoán các tính năng hình ảnh ở các độ phóng đại khác nhau, điều mà bộ não con người có thể thực hiện gần như dễ dàng. Ban đầu siêu phân giải được thực hiện bằng các kỹ thuật đơn giản như nội suy bicubic và các lân cận gần nhất. Về các ứng dụng thương mại, mong muốn vượt qua các hạn chế độ phân giải thấp xuất phát từ chất lượng nguồn và hiện thực hóa cải tiến hình ảnh theo phong cách CSI Miami, đã thúc đẩy nghiên cứu trong lĩnh vực này. Dưới đây là một số tiến bộ trong năm và tác động tiềm năng của chúng:

  • Tăng cường thần kinh [65] là sản phẩm trí tuệ của Alex J. Champ Chuẩn và kết hợp các phương pháp từ bốn tài liệu nghiên cứu khác nhau để đạt được phương pháp Siêu phân giải.

Siêu phân giải video thời gian thực cũng đã được thử trong năm 2016 trong hai trường hợp đáng chú ý; [66], [67]

  • RAISR: Siêu phân giải hình ảnh nhanh và chính xác [68] từ Google tránh được các yêu cầu về bộ nhớ và tốc độ tốn kém của các phương pháp tiếp cận mạng thần kinh bằng cách đào tạo các bộ lọc với các cặp hình ảnh có độ phân giải thấp và độ phân giải cao. RAISR, như một khung dựa trên học tập, nhanh hơn hai bậc so với các thuật toán cạnh tranh và có yêu cầu bộ nhớ tối thiểu khi so sánh với các phương pháp dựa trên mạng thần kinh. Do đó siêu phân giải có thể mở rộng cho các thiết bị cá nhân. Có một blog nghiên cứu có sẵn ở đây. [69]
Hình 7: Ví dụ SRGAN siêu phân giải
Lưu ý: Từ trái sang phải: phép nội suy hai chiều (hiệu suất mục tiêu kém nhất để lấy nét), mạng dư sâu được tối ưu hóa cho MSE, mạng đối nghịch dư thừa sâu được tối ưu hóa cho sự mất nhạy cảm hơn với nhận thức của con người, hình ảnh Độ phân giải cao (HR) ban đầu. Tín hiệu cực đại tương ứng với tỷ lệ nhiễu (PSNR) và độ tương tự cấu trúc (SSIM) được hiển thị trong hai dấu ngoặc. [4 x nâng cấp] Người đọc có thể muốn phóng to hai hình ảnh ở giữa (SRResNet và SRGAN) để thấy sự khác biệt giữa độ mịn của hình ảnh so với các chi tiết đẹp thực tế hơn.
Nguồn: Ledig et al. (2017) [70]

Việc sử dụng Mạng đối thủ tạo (GAN) đại diện cho SOTA hiện tại cho độ phân giải siêu cao:

  • SRGAN [71] cung cấp kết cấu hình ảnh thực tế từ các hình ảnh được ghép xuống nhiều trên các điểm chuẩn công cộng, sử dụng mạng phân biệt đối xử được đào tạo để phân biệt giữa hình ảnh siêu thực và hình ảnh gốc.

Về mặt định tính, SRGAN hoạt động tốt nhất, mặc dù SRResNet hoạt động tốt nhất với chỉ số tỷ lệ tín hiệu / nhiễu (PSNR) cao nhất nhưng SRGAN có được các chi tiết kết cấu tốt hơn và đạt được Điểm số Ý kiến ​​tốt nhất (MOS). Theo hiểu biết của chúng tôi, đây là khung đầu tiên có khả năng suy ra hình ảnh tự nhiên thực tế cho các yếu tố nâng cấp 4 ×. [[] Tất cả các phương pháp trước đây đều không phục hồi được các chi tiết kết cấu tốt hơn ở các yếu tố nâng cấp lớn.

  • Suy luận MAP được khấu hao cho siêu phân giải hình ảnh [73] đề xuất một phương pháp tính toán suy luận tối đa Posteriori (MAP) bằng cách sử dụng Mạng thần kinh chuyển đổi. Tuy nhiên, nghiên cứu của họ trình bày ba cách tiếp cận để tối ưu hóa, tất cả các GAN thực hiện tốt hơn rõ rệt trên dữ liệu hình ảnh thực tế hiện nay.
Hình 8: Chuyển kiểu từ Nikulin & Novak
Lưu ý: Chuyển các kiểu khác nhau sang ảnh của mèo (gốc trên cùng bên trái).
Nguồn: Nikulin & Novak (2016)

Không còn nghi ngờ gì nữa, Style Transfer là điển hình cho việc sử dụng các mạng thần kinh mới đã xâm nhập vào phạm vi công cộng, đặc biệt thông qua các tích hợp facebook và các công ty như Prisma [74] và Artomatix [75]. Chuyển giao kiểu là một kỹ thuật cũ hơn nhưng được chuyển đổi thành mạng lưới thần kinh vào năm 2015 với việc xuất bản Thuật toán thần kinh của Phong cách nghệ thuật [76]. Kể từ đó, khái niệm chuyển kiểu đã được Nikulin và Novak [77] mở rộng và cũng được áp dụng cho video [78], như là tiến trình chung trong Tầm nhìn Máy tính.

Hình 9: Các ví dụ khác về Chuyển kiểu
Lưu ý: Hàng trên cùng (trái sang phải) thể hiện phong cách nghệ thuật được chuyển sang hình ảnh gốc được hiển thị trong cột đầu tiên (Người phụ nữ, Cầu Cổng Vàng và Môi trường đồng cỏ). Sử dụng chuẩn hóa thể hiện có điều kiện, một mạng truyền kiểu duy nhất có thể chụp đồng thời 32 kiểu, năm trong số đó được hiển thị ở đây. Bộ đầy đủ các hình ảnh có sẵn trong phụ lục giấy nguồn. Công việc này sẽ có trong Hội nghị quốc tế về đại diện học tập (ICLR) 2017.
Nguồn: Dumoulin et al. (2017, trang 2) [79]

Chuyển phong cách như một chủ đề khá trực quan một khi hình dung; chụp ảnh và tưởng tượng nó với các đặc điểm phong cách của một hình ảnh khác. Ví dụ, theo phong cách của một bức tranh hoặc nghệ sĩ nổi tiếng. Năm nay Facebook đã phát hành Caffe2Go, [80] hệ thống học sâu của họ tích hợp vào thiết bị di động. Google cũng phát hành một số công việc thú vị tìm cách pha trộn nhiều phong cách để tạo ra các kiểu hình ảnh hoàn toàn độc đáo: Blog nghiên cứu [81] và giấy đầy đủ [82].

Bên cạnh tích hợp di động, chuyển kiểu có các ứng dụng trong việc tạo tài sản trò chơi. Các thành viên trong nhóm của chúng tôi gần đây đã xem một bài thuyết trình của Người sáng lập và CTO của Artomatix, Eric Risser, người đã thảo luận về ứng dụng tiểu thuyết của kỹ thuật này để tạo nội dung trong các trò chơi (đột biến kết cấu, v.v.) và do đó, giảm thiểu đáng kể công việc của một họa sĩ kết cấu thông thường .

Colourisation là quá trình thay đổi hình ảnh đơn sắc thành các phiên bản đầy đủ màu mới. Ban đầu điều này được thực hiện thủ công bởi những người siêng năng chọn màu để thể hiện các pixel cụ thể trong mỗi hình ảnh. Trong năm 2016, nó đã có thể tự động hóa quá trình này trong khi vẫn duy trì sự xuất hiện của chủ nghĩa hiện thực của quá trình colourisation lấy con người làm trung tâm. Mặc dù con người có thể không thể hiện chính xác màu sắc thực sự của một cảnh cụ thể, nhưng kiến ​​thức trong thế giới thực của họ cho phép ứng dụng màu sắc theo cách phù hợp với hình ảnh và một người khác đang xem hình ảnh nói.

Quá trình tô màu thú vị ở chỗ mạng chỉ định màu có khả năng nhất cho hình ảnh dựa trên sự hiểu biết về vị trí đối tượng, kết cấu và môi trường, ví dụ: Nó học được rằng da có màu hồng và bầu trời màu xanh.

Theo chúng tôi, có ba tác phẩm có ảnh hưởng nhất trong năm như sau:
  • Zhang và cộng sự. đã tạo ra một phương pháp có thể đánh lừa thành công con người trong 32% thử nghiệm của họ. Phương pháp của họ có thể so sánh với một thử nghiệm Turing colourisation Turing. [[]]
  • Larsson và cộng sự. [84] tự động hóa hoàn toàn hệ thống tô màu hình ảnh của họ bằng cách sử dụng Deep Learning để ước tính Biểu đồ.
  • Cuối cùng, Lizuka, Simo-Serra và Ishikawa [85] trình diễn một mô hình màu sắc cũng dựa trên CNNs. Công việc vượt trội so với SOTA hiện tại, chúng tôi [nhóm] cảm thấy như thể công việc này cũng tốt nhất về mặt chất lượng, dường như là thực tế nhất. Hình 10 cung cấp các so sánh, tuy nhiên hình ảnh được lấy từ Lizuka et al.
Hình 10: So sánh nghiên cứu màu
Lưu ý: Từ trên xuống dưới - cột một chứa đầu vào hình ảnh đơn sắc ban đầu, sau đó được tô màu thông qua các kỹ thuật khác nhau. Các cột còn lại hiển thị kết quả được tạo bởi nghiên cứu màu sắc nổi bật khác trong năm 2016. Khi nhìn từ trái sang phải, đây là Larsson et al. [84] 2016 (cột hai), Zhang et al. [83] 2016 (Cột ba) và Lizuka, Simo-Serra và Ishikawa. [85] 2016, còn được các tác giả gọi là Hồi giáo của chúng tôi (Cột bốn). Sự khác biệt về chất lượng trong màu sắc thể hiện rõ nhất ở hàng ba (từ trên xuống) mô tả một nhóm các chàng trai trẻ. Chúng tôi tin rằng Lizuka và cộng sự làm việc để có chất lượng vượt trội (Cột bốn). Nguồn: Lizuka và cộng sự. 2016 [86]

Hơn nữa, kiến ​​trúc của chúng tôi có thể xử lý hình ảnh của bất kỳ độ phân giải nào, không giống như hầu hết các phương pháp tiếp cận hiện có dựa trên CNN.

Trong một thử nghiệm để xem sự tô màu của họ tự nhiên như thế nào, người dùng đã được cung cấp một hình ảnh ngẫu nhiên từ các mô hình của họ và được hỏi, hình ảnh này có tự nhiên với bạn không?

Cách tiếp cận của họ đạt được 92,6%, đường cơ sở đạt được khoảng 70% và sự thật mặt đất (ảnh màu thực tế) được coi là 97,7% thời gian là tự nhiên.

Công nhận hành động

Nhiệm vụ của nhận dạng hành động đề cập đến cả việc phân loại hành động trong một khung video nhất định và gần đây hơn, các thuật toán có thể dự đoán kết quả có thể xảy ra của các tương tác chỉ được đưa ra một vài khung trước khi hành động diễn ra. Về mặt này, chúng tôi thấy nỗ lực nghiên cứu gần đây để đưa bối cảnh vào các quyết định thuật toán, tương tự như các lĩnh vực khác của Tầm nhìn Máy tính. Một số giấy tờ quan trọng trong không gian này là:

  • Các kết luận tạm thời dài hạn để nhận biết hành động [87] thúc đẩy cấu trúc không gian theo thời gian của các hành động của con người, tức là chuyển động và thời gian cụ thể, để nhận ra chính xác các hành động sử dụng biến thể CNN. Để khắc phục mô hình thời gian dưới tối ưu của các hành động dài hạn của CNN, các tác giả đề xuất một mạng lưới thần kinh với các kết cấu thời gian dài hạn (LTC-CNN) để cải thiện độ chính xác của nhận dạng hành động. Nói một cách đơn giản, các LTC có thể nhìn vào các phần lớn hơn của video để nhận ra các hành động. Cách tiếp cận của họ sử dụng và mở rộng các CNN 3D để cho phép thể hiện hành động ở quy mô thời gian đầy đủ hơn.

Chúng tôi báo cáo các kết quả tiên tiến về hai điểm chuẩn đầy thách thức để nhận biết hành động của con người UCF101 (92,7%) và HMDB51 (67,2%).

  • Mạng dư thừa Spatiotemporal cho nhận dạng hành động video [88] áp dụng một biến thể của hai luồng CNN cho nhiệm vụ nhận dạng hành động, kết hợp các kỹ thuật từ cả hai phương pháp CNN truyền thống và Mạng dư thừa phổ biến gần đây (ResNets). Cách tiếp cận hai luồng lấy cảm hứng từ một giả thuyết khoa học thần kinh về hoạt động của vỏ thị giác, tức là các con đường riêng biệt nhận ra hình dạng / màu sắc và chuyển động của đối tượng. Các tác giả kết hợp các lợi ích phân loại của ResNets bằng cách tiêm các kết nối còn lại giữa hai luồng CNN.

Mỗi luồng ban đầu tự thực hiện nhận dạng video và để phân loại cuối cùng, điểm số softmax được kết hợp bởi phản ứng tổng hợp muộn. Cho đến nay, phương pháp này là phương pháp hiệu quả nhất của việc áp dụng học tập sâu vào nhận dạng hành động, đặc biệt là với dữ liệu đào tạo hạn chế. Trong công việc của chúng tôi, chúng tôi trực tiếp chuyển đổi ConvNets hình ảnh thành kiến ​​trúc 3D và cho thấy hiệu suất được cải thiện đáng kể so với đường cơ sở hai luồng. - - 94% trên UCF101 và 70,6% trên HMDB51. Feichtenhofer et al. đã thực hiện các cải tiến so với các phương pháp quỹ đạo dày đặc cải tiến truyền thống (iDT) và tạo ra kết quả tốt hơn thông qua việc sử dụng cả hai kỹ thuật.

  • Dự đoán các đại diện trực quan từ video không ghi nhãn [89] là một bài viết thú vị, mặc dù không nghiêm ngặt phân loại hành động. Chương trình dự đoán hành động có khả năng diễn ra trong một chuỗi các khung hình video tối đa một giây trước khi hành động. Cách tiếp cận sử dụng các biểu diễn trực quan thay vì phân loại pixel theo pixel, có nghĩa là chương trình có thể hoạt động mà không cần dữ liệu được gắn nhãn, bằng cách tận dụng các đặc tính học tập của các mạng thần kinh sâu [90].

Ý tưởng quan trọng đằng sau cách tiếp cận của chúng tôi là chúng tôi có thể đào tạo các mạng lưới sâu để dự đoán sự thể hiện trực quan của hình ảnh trong tương lai. Biểu diễn trực quan là một mục tiêu dự đoán đầy hứa hẹn vì chúng mã hóa hình ảnh ở mức ngữ nghĩa cao hơn so với pixel nhưng vẫn tự động để tính toán. Sau đó, chúng tôi áp dụng các thuật toán nhận dạng trên đại diện dự đoán của mình để dự đoán các đối tượng và hành động.

Các nhà tổ chức của Thử thách công nhận hành động Thumos [91] đã phát hành một bài viết mô tả các phương pháp tiếp cận chung cho công nhận hành động từ số năm trước. Bài viết cũng cung cấp một loạt các thách thức từ 2013 2015, hướng đi tương lai cho thách thức và ý tưởng về cách cung cấp cho máy tính sự hiểu biết toàn diện hơn về video thông qua Nhận dạng hành động. Chúng tôi hy vọng rằng Thử thách công nhận hành động của Thumos trở lại vào năm 2017 sau khi gián đoạn (dường như) bất ngờ.

Theo dõi hồ sơ của chúng tôi trên phương tiện cho phần tiếp theo - Phần 3 của 4: Hướng tới sự hiểu biết 3D về thế giới.
Xin vui lòng đặt tất cả thông tin phản hồi và đề xuất trong phần bình luận và chúng tôi sẽ hoàn nguyên ngay khi có thể. Ngoài ra, bạn có thể liên hệ trực tiếp với chúng tôi thông qua: info@themtank.com

Toàn bộ phần có sẵn tại: www.themtank.org/a-year-in-computer-vision

Cảm ơn nhiều,

Xe tăng M

Tài liệu tham khảo theo thứ tự xuất hiện

[46] Pinheiro, Collobert và Dollar. 2015. Học tập để phân khúc đối tượng thí sinh. [Trực tuyến] arXiv: 1506,06204. Có sẵn: arXiv: 1506,06204v2

[47] Pinheiro et al. 2016. Học cách tinh chỉnh các phân đoạn đối tượng. [Trực tuyến] arXiv: 1603.08695. Có sẵn: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. Mạng MultiPath để phát hiện đối tượng. [Trực tuyến] arXiv: 1604.02135v2. Có sẵn: arXiv: 1604.02135v2

[49] Dollar, P. 2016. Học cách phân khúc. [Blog] FAIR. Có sẵn: https://research.fb.com/learning-to-sibution/

[50] Dollar, P. 2016. Phân đoạn và tinh chỉnh hình ảnh với SharpMask. [Trực tuyến] Mã Facebook. Có sẵn: https://code.facebook.com/posts/561187904071636/seributioning-and-refining-images-with-sharpmask/

[51] Jampani et al. 2016. Mạng truyền bá video. [Trực tuyến] arXiv: 1612.05478. Có sẵn: arXiv: 1612.05478v2

[52] Chen và cộng sự, 2016. DeepLab: Phân đoạn hình ảnh ngữ nghĩa với các lưới kết hợp sâu, chuyển động ngẫu nhiên và CRF được kết nối đầy đủ. [Trực tuyến] arXiv: 1606.00915. Có sẵn: arXiv: 1606.00915v1

[53] Khoreva và cộng sự. 2016. Simple Does It: Yếu tố giám sát yếu và phân đoạn ngữ nghĩa. [Trực tuyến] arXiv: 1603.07485v2. Có sẵn: arXiv: 1603.07485v2

[54] Jégou et al. 2016. Một trăm lớp Tiramisu: Mật độ kết hợp hoàn toàn cho phân đoạn ngữ nghĩa. [Trực tuyến] arXiv: 1611,09326v2. Có sẵn: arXiv: 1611.09326v2

[55] Li và cộng sự. 2016. Phân đoạn ngữ nghĩa nhận thức hoàn toàn sơ thẩm. [Trực tuyến] arXiv: 1611,07709v1. Có sẵn: arXiv: 1611,07709v1

[56] Paszke và cộng sự. 2016. ENet: Kiến trúc mạng nơ-ron sâu cho phân đoạn ngữ nghĩa thời gian thực. [Trực tuyến] arXiv: 1606.02147v1. Có sẵn: arXiv: 1606.02147v1

[57] Vázquez và cộng sự. 2016. Một điểm chuẩn cho phân đoạn cảnh nội soi của hình ảnh nội soi. [Trực tuyến] arXiv: 1612.00799. Có sẵn: arXiv: 1612.00799v1

[58] Dolz và cộng sự. 2016. Mạng tích chập hoàn toàn 3D cho phân đoạn dưới vỏ não trong MRI: Một nghiên cứu quy mô lớn. [Trực tuyến] arXiv: 1612.03925. Có sẵn: arXiv: 1612.03925v1

[59] Alex và cộng sự. Năm 2017. Học bán giám sát bằng cách sử dụng Bộ khử tự động khử nhiễu để phát hiện và phân đoạn tổn thương não. [Trực tuyến] arXiv: 1611,08664. Có sẵn: arXiv: 1611,08664v4

[60] Mozaffari và Lee. 2016. Phân đoạn hình ảnh siêu âm 3D: Một khảo sát. [Trực tuyến] arXiv: 1611.09811. Có sẵn: arXiv: 1611.09811v1

[61] Dasgupta và Singh. 2016. Cách tiếp cận dự đoán có cấu trúc dựa trên cấu trúc mạng nơ-ron hoàn toàn hướng tới phân đoạn mạch võng mạc. [Trực tuyến] arXiv: 1611.02064. Có sẵn: arXiv: 1611.02064v2

[62] Yi và cộng sự. 2016. Mạng lưới thần kinh chuyển đổi 3 chiều cho phân đoạn Glioblastoma. [Trực tuyến] arXiv: 1611.04534. Có sẵn: arXiv: 1611.04534v1

[63] Quan et al. 2016. FusionNet: Một mạng nơ ron tích chập hoàn toàn dư cho phân đoạn hình ảnh trong kết nối. [Trực tuyến] arXiv: 1612.05360. Có sẵn: arXiv: 1612.05360v2

[64] Connectomics đề cập đến việc lập bản đồ của tất cả các kết nối trong một hệ thống thần kinh Sinh vật, tức là các tế bào thần kinh và các kết nối của chúng.

[65] Champ Chuẩn, A.J. 2017. Tăng cường thần kinh (cam kết mới nhất 30/11/2016). [Trực tuyến] Github. Có sẵn: https://github.com/alexjc/neural-enhance [Truy cập: 11/2/2017]

[66] Caballero và cộng sự. 2016. Siêu phân giải video thời gian thực với Mạng Spatio-Temporal và Bù chuyển động. [Trực tuyến] arXiv: 1611.05250. Có sẵn: arXiv: 1611.05250v1

[67] Shi et al. 2016. Siêu phân giải hình ảnh và video đơn thời gian thực bằng cách sử dụng Mạng thần kinh chuyển đổi pixel phụ hiệu quả. [Trực tuyến] arXiv: 1609.05158. Có sẵn: arXiv: 1609.05158v2

[68] Romano và cộng sự. 2016. RAISR: Độ phân giải hình ảnh siêu nhanh và chính xác. [Trực tuyến] arXiv: 1606.01299. Có sẵn: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Tăng cường! RAISR Hình ảnh sắc nét với Machine Learning. [Blog] Blog nghiên cứu của Google. Có sẵn: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Truy cập: 20/03/2017].

[70]

[71] Ledig et al. 2017. Siêu phân giải hình ảnh đơn thực tế bằng cách sử dụng một mạng đối thủ tạo. [Trực tuyến] arXiv: 1609.04802. Có sẵn: arXiv: 1609.04802v3

[72]

[73] Sønderby et al. 2016. Suy luận MAP khấu hao cho siêu phân giải hình ảnh. [Trực tuyến] arXiv: 1610.04490. Có sẵn: arXiv: 1610.04490v1

[74] Lăng kính. 2017. [Trang web] Lăng kính. Có sẵn: https://prisma-ai.com/ [Truy cập: 01/08/2016].

[75] Artomatix. 2017. [Trang web] Artomatix. Có sẵn: https://service.artomatix.com/ [Truy cập: 01/08/2016].

[76] Gatys và cộng sự. 2015. Một thuật toán thần kinh của phong cách nghệ thuật. [Trực tuyến] arXiv: 1508.06576. Có sẵn: arXiv: 1508.06576v2

[77] Nikulin & Novak. 2016. Khám phá thuật toán thần kinh của phong cách nghệ thuật. [Trực tuyến] arXiv: 1602,07188. Có sẵn: arXiv: 1602,07188v2

[78] Ruder và cộng sự. 2016. Chuyển giao phong cách nghệ thuật cho video. [Trực tuyến] arXiv: 1604.08610. Có sẵn: arXiv: 1604.08610v2

[79]

[80] Gia và Kim Cương. 2016. Cung cấp AI thời gian thực trong lòng bàn tay của bạn. [Trực tuyến] Mã Facebook. Có sẵn: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Truy cập: 20/01/2017].

[81] Dumoulin và cộng sự. 2016. Chuyển kiểu siêu nạp. [Trực tuyến] Blog nghiên cứu Google. Có sẵn: https://research.googleblog.com/2016/10/superchargeing-style-transfer.html [Truy cập: 20/01/2017].

[82] Dumoulin và cộng sự. 2017. Một đại diện học tập cho phong cách nghệ thuật. [Trực tuyến] arXiv: 1610.07629. Có sẵn: arXiv: 1610.07629v5

[83] Zhang và cộng sự. 2016. Màu sắc hình ảnh đầy màu sắc. [Trực tuyến] arXiv: 1603.08511. Có sẵn: arXiv: 1603.08511v5

[84] Larsson và cộng sự. 2016. Đại diện học tập cho màu tự động. [Trực tuyến] arXiv: 1603.06668. Có sẵn: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra và Ishikawa. 2016. Hãy có màu sắc!: Học tập từ đầu đến cuối của các nhà tài trợ hình ảnh toàn cầu và địa phương để tô màu hình ảnh tự động với phân loại đồng thời. [Trực tuyến] Giao dịch ACM trên đồ họa (Proc. Of SIGGRAPH), 35 (4): 110. Có sẵn: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86]

[87] Varol và cộng sự. 2016. Kết luận tạm thời dài hạn để công nhận hành động. [Trực tuyến] arXiv: 1604.04494. Có sẵn: arXiv: 1604.04494v1

[88] Feichtenhofer et al. 2016. Mạng dư thừa Spatiotemporal để nhận dạng hành động video. [Trực tuyến] arXiv: 1611.02155. Có sẵn: arXiv: 1611.02155v1

[89] Vondrick và cộng sự. 2016. Dự đoán các đại diện trực quan từ video không nhãn. [Trực tuyến] arXiv: 1504.08023. Có sẵn: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Máy dạy học để dự đoán tương lai. [Trực tuyến] TIN TỨC MIT. Có sẵn: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Truy cập: 03/2/2017].

[91] Idrees et al. 2016. Thử thách THUMOS về nhận dạng hành động cho các video trong thế giới hoang dã. [Trực tuyến] arXiv: 1604.06182. Có sẵn: arXiv: 1604.06182v1