Reproducibility Là Gì

     

Bình luận Reproducibility Là Gì – Nghĩa Của trường đoản cú Reproducibility là ý tưởng trong nội dung hiện tại của blog Tiên Kiếm. Tham khảo content để biết cụ thể nhé.

Bạn đang xem: Reproducibility là gì


Chú thích: Nguyên bản bài viết này bàn về “reproducible research”, sinh sống đây công ty chúng tôi tạm dịch là “nghiên cứu khả lặp”, quan niệm tóm lược về “nghiên cứu vớt khả lặp” là loại nghiên cứu khoa học không chỉ có report kết quả nghiên cứu và phân tích mà còn bao gồm đầy đủ quá trình thực hiện, đồng thời ra mắt các thông tin quan trọng (dữ liệu, thuật toán sử dụng,…) để người khác rất có thể tiến hành lại nghiên cứu và phân tích nhằm xác nhận tính đúng đắn và mở rộng nghiên cứu và phân tích dựa bên trên nền tảng nghiên cứu và phân tích cũ. Ở phía trên “reproducible” hay “reproducibility” với nghĩa có khả năng lặp lại, có chức năng thực hiện lại nghiên cứu và phân tích đã được công bố.

Bạn đang xem: Reproducibility là gì

Khoa học hiện nay được chỉ ra rằng đang lâm vào cuộc khủng hoảng về tài năng tái lặp. Khả năng tái lặp có vẻ như được hoan nghênh và thường là nhân tố bắt buộc đối với các nghiên cứu mang tính xã hội (chẳng hạn trên các tạp chí như nature giỏi science). Luận điểm chung cho xu thế này là việc những nghiên cứu có chức năng được triển khai lại một cách tự do thì sẽ có được tính tin tưởng cao rộng những phân tích không thể tiến hành lại một phương pháp độc lập. Cũng cần để ý rằng nghiên cứu khả lặp không những mang ý nghĩa xác minh, chưa dừng lại ở đó nữa nó sẽ có lại ích lợi thiết thực cho vấn đề mở rộng nghiên cứu và phân tích hay tạo các nghiên cứu tương tự. Khó hoàn toàn có thể tìm thấy những chủ kiến phản bác các vấn đề trên, nhưng nên xét tới thực tiễn rằng với từng nhóm phân tích cũng cần đầu tư một nguồn lực nhất mực trong việc tạo cho các nghiên cứu và phân tích của họ vươn lên là khả lặp đối với các nhà nghiên cứu và phân tích độc lập. Ví dụ điển hình việc lặp lại toàn thể những thí điểm trong chống thí nghiệm. Tuy nhiên cũng có không ít biến thể đơn giản hơn, chẳng hạn như khả năng lặp lại so sánh dựa trên các bộ tài liệu đã biết.

Các loại nghiên cứu và phân tích khoa học không giống nhau sẽ khác nhau về kĩ năng tái lặp. Một ví dụ là nghiên cứu toán học, trong vô số trường phù hợp các phân tích này chất nhận được việc khả lặp dựa trên những phương trình trong bạn dạng thảo. Một ví dụ không giống là các phân tích hiện trường, hay thì tác dụng phụ nằm trong vào những yếu tố không kiểm soát được. Chẳng hạn việc tái lập toàn cục một nghiên cứu về tác động của một cơn lốc ngay trước và sau khoản thời gian nó xảy ra bên cạnh đó là điều ko thể, ít nhất xét về tính tác dụng của nó.

Phạm vi lúc này về kĩ năng tái lập đang nơi đâu đó giữa hai ví dụ như mà shop chúng tôi chỉ ra ngơi nghỉ trên, và phạm vi này thu thon thả hay mở rộng phụ thuộc vào vào các bộ lý lẽ sẵn có cho các nhà nghiên cứu. Phần mềm nguồn mở, năng lượng điện toán đám mây, lưu trữ dữ liệu và vô vàn những công nỗ lực điện toán sẵn có đã không ngừng mở rộng phạm vi này vào việc có thể chấp nhận được các nghiên cứu khả lặp hoàn toàn có thể được tiến hành trên nhiều loại phân tích hơn hai ví dụ sinh hoạt trên. Tuy nhiên, lối nghịch chữ về một cuộc rủi ro của nghiên cứu và phân tích khả lặp cho thấy rằng những bộ công cụ hiện tại, tuy nhiên rất quan liêu trọng, nhưng lại chưa giải quyết được sự việc một biện pháp triệt để.

Hiện tại shop chúng tôi đang làm việc trong một dự án công trình về một phân tích tất cả mức độ tinh vi vừa buộc phải với một lượng dữ liệu cũng vừa đề xuất (49061 dòng) và công ty chúng tôi đang thí điểm xem để phát triển thành nó thành một phân tích khả lặp trọn vẹn thì rất cần được làm gần như gì. (Nghiên cứu vãn này trả lời cho một thắc mắc rất đối chọi giản: loại thân gỗ chiếm phần tỉ lệ từng nào trong giới thực vật?). Kinh nghiệm của cửa hàng chúng tôi trong việc nỗ lực biến phân tích này trở thành khả lặp có thể hữu ích mang đến những đàm luận tiếp sau về kiểu cách làm chũm nào để những nhà khoa học đề xuất ít thời gian và không nhiều yếu tố kinh nghiệm hơn chúng tôi để tiến hành các nghiên cứu và phân tích khả lặp của riêng rẽ họ. Nói giải pháp khác, câu hỏi làm này cho biết chúng tôi hữu ích đến hơn cả nào trong việc không ngừng mở rộng phạm vi khả lặp cho các loại nghiên cứu và phân tích hơn và bằng cách đó, khiến cho khoa học ngày càng đáng tin cậy hơn.

Cuối cùng, so với và báo cáo của chúng tôi đã được tái lặp một cách hòa bình và tương đối dễ ợt cho rất nhiều ai muốn tái lặp nghiên cứu này, cơ mà để tiến hành được việc tái lặp ở tầm mức độ này không hẳn là không đề xuất bỏ công sức. Cho phần lớn ai quan tiền tâm, toàn cục mã lệnh với tài liệu của chúng tôi có sẵn tại showroom này.

Có 2 phần trong vấn đề biến một dự án công trình trở đề nghị khả lặp: dữ liệu và các phân tích sẽ tiến hành. Chúng tôi cũng lưu ý rằng thực tế dự án này là khả thi vị những vạc triển cách đây không lâu trong việc tàng trữ dữ liệu. Quá trình viết một mã lệnh nhằm tải dữ liệu chính từ Dryad và sẵn sàng cho câu hỏi phân tích nó tương đối là solo giản. Tuy nhiên, vấn đề đó chỉ chứng tỏ một bắt đầu cho thách thức: cách phân tích dữ liệu lúc này trở thành bước trở ngại nhất. Phần đa điều ngay tiếp theo sau là list ngắn những bài học kinh nghiệm rút ra trường đoản cú thực tiễn làm việc của chúng tôi. Mỗi bài xích học cho thấy thêm một thử thách cửa hàng chúng tôi phải quá qua trong quá trình thực hiện phân tích khả lặp và công cụ chúng tôi chọn để đối đầu với thách thức đó.

Những thách thức và dụng cụ cho việc tái lặp

Sử dụng nguồn tài liệu tiêu chuẩn

Chúng tôi tải dữ liệu về từ những nguồn chuẩn chỉnh (Dryad với The Plant List) với chỉ sửa đổi chúng sử dụng các câu lệnh nhằm đảm bảo những đổi khác bảo toàn được nguyên vẹn tính chất của dữ liệu ban đầu. Công dụng của những dữ liệu mở đang chỉ được nhận biết nếu họ tôn trọng tính định danh của dữ liệu và không tạo thành hàng trăm bạn dạng sửa thay đổi chỉ khác nhau chút ít. Điều này cũng giúp cho việc ghi công của không ít người góp sức dữ liệu. Tuy vậy các vấn đề như những tiêu chuẩn chỉnh phân các loại chưa thống duy nhất vẫn đang là một vật cản lớn đối với các dữ liệu về sinh thái xanh học.

Kết hợp cân nhắc và mã lệnh

Chúng tôi sử dụng gói knitr mang lại R để thực thi những phân tích theo phong cách lập trình tất cả giải thích. Tổng thể các phân tích, bao gồm những biện giải cho các hàm cốt lõi rất có thể tìm thấy trên đây. Tuy nhiên, thao tác làm việc với các nhóm mã lệnh nhiều năm hay cần thời gian đáng kể để chạy vẫn đang là một trong vấn đề đau đầu.

Xem thêm: Cách Vẽ Đề Tài Lễ Hội Lớp 9 Đơn Giản Mà Đẹp, Cách Vẽ Tranh Đề Tài Lễ Hội Lớp 9 Đơn Giản Mà Đẹp

Kết xuất các thông số kỹ thuật động

Toàn bộ việc xử lí dữ liệu của shop chúng tôi được triển khai bởi những mã lệnh, và công ty chúng tôi có thể xóa hết các thông số đầu ra và tạo thành lại chúng một cách dễ dàng.

Tự động lưu trữ các thành tố phụ thuộc

Chúng tôi áp dụng GNU make để cai quản các thành tố phụ thuộc trong dự án, chỉ chuyển đổi những phần đề xuất sửa lại. Hiện tượng này cũng giúp cho quá trình cải tiến và phát triển dự án đổi mới một quy trình tự đóng gói.

Quản lý phiên bản

Toàn bộ mã lệnh của shop chúng tôi được thống trị phiên phiên bản sử dụng git từ dịp bắt đầu, điều này được cho phép chúng tôi kiểm soát điều hành các phiên phiên bản cũ một biện pháp thuận lợi. Đây cũng là trung tâm tài liệu của rất nhiều thứ shop chúng tôi làm. Xem nội dung bài viết này giúp thấy vai trò to bự của làm chủ phiên bạn dạng tới quy trình nghiên cứu.

Tự động chất vấn các biến đổi để bảo vệ không phát sinh vấn đề

Chúng tôi áp dụng môi trường hệ thống tích hợp thường xuyên (continuous integration) Travis CI nhằm giám sát biến đổi trong so sánh để ngăn ngừa lỗi. Mỗi khi chúng tôi tạo ra một cố gắng đổi, hệ thống này sở hữu mã mối cung cấp của chúng tôi xuống mặt khác với các dữ liệu tương quan và chạy phân tích, cùng sẽ nhờ cất hộ cho công ty chúng tôi một thư năng lượng điện tử nếu vị lý do nào đó phân tích bị lỗi. Khối hệ thống này thậm chí còn download lên các phiên phiên bản đã biên dịch của phân tích và ghi chú mỗi một khi chạy.

Đóng gói những thành tố phụ thuộc

Chúng tôi sử dụng gói packrat mang đến R để quản lý và giữ trữ các gói R phụ thuộc để chắc chắn là khả năng khả lặp vào tương lai. Về khía cạnh lý thuyết, điều này nghĩa là ví như phiên bạn dạng của gói phần mềm đó thay đổi nhiều mang đến mức tạo ra lỗi trong mã lệnh của cửa hàng chúng tôi thì shop chúng tôi đã có sẵn một phiên bản lưu trữ rất có thể sử dụng được. Đây là một trong công nắm mới, cửa hàng chúng tôi chưa xác thực được nó có vận động hay không.

Những thách thức còn bỏ ngỏ

Chúng tôi nhận thấy rằng việc biến đổi những so sánh đang chuyển động từ laptop của bạn này (với đông đảo tùy chỉnh cá nhân cho máy tính của họ) sang người khác là một trong việc khó khăn khăn. Lấy một ví dụ như vụ việc này. Thật khó để dự đoán được mọi nguyên nhân dẫn tới không nên sót: trong quá trình tái lặp nghiên cứu này vày Carl Boettiger một vụ việc đã tạo ra do vấn đề chưa triển khai xong tài liệu về các phiên bản gói hỗ trợ R cần thiết.Gói mã lệnh thực thi các quá trình trên là tương đương về kích cỡ khi triển khai phân tích vào thực tế; đấy là một thử thách thật sự cho những nhà nghiên cứu. Việc áp dụng nhiều ngữ điệu và framework không giống nhau làm ngày càng tăng yêu cầu về các mảng kiến thức mang ý nghĩa kĩ thuật hơn, cũng như khả năng xảy ra những vấn đề đang tăng lên. Càng tự động hóa quá trình này thì các phân tích khả lặp sẽ càng trở cần phổ biến.

Phương pháp tiếp cận sử dụng khối hệ thống tích hợp liên tiếp có tiềm năng lớn giúp cho việc thống trị các dự án phân tích dựa trên công nghệ điện toán trở nên tiện lợi hơn. Mặc dù nhiên, tuy vậy phân tích của công ty chúng tôi mang tính nguyên tắc nhiều hơn thế nữa là ứng dụng thực tế, nó sẽ ảnh hưởng giới hạn ở các mặt: đòi hỏi dự án đề nghị là mối cung cấp mở, phân tích yêu cầu chạy tương đối nhanh (dưới 1 giờ). Những số lượng giới hạn này là phù hợp lý so với các dịch vụ miễn chi phí nhưng nó sẽ không còn thể đáp ứng nhu cầu được các dự án nghiên cứu sử dụng những thông tin “nhạy cảm” và những tính toán rất có thể kéo dài những giờ hay các ngày.

Chúng tôi dìm thấy kim chỉ nam khả lặp đến dự án đang trở thành một ví dụ hữu ích, cùng nó đã trở thành nền tảng cho các dự án tiếp sau. Tuy nhiên, quá trình này sẽ trở bắt buộc thức tạp rộng nhiều, để cho việc phía dẫn cho những người khác phương pháp để làm cho dự án của chúng ta trở cần tái lặp không dễ dàng và đơn giản chỉ qua lời nói.Chúng ta cần phải cải cách và phát triển những công cụ, ít nhất phải dễ sử dụng như làm chủ phiên bản trước khi chúng ta mong đợi việc tái lặp dự án công trình trở thành một xu hướng chung.Chúng tôi không phản bác chủ ý của Titus Brown về bài toán tái lặp một phần thì tốt hơn là không tái lặp gì cả (50% số người làm cho công việc của họ có công dụng tái lặp một nửa có vẻ tốt hơn 5% số người khiến cho côgn bài toán của họ có khả năng tái lặp 100%!). Tuy nhiên, chúng tôi không đồng tình với cách nhìn của Titus nhận định rằng những công cụ new là không yêu cầu thiết. Hầu như công cụ hiện tại là cực kỳ thô sơ và nhiều tới mức khó ước ao chờ những nhà khoa học vận dụng trên diện rộng xu hướng tái lặp vì phương châm chính của họ không hẳn để tái lặp. Nếu cho rằng việc tái lặp là không hấp dẫn, họ không thể trông chờ tín đồ khác bỏ thời gian và sức lực lao động của bọn họ ra để đóng góp cho cộng đồng những thứ tốt đẹp.

Những cố gắng khác cho mục tiêu đơn giản và dễ dàng là tiến hành lại nghiên cứu và phân tích ở một laptop khác cũng ko khả thi hơn nỗ lực của shop chúng tôi là bao. Một nghiên cứu của group UBC Reproducibility cho biết họ tất yêu tái lặp công dụng của 30% đều phân tích được chào làng sử dụng gói bổ trợ phổ thay đổi STRUCTURE, với cùng dữ liệu được cung cấp bởi tác giả. Một trường đúng theo đáng bi hùng hơn, một nhóm nghiên cứu tại đại học Arizona cho biết thêm họ chỉ hoàn toàn có thể build được khoảng một nửa số phần mềm nguồn mở mà lại họ hoàn toàn có thể tải xuống mà chưa xét tới việc kiểm tra tài năng của phần mềm (lưu ý rằng nghiên cứu và phân tích này bây giờ đã được tái lặp!).

Xem thêm: Cách Hack Mật Khẩu Wifi Bằng Điện Thoại Xiaomi, 6 Cách Mở Khóa Mật Khẩu Wifi Xài Free Đơn Giản

Quá trình làm cho nghiên cứu và phân tích của cửa hàng chúng tôi trở bắt buộc khả lặp đến thấy chúng ta chỉ đã tiến được các bước nhỏ tuổi trong vấn đề làm cho nghiên cứu và phân tích khả lặp trở yêu cầu phổ biến đối với các nhà kỹ thuật trong thực tế.