“General Index”: Công cụ mới cho phép bạn tìm kiếm 107 triệu bài nghiên cứu miễn phí

Một cơ sở dữ liệu mới được ra mắt nhằm mục đích giúp việc truy cập và tìm kiếm thông tin trong kho tài liệu nghiên cứu khổng lồ của thế giới trở nên dễ dàng hơn bao giờ hết.

Mỗi năm, hàng triệu bài báo khoa học được xuất bản trên hàng nghìn tạp chí. Phần lớn những bài báo đó nằm sau bức tường phí, có giá từ 9 đến 30 USD (hoặc hơn). Việc tìm kiếm chúng có thể gây khó khăn cho nhiều người. Các công cụ như Google Scholar cho phép bạn tìm kiếm thông qua các tiêu đề và từ khóa, nhưng các truy vấn chuyên biệt sẽ khó để thực hiện hơn. 

General Index được thiết kế để giảm bớt những trở ngại đó mà không vi phạm pháp luật. Được phát triển bởi chuyên viên công nghệ Carl Malamud và tổ chức phi lợi nhuận Public Resource của ông, chỉ mục miễn phí này chứa các từ và cụm từ từ hơn 107 triệu bài báo nghiên cứu. 

General Index bao gồm văn bản từ các bài báo có trả phí, nhưng không chứa toàn bộ văn bản mà chỉ gồm những cụm từ dài tối đa năm từ. Điểm hạn chế này được thiết kế để giữ cho dự án ở trạng thái hợp pháp. 

Nội dung có thể tìm kiếm trong General Index bao gồm:

– Hàng tỷ từ khóa (ví dụ: các loại thực vật, gen và vật liệu cụ thể)

– Tiêu đề bài báo

– Tác giả của bài báo nghiên cứu

– DOI định danh bài viết

Malamud đã mô tả chỉ số này như một công cụ để khai thác “đại dương bao la” các kiến ​​thức tích lũy của thế giới.

Malamud giới thiệu trong một video rằng: “Đây là một công cụ tra cứu, một từ điển kiến ​​thức, một bản đồ cho kiến ​​thức. Một công cụ mà chúng tôi tin rằng là một cơ sở thiết yếu cho việc thực hành khoa học trong thời đại hiện đại. […] Chúng tôi xem đây là một tiện ích công cộng. Chúng tôi không khẳng định bất kỳ quyền sở hữu nào đối với General Index. Nó được đưa lên Miền Công cộng (Public Domain) để bạn có thể làm bất cứ những gì bạn muốn. Không có quyền nào được bảo lưu. ”

Các bài nghiên cứu có nên được miễn phí không?

Vấn đề chi phí cao để tiếp cận các tài liệu nghiên cứu từ lâu đã gây tranh cãi trong cộng đồng khoa học. Các trường đại học đôi khi phải trả hơn 10 triệu USD cho một đăng ký hàng năm cho một bộ các tạp chí học thuật. Một phần số tiền đó cuối cùng sẽ được chuyển đến các tổ chức phi lợi nhuận như Hiệp hội Y khoa Massachusetts, Hiệp hội Y khoa Hoa Kỳ và Liên minh Địa vật lý Hoa Kỳ, và doanh thu đôi khi cũng được sử dụng để tài trợ cho việc đi lại của sinh viên và các chi phí khác liên quan đến nghiên cứu của tổ chức.

Tuy nhiên, phần lớn doanh thu cuối cùng lại vào túi các nhà xuất bản lớn. Những công ty vì lợi nhuận này, như Elsevier và Wiley, không trực tiếp sản xuất các nghiên cứu mà họ xuất bản; trên thực tế, các nhà nghiên cứu thường phải trả hàng nghìn đô la để được công bố trên các tạp chí lớn. Về lý thuyết, giá trị mà các nhà xuất bản mang lại là kiểm soát chất lượng thông qua giám tuyển và phản biện ngang hàng, những chức năng không miễn phí.

Nhưng một số nhà khoa học trong cộng đồng lập luận rằng nghiên cứu nên được miễn phí cho công chúng, và việc chi phí tiếp cận các bài báo quá cao sẽ cản trở tiến bộ khoa học. Đó là tuyên bố chính đằng sau phong trào truy cập mở. Một nhân vật quan trọng trong phong trào này là Alexandra Elbakyan, lập trình viên máy tính người Kazakhstan. Năm 2011, cô tạo ra Sci-Hub, một cơ sở dữ liệu trực tuyến hay còn gọi là “thư viện bóng tối”, cho phép bất kỳ ai có kết nối internet đều có thể truy cập miễn phí hàng triệu tài liệu và sách nghiên cứu.

Một số người coi Sci-Hub là một công cụ tuyệt vời để nâng cao kiến ​​thức và nghiên cứu khoa học. Nhưng các nhà xuất bản coi đó là vi phạm bản quyền khoa học. Lập luận chung cho rằng Elbakyan đã không chỉ đánh cắp nội dung của các bài báo mà còn cả thời gian và chuyên môn của các biên tập viên và người phản biện, chưa kể chi phí liên quan đến việc tải lên và lưu trữ tất cả các bài báo.

Năm 2015, Elsevier, công ty sở hữu hàng nghìn tạp chí học thuật tạo ra hơn 1 tỷ đô la hàng năm, đã kiện Elbakyan vì vi phạm bản quyền. Cô đã viết một lá thư cho thẩm phán mô tả việc cô ấy cảm thấy “điên rồ” khi, với tư cách là một sinh viên sau đại học, phải trả 32USD cho mỗi bài báo, “trong khi bạn cần đọc lướt hoặc đọc hàng chục hoặc hàng trăm bài báo tương tự để nghiên cứu.”

“Tác giả của những bài báo này không nhận được tiền,” Elbakyan viết. “Tại sao họ lại nộp các bản thảo nghiên cứu của mình cho Elsevier? Họ cảm thấy bị áp lực khi làm điều này, bởi vì Elsevier là chủ sở hữu của những tạp chí được gọi là ‘uy tín cao’. Nếu một nhà nghiên cứu muốn được công nhận, phát triển sự nghiệp – thì người đó buộc phải có những công bố trên các tạp chí như vậy ”.

Trong một bài báo đăng trên The New York Times, Elbakyan đã trích dẫn một phần của Hiến chương Liên hợp quốc rằng: “Mọi người đều có quyền tự do chia sẻ tiến bộ khoa học và lợi ích của nó.”

Một bước khiêm tốn hơn đối với quyền truy cập mở

Mặc dù nó chắc chắn không phải một hành động vi phạm bản quyền, vẫn chưa rõ liệu General Index có phải đối mặt với bất kỳ thách thức pháp lý nào hay không. Malamud nói với Nature News rằng anh ấy “rất tin tưởng” vào tính hợp pháp của dự án của mình. Theo thời gian, anh và các đồng nghiệp của mình hy vọng sẽ thêm các tính năng mới vào cơ sở dữ liệu, chẳng hạn như một tính năng cho thấy các thuật ngữ nhất định quan trọng như thế nào trong tập hợp các tài liệu, một chỉ số được gọi là ‘tần suất xuất hiện của thuật ngữ’ (Term Frequency – Inverse Document Frequency – TFIDF).