Sách ebook được sưu tầm từ Internet, Bản quyền sách thuộc về Tác giả & Nhà xuất bản. Trang Web hiện đặt quảng cáo để có kinh phí duy trì hoạt động, mong Quý Bạn đọc thông cảm ạ.

Dữ Liệu Lớn – Big Data

Chương 10: Tiếp Theo

Tác giả: Nhiều tác giả

MIKE FLOWERS LÀ MỘT LUẬT SƯ ở văn phòng chưởng lý hạt Manhattan trong những năm 2000, khởi tố tất cả mọi thứ, từ những vụ giết người cho tới những tội phạm ở Wall Street. Sau đó ông chuyển sang một công ty luật doanh nghiệp sang trọng. Qua một năm nhàm chán sau bàn làm việc, ông đã quyết định bỏ công việc này. Vì muốn tìm kiếm một cái gì đó có ý nghĩa hơn, ông nghĩ tới việc giúp đỡ xây dựng lại Iraq. Một đối tác thân thiết của Flowers tại công ty đã gọi điện cho một số nhân vật cấp cao. Và thế là ông cũng không ngờ mình nhanh chóng chuyển đến Vùng Xanh, khu vực an toàn cho quân đội Mỹ trong trung tâm Baghdad, tham gia đội ngũ pháp lý cho tòa án xử Saddam Hussein.

Hầu hết các công việc của ông hóa ra là về hậu cần chứ không phải pháp lý. Ông phải xác định những khu vực tình nghi là những ngôi mộ tập thể để cử các nhà điều tra tới. Ông phải đưa các nhân chứng vào Vùng Xanh mà không khiến họ sa vào những vụ nổ vì các loại bom tự chế (IED), một thực tế nghiệt ngã hàng ngày. Ông nhận thấy rằng quân đội xem các nhiệm vụ này như các bài toán thông tin. Và dữ liệu sẽ là cứu cánh. Các nhà phân tích tình báo sẽ kết hợp các báo cáo thực địa với những chi tiết về địa điểm, thời gian, và thương vong của các cuộc tấn công IED trong quá khứ để dự đoán tuyến đường an toàn nhất cho ngày hôm đó.

Khi trở về thành phố New York một vài năm sau đó, Flowers nhận ra rằng những phương pháp này cho thấy một cách thức chống lại tội phạm tốt hơn so với những gì ông từng có lúc còn là một công tố viên. Và ông đã tìm thấy một người đồng cảm thật sự, thị trưởng của thành phố, Michael Bloomberg, người đã tạo nên thời vận của mình từ dữ liệu bằng cách cung cấp thông tin tài chính cho các ngân hàng. Flowers được đưa vào một đơn vị đặc biệt, với nhiệm vụ xử lý số liệu để có thể vạch mặt những kẻ lừa đảo trong cuộc khủng hoảng thế chấp dưới chuẩn trong năm 2009. Đơn vị đã thành công tới mức một năm sau đó thị trưởng Bloomberg đã đề nghị mở rộng phạm vi của nó. Flowers đã trở thành “giám đốc phân tích” đầu tiên của thành phố. Nhiệm vụ của ông: xây dựng một đội ngũ các nhà khoa học dữ liệu tốt nhất ông có thể tìm thấy và khai thác những kho tàng thông tin chưa được khám phá của thành phố nhằm gặt hái hiệu quả trong mọi lĩnh vực.

Flowers xem xét mạng lưới quen biết rộng lớn của mình để tìm đúng người. “Tôi không quan tâm tới những nhà thống kê rất giàu kinh nghiệm”, ông nói. “Tôi có chút lo ngại rằng họ sẽ phải miễn cưỡng chấp nhận cách tiếp cận mới này để giải quyết vấn đề”. Trước đó, khi ông phỏng vấn những chuyên gia thống kê truyền thống cho dự án gian lận tài chính, họ có xu hướng nêu những lo ngại nhà nghề về các phương pháp toán học. “Tôi thậm chí không nghĩ về mô hình mà tôi sẽ sử dụng. Tôi muốn sự hiểu biết sâu sắc để hành động, và đó là tất cả những gì tôi quan tâm”, ông nói. Cuối cùng thì ông đã chọn một nhóm năm người mà ông gọi là “những đứa trẻ”. Tất cả, trừ một người, đều trong những chuyên ngành kinh tế, mới chỉ tốt nghiệp một hoặc hai năm và không có nhiều kinh nghiệm sống ở một thành phố lớn, và tất cả đều thể hiện tố chất sáng tạo.

Một trong số những thách thức đầu tiên mà nhóm đã giải quyết là “chuyển đổi bất hợp pháp” – thật ra nghĩa là đem chia một chỗ cư trú thành nhiều đơn vị nhỏ hơn để có thể chứa được tới mười lần nhiều hơn số lượng người mà nó đã được thiết kế để chứa. Có nhiều nguy cơ về hỏa hoạn, cũng như về chứa chấp tội phạm, ma túy, bệnh tật, và sâu bệnh. Một mớ dây cáp điện có thể chạy ngoằn ngoèo trong các bức tường, còn những tấm sưởi bị bỏ một cách nguy hiểm trên những khăn trải giường. Những người sống chật trội như vậy thường xuyên bị chết trong các đám cháy. Năm 2005 hai nhân viên cứu hỏa đã thiệt mạng khi cố gắng giải cứu người dân. Thành phố New York có khoảng 25.000 khiếu nại về chuyển đổi bất hợp pháp mỗi năm, nhưng chỉ có 200 thanh tra để xử lý chúng. Dường như không có cách nào tốt để loại ra những trường hợp chỉ đơn giản là phiền hà từ những người dễ bốc hỏa. Tuy nhiên đối với Flowers và những đứa trẻ của ông, điều này trông giống như một bài toán có thể được giải với rất nhiều dữ liệu.

Họ bắt đầu với một danh sách của các bất động sản trong thành phố – tất cả có 900.000. Tiếp theo, họ bổ sung dữ liệu từ 19 cơ quan khác nhau cho biết các thông tin như liệu chủ sở hữu tòa nhà có vi phạm quy định trả tiền thuế bất động sản, từng có thủ tục tố tụng tịch thu nhà, có những bất thường trong việc sử dụng các dịch vụ tiện ích, hoặc bị cắt dịch vụ vì không thanh toán. Họ cũng đưa vào thông tin về loại hình của tòa nhà và khi nào nó được xây dựng, cộng với những lần gọi xe cứu thương, tỷ lệ tội phạm, khiếu nại… Sau đó, họ so sánh tất cả các thông tin này đối với năm năm của dữ liệu về các vụ cháy được xếp hạng theo mức độ nghiêm trọng và tìm kiếm những mối tương quan để tạo ra một hệ thống có thể dự đoán được những khiếu nại nào phải được điều tra khẩn cấp nhất.

Ban đầu, phần lớn các dữ liệu không phải ở dưới hình thức có thể sử dụng được. Ví dụ các cơ quan lưu trữ của thành phố đã không sử dụng một cách thức tiêu chuẩn đơn nhất để mô tả vị trí, mỗi cơ quan và bộ phận dường như có cách tiếp cận riêng của mình. Sở công trình gán mỗi cấu trúc với một số nhà duy nhất. Sở bảo quản nhà ở có một hệ thống đánh số khác. Sở thuế cung cấp cho mỗi bất động sản một định danh dựa theo quận, khu phố và mảnh đất. Cảnh sát sử dụng tọa độ Descartes. Sở cứu hỏa lại trông cậy vào một hệ thống khoảng cách tới các “hộp gọi” tương ứng với vị trí của các trạm cứu hỏa, mặc dù những hộp gọi không còn tồn tại nữa. “Những đứa trẻ” của Flowers đã đối mặt với sự hỗn độn này bằng cách đặt ra một hệ thống định danh các tòa nhà theo phương thức sử dụng một khu vực nhỏ ở phía trước bất động sản dựa trên tọa độ Descartes, và sau đó rút ra dữ liệu vị trí từ những cơ sở dữ liệu của các cơ quan khác. Phương pháp của họ vốn không chính xác, nhưng số lượng lớn các dữ liệu họ có thể sử dụng đã bù đắp lại cho những khiếm khuyết này.

Tuy nhiên các thành viên trong nhóm đã không thỏa mãn khi chỉ xử lý những con số. Họ đã đi thực địa để xem những thanh tra làm việc. Họ đã ghi chép rất nhiều và hỏi các chuyên gia về mọi thứ. Khi một chỉ huy tóc hoa râm lầm bầm rằng tòa nhà họ sắp kiểm tra không có vấn đề gì đâu, các thành viên trong nhóm nghiên cứu đều hỏi tại sao ông lại cảm thấy chắc chắn như vậy. Ông ta có thể không hoàn toàn nói ra, nhưng “những đứa trẻ” dần xác định được rằng trực giác của ông ta là dựa trên những viên gạch mới ở ngoại thất của tòa nhà, điều khiến ông ta nghĩ rằng người chủ sở hữu quan tâm đến nơi này.

“Những đứa trẻ” trở lại nơi làm việc và tự hỏi làm thế nào để đưa yếu tố “phần gạch mới xây” vào mô hình của họ như một tín hiệu. Xét cho cùng, những viên gạch đâu có được dữ liệu hóa – đúng ra là chưa! Nhưng chắc chắn rằng bất kỳ phần xây mới bên ngoài nào cũng phải có giấy phép của thành phố để thực hiện. Thế là việc thêm thông tin giấy phép đã cải thiện hiệu suất dự đoán của hệ thống, khi cho thấy một số tòa nhà trong diện “đáng ngờ” có lẽ không mang những rủi ro lớn.

Có những lúc các phân tích cũng chỉ ra rằng một số cách thức làm việc lâu đời không phải là cách tốt nhất, cũng giống như các tuyển trạch viên trong Moneyball phải chấp nhận những thiếu sót trực giác của họ. Ví dụ số cuộc gọi đến đường dây nóng khiếu nại “311” của thành phố vốn được xem là chỉ báo về những tòa nhà nào cần sự chú ý nhất. Nhiều cuộc gọi hơn tương ứng với những vấn đề nghiêm trọng hơn. Nhưng điều này hóa ra là một sự nhầm lẫn. Một con chuột được phát hiện ở khu Đông Bắc sang trọng có thể gây ra đến ba mươi cuộc gọi trong vòng một giờ, nhưng có thể cần cả một tiểu đoàn động vật gặm nhấm mới làm cho những người dân ở Bronx cảm thấy cần bấm số 311. Tương tự như vậy, phần lớn những khiếu nại về một sự chuyển đổi bất hợp pháp nào đó có thể là về tiếng ồn, chứ không phải về những điều kiện nguy hiểm.

Tháng 6 năm 2011, Flowers và những đứa trẻ của ông bật công tắc hệ thống của họ. Các khiếu nại thuộc thể loại chuyển đổi bất hợp pháp đã được xử lý hàng tuần. Họ tập hợp những khiếu nại được xếp hạng trong tốp 5 phần trăm về nguy cơ cháy và chuyển chúng tới các thanh tra để theo dõi ngay lập tức. Khi có kết quả trở lại, tất cả mọi người đều sững sờ.

Trước khi có phân tích dữ-liệu-lớn, các thanh tra viên theo dõi các khiếu nại mà họ xem là nghiêm trọng nhất, nhưng họ chỉ nhận thấy tình trạng nghiêm trọng đủ để đưa trát di dời trong 13 phần trăm trường hợp. Bây giờ họ phải phát lệnh đó cho hơn 70 phần trăm các tòa nhà mà họ kiểm tra. Bằng cách chỉ ra những tòa nhà cần sự chú ý của họ nhất, dữ liệu lớn đã cải thiện hiệu quả gấp năm lần. Và công việc này đã khiến các thanh tra viên hài lòng hơn: họ được tập trung vào những vấn đề lớn nhất. Hiệu quả đối với các thanh tra viên cũng có những lợi ích lan tỏa. Những vụ cháy trong các tòa nhà bị chuyển đổi bất hợp pháp có nguy cơ dẫn đến thương tích hoặc tử vong cho nhân viên cứu hỏa 15 lần nhiều hơn so với những vụ cháy khác, vì vậy các sở cứu hỏa cũng mê mẩn nghiên cứu này. Flowers và những đứa trẻ của ông như những thầy pháp với một quả cầu pha lê cho phép họ nhìn thấy tương lai và dự đoán những nơi nào rủi ro nhất. Họ đã lấy những lượng lớn dữ liệu nằm rải rác trong nhiều năm qua, phần lớn không được sử dụng sau khi thu thập, và khai thác nó theo một cách thức mới mẻ để thu được giá trị thực sự. Việc sử dụng một lượng lớn thông tin cho phép họ phát hiện những mối liên hệ bị che giấu trong những lượng nhỏ thông tin hơn. Đó là bản chất của dữ liệu lớn.

Kinh nghiệm của các nhà giả kim thuật phân tích của thành New York làm nổi bật nhiều chủ đề của cuốn sách này. Họ đã sử dụng một lượng khổng lồ của dữ liệu, và danh sách các tòa nhà trong thành phố đã thể hiện đúng tiêu chí N = tất cả. Dữ liệu này hỗn độn, chẳng hạn thông tin vị trí hoặc hồ sơ xe cứu thương, nhưng điều đó không cản trở được họ. Thật ra, những lợi ích của việc sử dụng nhiều dữ liệu đã vượt hẳn những hạn chế của việc dùng ít thông tin như trước đây. Họ đã có thể đạt được những thành tựu, bởi vì rất nhiều đặc tính của thành phố đã được dữ liệu hóa (tuy không phải một cách nhất quán), cho phép họ xử lý được thông tin.

Những nghi ngờ của các chuyên gia đã phải lùi một bước đối với phương pháp tiếp cận theo định hướng dữ liệu. Đồng thời, Flowers và “những đứa trẻ” của ông đã tiếp tục thử nghiệm hệ thống của họ với các thanh tra viên kỳ cựu, dựa trên kinh nghiệm của họ để làm cho hệ thống hoạt động tốt hơn. Tuy nhiên, lý do quan trọng nhất cho sự thành công của chương trình là nó được thực hiện với sự tin cậy phụ thuộc vào mối tương quan thay vì quan hệ nhân quả.

“Tôi không quan tâm đến nguyên nhân trừ khi nó nói đến hành động”, Flowers giải thích. “Nhân quả là cho người khác, và thẳng thắn mà nói, có rất nhiều rủi ro khi bạn bắt đầu nói về quan hệ nhân quả. Tôi không nghĩ rằng có bất kỳ liên hệ nhân quả nào giữa ngày mà một người tiến hành thủ tục tịch biên đối với một bất động sản và việc liệu có khả năng nơi này tiềm ẩn nguy cơ về hỏa hoạn. Tôi cho rằng tư duy như thế là u mê. Và không ai có thể thực sự đứng ra và phát biểu như vậy. Họ sẽ bảo không, ẩn sâu bên dưới nó vẫn là thế mà. Nhưng tôi chẳng muốn xuống đến tận đó. Tôi cần một điểm dữ liệu cụ thể để truy cập tới, và cho tôi biết ý nghĩa của nó. Nếu nó quan trọng, chúng tôi sẽ hành động dựa trên đó. Nếu không, chúng tôi sẽ bỏ qua. Anh biết đấy, chúng tôi có những vấn đề hiển hiện, cần được giải quyết. Thực tình vào lúc này, chúng tôi không thể cứ luẩn quẩn, suy nghĩ về những thứ như quan hệ nhân quả được”.

Khi dữ liệu nói

Những ảnh hưởng của dữ liệu lớn là khá lớn trên thực tế, khi công nghệ này được áp dụng để tìm lời giải cho các vấn đề thường ngày gây nhiều tranh cãi. Nhưng đó mới chỉ là khởi đầu. Dữ liệu lớn đã sẵn sàng để định hình lại cách chúng ta sống, làm việc, và tư duy. Sự thay đổi chúng ta phải đối mặt, theo một số khía cạnh, thậm chí còn lớn hơn so với những thay đổi mà trước đây đã mở rộng đáng kể phạm vi và quy mô của thông tin trong xã hội. Mặt đất dưới chân chúng ta đang chuyển đổi. Những điều trước đây còn chắc chắn thì lúc này đang bị chất vấn. Dữ liệu lớn đòi hỏi sự tranh luận mới mẻ về bản chất của việc ra quyết định, số phận, công lý. Một thế giới quan mà chúng ta cho rằng được tạo nên từ quan hệ nhân quả đang bị thách thức bởi ưu thế của các mối tương quan. Việc nắm bắt kiến thức, mà trước đây có nghĩa là sự hiểu biết về quá khứ, đang dần chuyển thành khả năng dự đoán tương lai.

Những vấn đề này quan trọng hơn rất nhiều so với những vấn đề nảy sinh khi chúng ta chuẩn bị để khai thác thương mại điện tử, sống với Internet, bước vào thời đại máy tính, hay bỏ đi bàn tính. Ý tưởng cho rằng chúng ta quá quan tâm đến hành trình đi tìm kiếm nguyên nhân – mà trong nhiều trường hợp có thể sẽ thuận lợi hơn nếu tránh né câu hỏi tại sao để chuyển sang cái gì – cho thấy những vấn đề này là nền tảng cho xã hội và sự tồn tại của chúng ta. Những thách thức do dữ liệu lớn đặt ra có thể cũng không tìm được lời đáp. Thay vào đó, chúng là một phần của cuộc tranh luận vô tận về vị trí của con người trong vũ trụ và cuộc tìm kiếm của con người về ý nghĩa cuộc sống, giữa một thế giới náo nhiệt, hỗn loạn, không thể hiểu nổi.

Xét cho cùng, dữ liệu lớn đánh dấu thời khắc “xã hội thông tin” đã hoàn thành viễn cảnh bao hàm trong tên gọi của nó. Dữ liệu chiếm lĩnh vũ đài trung tâm. Tất cả những bit kỹ thuật số mà chúng ta thu thập bây giờ có thể được khai thác theo những cách thức mới để phục vụ những mục đích mới và mở khóa cho các dạng giá trị mới. Nhưng điều này đòi hỏi phải có một cách tư duy mới, sẽ thách thức các thể chế của chúng ta và thậm chí cả ý thức của chúng ta về bản sắc. Một điều chắc chắn là lượng dữ liệu sẽ tiếp tục tăng, cũng như sức mạnh để xử lý dữ liệu. Nhưng trong khi hầu hết mọi người đều xem dữ liệu lớn như một vấn đề công nghệ, tập trung vào phần cứng hay phần mềm, chúng tôi lại tin rằng nên hướng sự chú ý sang những điều sẽ xảy ra khi dữ liệu “nói”.

Chúng ta có thể thu thập và phân tích nhiều thông tin hơn bao giờ hết. Sự khan hiếm của dữ liệu không còn là đặc tính xác định những nỗ lực của chúng ta để giải thích thế giới. Chúng ta có thể khai thác dữ liệu ở quy mô rộng lớn hơn rất nhiều, và trong một số trường hợp có thể đến gần được với tất cả dữ liệu. Nhưng làm như vậy khiến chúng ta phải hoạt động theo những cách phi truyền thống, và đặc biệt nó sẽ thay đổi suy nghĩ của chúng ta về những gì cấu thành thông tin hữu ích.

Thay vì bị ám ảnh về tính chính xác, tính đúng đắn, sạch sẽ, và tính chắc chắn của dữ liệu, chúng ta có thể để cho một số hạt sạn xen vào. Chúng ta không nên chấp nhận một tập hợp dữ liệu hoàn toàn sai hoặc đúng, nhưng có thể chấp nhận sự hỗn độn để đổi lại việc thu về một tập dữ liệu toàn diện hơn rất nhiều. Thật ra, trong một số trường hợp sự to lớn và hỗn độn thậm chí có thể có lợi, bởi vì khi cố gắng sử dụng chỉ một phần nhỏ và chính xác của dữ liệu, chúng ta cuối cùng đã thất bại trong việc nắm bắt được chiều rộng của chi tiết nơi có chứa rất nhiều kiến thức.

Vì các mối tương quan có thể được tìm thấy nhanh hơn và rẻ hơn so với quan hệ nhân quả, chúng thường thích hợp hơn. Chúng ta sẽ vẫn cần các nghiên cứu nhân quả và các thí nghiệm có kiểm soát với các dữ liệu được giám tuyển cẩn thận trong một số trường hợp, chẳng hạn như thiết kế một chi tiết máy bay quan trọng. Nhưng đối với nhiều nhu cầu hàng ngày, việc biết cái gì chứ không phải tại sao là đủ tốt rồi. Và các mối tương quan dữ-liệu-lớn có thể chỉ ra con đường hướng tới các lĩnh vực đầy triển vọng, mà trong đó con người có thể khám phá những mối quan hệ nhân quả.

Các mối tương quan nhanh chóng này cho phép chúng ta tiết kiệm tiền vé máy bay, dự báo dịch cúm, và biết được hố ga hoặc các tòa nhà quá đông đúc nào cần phải kiểm tra trong một thế giới khá hạn hẹp về nguồn lực. Chúng có thể giúp các công ty bảo hiểm y tế cung cấp dịch vụ bảo hiểm mà không cần một kỳ khám sức khỏe, và giảm chi phí nhắc nhở người bệnh dùng thuốc. Ngôn ngữ sẽ được dịch và những chiếc xe sẽ tự lái trên cơ sở các dự đoán được thực hiện thông qua các mối tương quan dữ-liệu-lớn. Walmart có thể biết những hương vị Pop-Tarts nào nên bày ở phía trước cửa hàng trước một cơn bão. (Câu trả lời: dâu đất). Tất nhiên, quan hệ nhân quả là tốt khi bạn nắm bắt được nó. Vấn đề nằm ở chỗ điều này rất khó, và nếu tưởng rằng mình đã tìm thấy nó thì thường chúng ta chỉ tự lừa dối mà thôi.

Những công cụ mới, từ các bộ vi xử lý nhanh hơn và bộ nhớ lớn hơn tới phần mềm và các thuật toán thông minh hơn, chỉ là một phần của lý do chúng ta có thể làm được tất cả những điều này. Dù các công cụ có vai trò quan trọng, một lý do cơ bản hơn là chúng ta có nhiều dữ liệu hơn, bởi vì nhiều khía cạnh của thế giới đang được dữ liệu hóa. Khá chắc chắn rằng tham vọng của con người về việc định lượng thế giới đã có từ rất lâu trước cuộc cách mạng máy tính. Nhưng các công cụ kỹ thuật số tạo thuận lợi cho việc dữ liệu hóa rất nhiều. Điện thoại di động không chỉ theo dõi người mà chúng ta gọi và nơi chúng ta đến, mà các dữ liệu chúng thu thập còn có thể được sử dụng để phát hiện xem chúng ta có đang bị bệnh không. Chắc chẳng bao lâu nữa, dữ liệu lớn còn cho biết liệu chúng ta có đang yêu đương gì không.

Khả năng của chúng ta trong việc làm những điều mới, làm nhiều hơn, tốt hơn, và nhanh hơn có thể để mở ra những giá trị vô cùng to lớn, tạo ra người chiến thắng và những kẻ thất bại mới. Phần lớn giá trị của dữ liệu sẽ đến từ những ứng dụng phụ của nó, giá trị tương lai, chứ không chỉ đơn giản từ ứng dụng chính của nó, như chúng ta vẫn quen nghĩ. Kết quả là đối với hầu hết các loại dữ liệu, sẽ hợp lý khi thu thập nhiều nhất có thể và giữ lâu đến mức nào nó còn có thêm giá trị, và để cho những người khác phân tích nó nếu họ là người phù hợp hơn để tận dụng được giá trị của nó (miễn là có thể chia sẻ được các lợi ích mà việc phân tích mang lại).

Các công ty nào xác lập được vị trí của mình giữa những dòng chảy thông tin và thu thập được dữ liệu sẽ phát triển mạnh. Việc khai thác dữ liệu lớn một cách hiệu quả đòi hỏi phải có những kỹ năng kỹ thuật và rất nhiều trí tưởng tượng – một tư duy dữ-liệu-lớn. Nhưng cốt lõi của giá trị có thể về tay những người nắm giữ dữ liệu. Và đôi khi thông tin không chỉ là một tài sản quan trọng có thể nhìn thấy một cách rõ ràng, mà còn là dữ liệu xả được tạo ra bởi những tương tác của con người với thông tin. Một công ty thông minh có thể sử dụng chúng để cải thiện dịch vụ hiện có hoặc khởi động một dịch vụ hoàn toàn mới.

Phim minh họa của Oracle về cách khai thác dữ liệu lớn

Đồng thời, dữ liệu lớn mang đến cho chúng ta những rủi ro rất lớn. Nó vô hiệu hóa những cơ chế kỹ thuật và pháp lý cốt lõi mà thông qua đó chúng ta hiện đang cố gắng bảo vệ sự riêng tư. Trong quá khứ những gì cấu thành thông tin định danh cá nhân đều đã được biết – tên, số an sinh xã hội, hồ sơ thuế… – và do vậy tương đối dễ để bảo vệ. Ngày nay, ngay cả những dữ liệu vô hại nhất cũng có thể tiết lộ nhân thân của ai đó nếu một nhà sưu tập dữ liệu đã tích lũy được đủ về nó. Việc ẩn danh hóa hoặc cách giấu tin thông thường không còn tác dụng. Hơn nữa, hiện nay việc nhắm mục tiêu vào một cá nhân để giám sát đòi hỏi một sự xâm phạm rộng lớn lên yếu tố riêng tư hơn bao giờ hết, bởi chính quyền không chỉ muốn biết nhiều thông tin nhất có thể về một người, mà còn muốn biết phạm vi rộng nhất về các mối quan hệ, các kết nối và tương tác.

Ngoài những thách thức về yếu tố riêng tư, những ứng dụng này của dữ liệu lớn còn làm nổi lên mối lo ngại đặc biệt và đáng ngại khác: nguy cơ chúng ta có thể đánh giá con người không chỉ với hành vi thực tế của họ mà với những khuynh hướng do dữ liệu cho thấy họ sẽ có. Khi các dự đoán dữ-liệu-lớn trở nên chính xác hơn, xã hội có thể sử dụng chúng để trừng phạt con người vì hành vi được dự đoán – những hành động mà họ chưa hề thực hiện. Những dự đoán như vậy là không thể bác bỏ một cách rõ ràng, vì vậy những người mà chúng cáo buộc không bao giờ có thể biện hộ được cho mình. Hình phạt trên cơ sở này phủ nhận nguyên lý tự do chí và bác bỏ khả năng, dù nhỏ bé tới đâu, rằng một con người có thể lựa chọn một con đường khác. Vì xã hội trao trách nhiệm cá nhân (và đưa ra hình phạt), ý chí của con người phải được xem là bất khả xâm phạm. Tương lai phải còn là một cái gì đó mà chúng ta có thể định hình theo thiết kế riêng của mình. Nếu không, dữ liệu lớn sẽ làm biến thái bản chất cốt lõi nhất của nhân loại: hợp lý trong suy nghĩ và tự do trong lựa chọn.

Không có cách rõ ràng nhất để chuẩn bị đầy đủ cho thế giới của dữ liệu lớn, nó sẽ đòi hỏi chúng ta thiết lập những nguyên tắc mới để chúng ta cai quản lấy chính mình. Một loạt thay đổi quan trọng đối với hoạt động của chúng ta có thể giúp ích cho xã hội khi nó trở nên quen thuộc hơn với đặc trưng và những thiếu sót của dữ liệu lớn. Chúng ta phải bảo vệ sự riêng tư bằng cách chuyển trách nhiệm khỏi các cá nhân và hướng tới những người sử dụng dữ liệu – nghĩa là tới việc sử dụng có trách nhiệm. Trong một thế giới của các dự đoán, điều quan trọng là chúng ta phải đảm bảo ý chí con người được giữ bất khả xâm phạm, và chúng ta bảo vệ không chỉ quyền chọn lựa theo tiêu chuẩn đạo đức mà cả trách nhiệm cá nhân đối với những hành vi cá nhân.

Ngoài ra, xã hội phải thiết lập những biện pháp bảo vệ để giúp một chuyên ngành mới gồm các “nhà thuật toán” đánh giá các phân tích dữ-liệu-lớn – để một thế giới vốn trở nên ít ngẫu nhiên hơn do sự can thiệp của dữ liệu lớn không biến thành chiếc hộp đen. Nếu như vậy thì chẳng khác nào chuyển từ tình trạng mù mờ này sang tình trạng mù mờ khác.

Dữ liệu lớn sẽ được tích hợp vào quá trình tìm hiểu và giải quyết nhiều bài toàn toàn cầu mang tính cấp bách của chúng ta. Giải quyết vấn đề biến đổi khí hậu đòi hỏi phải phân tích dữ liệu ô nhiễm để biết nơi cần tập trung nỗ lực của chúng ta và tìm cách giảm thiểu các vấn nạn. Các cảm biến đang được đặt trên khắp thế giới, bao gồm cả những cái được nhúng trong các điện thoại thông minh, cung cấp vô số dữ liệu cho phép chúng ta mô hình hóa sự nóng lên toàn cầu ở mức độ chi tiết hơn. Trong khi đó, việc cải thiện và giảm chi phí chăm sóc sức khỏe, đặc biệt là cho người nghèo trên thế giới, phần lớn sẽ liên quan đến tự động hóa những công việc hiện tại dường như cần đánh giá của con người nhưng có thể được thực hiện bằng máy tính, chẳng hạn kiểm tra sinh thiết cho tế bào ung thư hoặc phát hiện nhiễm trùng trước khi các triệu chứng xuất hiện một cách đầy đủ.

Dữ liệu lớn đã được sử dụng cho sự phát triển kinh tế và ngăn ngừa xung đột. Nó đã phát hiện ra rằng những khu ổ chuột ở châu Phi là những cộng đồng sôi động về hoạt động kinh tế ,bằng cách phân tích các chuyển động của người sử dụng điện thoại di động. Nó đã phát hiện những khu vực chín muồi cho các cuộc đụng độ sắc tộc và chỉ ra các cuộc khủng hoảng tị nạn có thể xuất hiện như thế nào. Và các ứng dụng của nó chắc chắn nhân lên khi công nghệ được áp dụng cho nhiều khía cạnh hơn của cuộc sống. Dữ liệu lớn giúp chúng ta làm tốt hơn những gì chúng ta đã làm, và cho phép chúng ta làm những điều hoàn toàn mới mẻ. Tuy nhiên, nó không phải là cây đũa thần. Nó sẽ không thể mang lại hòa bình thế giới, xóa bỏ đói nghèo, hoặc sản sinh một Picasso kế tiếp. Dữ liệu lớn không thể sinh ra một đứa bé – nhưng nó có thể cứu được những đứa trẻ bị sinh non. Rồi sẽ đến lúc chúng ta trông đợi nó được sử dụng trong hầu hết mọi khía cạnh của cuộc sống, và có lẽ chúng ta sẽ hoảng hốt một chút khi nó vắng mặt, giống như khi chúng ta mong một bác sĩ yêu cầu chụp X-quang để phát hiện các vấn đề có thể không phát hiện được khi khám bệnh.

Khi dữ liệu lớn trở nên phổ biến, nó cũng có thể ảnh hưởng đến cách chúng ta nghĩ về tương lai. Hiện tại có thể được định hình, còn tương lai đã chuyển từ một cái gì đó hoàn toàn dự đoán được thành một cái gì đó mở, nguyên sơ – một tấm vải bố rộng, trống trải mà mỗi cá nhân có thể vẽ lên theo những giá trị và nỗ lực của chính mình. Một trong những đặc điểm nổi bật của thời hiện đại là cảm giác tự chúng ta làm chủ số phận của mình – thái độ khiến chúng ta khác với tổ tiên. Tuy nhiên, dự đoán dữ-liệu-lớn khiến tương lai ít mở hơn và bị ảnh hưởng. Thay cho một tấm vải bạt trống, tương lai của chúng ta dường như đã được phác thảo bằng những dấu vết mờ nhạt có thể hiện lên rõ ràng bởi những người sở hữu công nghệ để làm rõ chúng. Điều này dường như làm giảm khả năng của chúng ta trong việc định hình số phận của mình. Trên bàn hành lễ của xác suất, năng lực tiềm ẩn của chúng ta chính là vật hiến tế.

Cùng lúc đó, dữ liệu lớn có thể khiến chúng ta mãi mãi là tù nhân của các hành động mà ta thực hiện trước kia. “Quá khứ là khúc dạo đầu”, Shakespeare từng viết. Dù việc xấu hay việc tốt, dữ liệu lớn đều xét chúng trên cơ sở thuật toán. Liệu một thế giới của các dự đoán như thế có khiến chúng ta chán chường đến nỗi chẳng còn hứng thú chào đón bình minh, chẳng còn mong muốn đặt dấu ấn nhân văn của mình trên thế giới?

Thật ra điều ngược lại sẽ khả thi hơn. Nếu đoán được các hành động diễn ra thế nào trong tương lai, chúng ta sẽ có thể thực hiện các bước khắc phục hậu quả để ngăn chặn các vấn đề hoặc cải thiện các kết quả. Chúng ta sẽ phát hiện những sinh viên đang bắt đầu trượt dốc sớm trước khi đến kỳ thi cuối cùng. Chúng ta sẽ phát hiện những ổ ung thư nhỏ xíu và điều trị chúng trước khi căn bệnh có cơ hội xuất hiện. Chúng ta sẽ thấy trước nguy cơ mang thai ở tuổi vị thành niên hoặc nguy cơ trở thành tội phạm và can thiệp để thay đổi kết quả được dự báo này, nhiều nhất trong khả năng của mình. Chúng ta sẽ ngăn chặn những vụ hỏa hoạn chết người trong những khu chung cư quá tải ở New York, nhờ biết những tòa nhà nào cần kiểm tra trước nhất.

Chẳng có gì được ấn định trước cả, bởi vì chúng ta luôn luôn có thể đáp ứng và phản ứng với những thông tin mình nhận được. Các dự đoán của dữ liệu lớn không phải được khắc ghi trên đá – chúng chỉ là những kết quả có khả năng xảy ra, và điều đó nghĩa là nếu muốn thay đổi, chúng ta có thể làm được. Chúng ta có thể xác định cách tốt nhất để chào đón tương lai và trở thành chủ nhân của nó, giống như Maury đã tìm thấy những tuyến đường tự nhiên trong không gian rộng mở của gió và sóng. Và để thực hiện điều này, chúng ta không bị buộc phải hiểu bản chất của vũ trụ hoặc chứng minh sự tồn tại của các vị thần – dữ liệu lớn là đủ tốt rồi.

Dữ liệu lớn hơn nữa

Khi dữ liệu lớn biến đổi cuộc sống của chúng ta – tối ưu hóa, cải thiện, tăng hiệu quả, và nắm bắt những lợi ích – vậy thì trực giác, đức tin, sự mơ hồ và tính độc đáo sẽ còn lại vai trò gì đây?

Nếu có điều gì dữ liệu lớn dạy cho chúng ta, đó chính là chỉ cần hành động tốt hơn, thực hiện những cải tiến, mà không cần hiểu biết sâu sắc hơn; và thông thường như vậy là đủ rồi. Tiếp tục làm như vậy là đúng đắn. Thậm chí nếu bạn không biết tại sao những nỗ lực của mình lại hiệu quả, bạn vẫn đang tạo ra những kết quả tốt hơn so với khi bạn không tạo ra những nỗ lực như vậy. Flowers và “những đứa trẻ” của ông ở New York có thể không phải là hiện thân cho sự giác ngộ của các bậc thánh hiền, nhưng họ cứu được những mạng sống.

Dữ liệu lớn không phải là một thế giới lạnh lẽo của các thuật toán và máy tính. Vẫn có vai trò thiết yếu của con người, với tất cả những nhược điểm, nhận thức sai và lỗi lầm, bởi những đặc điểm đó đi song hành với sự sáng tạo, bản năng, và thiên tài của con người. Các quá trình hỗn độn tương tự trong tinh thần của chúng ta vốn dẫn đến định hướng sai, nhưng cũng dẫn đến những thành công và những ý tưởng vĩ đại thật tình cờ. Điều này cho thấy dù đang cố gắng nắm lấy thứ dữ liệu hỗn độn vì nó phục vụ một mục đích lớn hơn, chúng ta vẫn nên tiếp nhận sự không chính xác như một phần của nhân loại. Xét cho cùng, sự bừa bộn là một đặc tính cần thiết của cả thế giới và tâm thức chúng ta, và chúng ta chỉ được hưởng lợi bằng cách chấp nhận nó và áp dụng nó.

Cũng rất cần có một nơi cho con người để dành không gian cho trực giác, cho sự suy xét, nhằm đảm bảo chúng ta không bị dữ liệu và những câu trả lời bằng máy chôn vùi. Những điều tuyệt diệu nhất về con người chính là những điều các thuật toán và chip silicon không thể tiết lộ, bởi chúng không thể nắm bắt được trong dữ liệu.

Điều này có những hệ lụy quan trọng đối với quan niệm về sự tiến bộ trong xã hội. Dữ liệu lớn cho phép chúng ta thử nghiệm nhanh hơn và khám phá nhiều phương hướng hơn. Những lợi thế này đúng ra phải tạo nên nhiều bước đổi mới hơn. Tuy nhiên những tia sáng của phát minh lại là thứ mà dữ liệu không thể hiện được, dù với lượng dữ liệu lớn đến đâu chăng nữa, vì nó vẫn chưa tồn tại. Nếu Henry Ford hỏi các thuật toán dữ-liệu-lớn rằng khách hàng của ông mong muốn gì, chúng sẽ trả lời: “một con ngựa nhanh hơn” (để nhắc lại câu nói nổi tiếng của ông). Trong một thế giới của dữ liệu lớn, chính những đặc điểm nhân văn nhất của chúng ta sẽ cần được khích lệ – sự sáng tạo, trực giác, và tham vọng tri thức – bởi vì tài khéo léo của chúng ta mới là nguồn gốc cho sự tiến bộ của nhân loại.

Dữ liệu lớn là một nguồn lực và một công cụ. Nó được tạo ra để thông báo, thay vì giải thích; nó dẫn chúng ta tới sự hiểu biết, nhưng nó vẫn có thể dẫn đến sự hiểu lầm, tùy thuộc vào việc nó được vận dụng tốt hay kém như thế nào. Và dù kinh ngạc đến đâu về sức mạnh của dữ liệu lớn, chúng ta không bao giờ được để sức quyến rũ của nó làm mình mù quáng đối với những khiếm khuyết vốn có của dữ liệu lớn.

Thông tin toàn vẹn về thế giới này – yếu tố tối thượng N = tất cả – sẽ chẳng bao giờ được thu thập, lưu trữ, hoặc xử lý bằng các công nghệ của chúng ta. Ví dụ phòng thí nghiệm vật lí hạt CERN ở Thụy Sĩ chỉ thu thập chưa đến 0,1 phần trăm các thông tin được tạo ra trong các thí nghiệm của nó – phần còn lại, dường như vô dụng, bị để bốc hơi vào hư vô. Nhưng điều đó khó có thể chấp nhận. Xã hội đã luôn luôn bị què quặt bởi những hạn chế của các công cụ chúng ta sử dụng nhằm đo lường và hiểu biết thực tế, từ la bàn, kính lục phân, rồi kính viễn vọng, radar tới GPS ngày nay. Các công cụ ngày mai của chúng ta có thể mạnh hơn gấp đôi, gấp mười hay gấp ngàn lần so với các công cụ của ngày hôm nay, khiến những gì chúng ta biết hôm nay có lẽ sẽ rất nhỏ khi đó. Thế giới dữ-liệu-lớn hiện tại của chúng ta chẳng bao lâu nữa sẽ trở nên kỳ quặc, cũng giống như 4 KB bộ nhớ cho phép ghi dữ liệu nằm trong máy tính điều khiển dẫn hướng Apollo 11 so với công nghệ của ngày hôm nay.

Những gì chúng ta có thể thu thập và xử lý sẽ luôn luôn chỉ là một phần nhỏ của các thông tin tồn tại trên thế giới. Nó chỉ có thể là một hình ảnh của hiện thực, như những cái bóng trên tường trong cái hang của Plato. Bởi vì chúng ta không bao giờ có được thông tin hoàn hảo, nên các dự đoán của chúng ta vốn dĩ luôn có thể sai lầm. Điều này không có nghĩa chúng là sai, chỉ là chúng luôn luôn không đầy đủ. Nó không phủ nhận những hiểu biết mà dữ liệu lớn cung cấp, nhưng nó đặt dữ liệu lớn vào đúng vị trí của nó – một công cụ không cung cấp các câu trả lời cuối cùng, mà chỉ những câu trả lời đủ tốt để giúp chúng ta bây giờ cho đến khi có được các phương pháp tốt hơn, và cùng với đó là các câu trả lời tốt hơn. Nó cũng cho thấy rằng chúng ta phải sử dụng công cụ này với rất nhiều sự khiêm nhường… và cả tính nhân văn nữa.

Bình luận