Thời gian sau
đó trên tường Facebook (News feed) của tôi thỉnh thoảng lại xuất hiện ảnh hay
bài đăng của... vợ các bạn tôi, thực tế không có liên hệ đã rất lâu. Các
bạn gái này thường là xinh đẹp và chụp
ảnh đáng yêu. Vợ tôi cũng quan tâm hỏi han làm tôi rất khó giải thích. Tìm
hiểu kĩ hơn một chút, tôi nghĩ rằng
rất nhiều người bạn khác của mình hẳn là đã nhấn xem hoặc like những bức
ảnh này, và thuật toán của Facebook có lẽ đánh giá rằng nếu các bạn tôi thích
thì chắc là tôi cũng vậy nên đưa chúng lên tường của tôi...
Mức độ "học"
và "hiểu" về chúng ta hiện nay của máy tính quả thực là đáng kinh ngạc.
Nghiên cứu gần đây từ đại học Cambride và Stanford chỉ ra rằng chỉ cần chúng ta
nhấn khoảng 100 like trên Facebook, là thuật toán đã có thể hiểu về
chúng ta hơn là một người bạn thực sự.
Bạn đời hiểu chúng ta đến mức nào? Các nghiên cứu nhận định: chỉ tương đương với
300 Facebook like.
Tất cả mọi thứ
trên Internet, từ website, mạng xã hội, ứng dụng... dường như đều hiểu những gì chúng ta muốn
xem, muốn nghe, muốn đi, muốn đọc và cung cấp
rất kịp thời. Tuyệt vời hơn,
phần lớn đều là miễn phí.
"Nếu bạn
không phải trả tiền, thì thực tế bạn chính là sản phẩm" - "If
you are not paying for it, you are the product".
Câu nói này xuất phát trong bối cảnh của ngành truyền
hình ở thế kỷ trước. Với vốn đầu tư
rất lớn vào mạng lưới thiết bị cùng nội dung, cách phổ biến để các đài truyền hình
có thể cung cấp dịch vụ miễn phí là bán quảng cáo. Nói cách khác, người xem ở đây chính là "sản phẩm"
mà các hãng truyền hình bán cho các công ty thuê họ quảng cáo.
Những năm đầu thế kỉ 21 chứng kiến sự phát triển vượt bậc
về công nghệ thông tin, Internet và đặc biệt là về công nghệ thu thập và xử lý
dữ liệu. Khái niệm "you are the product" - "bạn là sản phẩm",
lúc này được mở rộng đến mức có thể coi là vô tận về mặt tiềm năng.
Để thu thập dữ liệu khách hàng, các công ty dữ liệu đa quốc
gia sẵn sàng cung cấp các sản phẩm với chất lượng rất cao như Tìm kiếm, Thư điện tử, Bản đồ điện tử, Mạng xã hội vân vân hoàn toàn miễn phí. Họ
nắm lượng dữ liệu lớn nhất, nắm những
công nghệ xử lý dữ liệu tiên tiến nhất, nắm những hạ tầng tính toán dữ
liệu lớn nhất. Khác với truyền hình, họ thực sự làm chủ dữ liệu một cách chủ động
và toàn diện.
Về lý thuyết, tiềm năng sử dụng dữ liệu có thể coi là
không giới hạn. Lấy ví dụ hệ dữ liệu của một mạng xã hội với khoảng vài triệu
khuôn mặt cùng với các thông tin liên quan như số like, trạng thái (status), bài viết (post), bình luận (comment)
cùng đủ mọi loại dấu vết điện tử (digital footprint) mà người dùng để lại một cách vô thức. Với hệ dữ liệu
này, thuật toán có thể "học" và "hiểu" từ những thông tin
có phần vô hại như kiểu bạn thích hay ghét một ca sĩ, đến những thông tin rất hữu
ích như phát hiện từ sớm một loại ung thư hiếm khi được kết hợp với các dữ liệu
y học. Hơn nữa, nếu hệ dữ liệu có đủ tính đa dạng thì khả năng "hiểu" sau khi đã "học"
này có thể mở rộng lên toàn bộ dân số, kể
cả những người chưa từng tham gia mạng
xã hội.
Nhưng, cũng với
hệ dữ liệu ở trên, thuật toán cũng có thể "hiểu" về những thông tin
nhạy cảm như quan điểm chính trị của bạn (ủng hộ Đảng nào, chính trị gia nào),
hay thậm chí là những phức tạp giới tính. "Trông mặt mà bắt hình
dong", máy móc chỉ cần nhìn khuôn mặt đã biết bạn ủng hộ lãnh tụ nào, hay
bạn có phải là người đồng giới hay
không. Những thông tin kiểu như vậy có thể chỉ là sự xấu hổ ở Việt Nam, nhưng ở
những chính thể độc tài khắc nghiệt hoặc tôn giáo cực đoan thì nó rất có
thể gần với sự sống và chết.
Ngày nay, dữ liệu không chỉ được bán cho các hệ thống quảng
cáo, mà như thực tế chỉ ra, dữ liệu
và thông tin chuyển hóa từ nó có thể được sử dụng cho cả các mục tiêu chính trị
như trong vụ Cambride Analytica, khi Facebook để lộ thông tin 50 triệu người dùng...
Sẽ ra sao nếu người nắm quyền chi phối và "mớm" suy nghĩ cho đám đông
Việt Nam lại là những lực lượng chính trị từ bên ngoài, có khả năng tiếp cận lượng
dữ liệu này? Ngay cả khi các công ty đa quốc gia có tuyên bố tuân thủ chặt chẽ
việc bảo vệ dữ liệu người dùng, thì vẫn có những quốc gia rất giỏi trong
việc buôn bán, đánh cắp dữ liệu và sử dụng nó cho mục tiêu chính trị, chi phối
các nước khác.
Sự phát triển
nhanh chóng của công nghệ trí tuệ nhân tạo (Artificial Intelligence, AI) và Học
máy (Machine Learning) trong khoảng 15 năm trở lại đây đóng góp rất lớn vào khả
năng phân tích và xử lý dữ liệu, đặc biệt là công nghệ Học sâu (Deep
learning). Học sâu có khả năng "học" và "hiểu" những cấu
trúc dữ liệu rất phức tạp, ví dụ như
hình ảnh, video hay ngôn ngữ, nếu cung cấp cho nó số lượng dữ liệu đủ lớn.
"Dữ liệu
là loại dầu mới (Data is the new oil)" là thuật ngữ rất phổ biến trong giới
công nghệ AI hiện nay. Thực tế các hoạt động khai thác dữ liệu của các công ty
dữ liệu đa quốc gia hiện tại có đặc điểm rất giống với các công ty khai thác dầu
khí quốc tế. Cách các công ty dữ liệu đa quốc gia cung cấp miễn phí hạ tầng
(máy chủ, trung tâm dữ liệu, thậm chí Wifi) cùng các sản phẩm phần mềm hay thuê
nhân viên bản địa để thu thập dữ liệu khách hàng không khác gì việc các
công ty khai thác dầu khí quốc tế phải mang máy móc, dàn khoan, nhân công đến
nước sở tại để thực hiện công việc khai thác dầu.
Ở đây có sự khác biệt tế nhị, đó là các công ty khai thác
dầu khí quốc tế phải trả tiền phí nhượng quyền (royalty) cho chủ đất, ở đây là đất nước mà họ khai thác dầu ở
đó. Các công ty dữ liệu đa quốc gia thì không, hay ít nhất là chưa. Về phía người dân, chúng ta cũng không
nhận được gì ngoài những dịch vụ miễn phí - thực chất là các công cụ bắt
buộc phải cung cấp nếu muốn khai thác dữ liệu. Đổi lại chúng ta bị
"bán" cho những công ty thuê quảng cáo, các chi phí quảng cáo trước sau cũng sẽ tìm đường quay lại
về người trả tiền cuối cùng, chính là những người dân bình thường.
Đặc điểm chính
của khai thác dữ liệu dựa trên Học máy/Học sâu là lợi thế rất lớn cho những người
đi tiên phong, đặc biệt khi đó là những công ty lớn với nguồn lực gần như vô hạn
về tính toán, về nhân tài. Mỗi lần chúng ta thực hiện một thao tác tìm
kiếm và nhấn vào đường link trên các website tìm kiếm, chúng ta giúp cho thuật
toán tìm kiếm và hiển thị các quảng cáo liên quan của họ chính xác hơn.
Tương tự cách
chúng ta tương tác với những trợ lý ảo, càng nói chuyện, càng ra lệnh sẽ
làm cho chúng ngày càng thông minh hơn, hiểu chúng ta hơn. Trợ lý ảo Google nay đã cung cấp hỗ trợ tiếng
Việt, và sẽ không có gì ngạc nhiên nếu nó trở thành trợ lý ảo mặc định của người
Việt trong vài năm tới.
Không thể phủ nhận những lợi ích to lớn của các sản phẩm
mà các công ty dữ liệu đa quốc gia mang lại nhưng với cơ sở dữ liệu lớn, khả
năng tính toán mạnh cùng đội ngũ nhân viên tài năng, việc một ngày họ có thể
"học" và "hiểu" phản ứng hay suy nghĩ không chỉ khách hàng
của họ, mà là toàn bộ dân số, hơn và
trước bất kì một chính phủ nào là khả năng có thật...
Bài học từ vụ Cambridge Analytica chỉ ra rằng ngay cả
chính những công ty dữ liệu đa quốc gia lớn cũng không thể hình dung được dữ liệu
của họ có thể được/bị sử dụng theo cách nào. Do đó, về góc độ quản lý nhà nước, cần có sự quan tâm nghiên cứu thấu
đáo hơn nữa về ảnh hưởng của dữ liệu, để từ đó có các giải pháp quản lý
phù hợp với các công ty dữ liệu hoạt động xuyên biên giới, cũng như các hình thức tuyên truyền đơn giản
dễ hiểu để giúp người dân nhận thức đấy đủ và có trách nhiệm hơn với dữ liệu cá nhân.
NGUYỄN VIỆT LINH
Nguồn: VnExpress
Không có nhận xét nào:
Đăng nhận xét