Friday, April 27, 2018

SQL trở lại quyết đấu NoSQL và tương lai của dữ liệu

SQL đã trở lại sau nhiều năm bị bỏ mặc. Thế quái nào? Và ảnh hưởng của việc này đến cộng đồng data?

Từ những ngày đầu của kỷ nguyên máy tính, chúng ta đã từng thu thập một lượng dữ liệu càng ngày càng lớn, liên tục đòi hỏi nhiều hơn về năng lực của công nghệ xử lý, phân tách và lưu trữ dữ liệu.
Trong thập kỷ qua, nguyên nhân này khiến cho các developer bỏ qua SQL để hướng tới một thứ có các đặc tính có thể mở rộng được là NoSQL: MapReduce và Bigtable, Cassandra, MongoDB…

Tuy nhiên, SQL đang dần trở lại. tuốt luốt các nhà cung cấp dịch vụ cloud lớn hiện giờ đều offer database dạng này như Amazon RDS, Google Cloud SQL, Azure Database for PostgreSQL (Azure chỉ vừa mới launch trong năm nay). Theo cách riêng của Amazon, Aurora database (compatible với MySQL-PostgreSQL) trở nên dịch vụ có tốc độ tăng trưởng nhanh nhất lịch sử AWS.
SQL interface bên trên lớp Hadoop/Spark nối phát triển. Và chỉ mới tháng trước, Kafka đã hỗ trợ SQL.

Trong bài viết này, chúng tôi sẽ thẩm tra tại sao tình thế lại xoay chuyển trở lại với SQL, và ý nghĩa của việc này đối với giới data engineering và analysis
Phần 1: Một niềm hy vọng mới


Để hiểu tại sao SQL trở lại, hãy bắt đầu ở khởi điểm với lý do vì sao nó được thiết kế
Câu chuyện bắt đầu tại IBM Research trong thời kỳ đầu của thập niên 70, nơi mà cơ sở dữ liệu quan hệ ra đời. Vào thời khắc đó, ngôn ngữ truy dựa vào logic toán học và ký hiệu. Hai tấn sĩ Donald Chamberlin và Raymond Boyce đã bị ấn tượng bởi mô hình dữ liệu quan hệ, nhưng cũng thấy rằng ngôn ngữ tầm nã sẽ là một nút thắt ngăn trở việc áp dụng nó.
Họ đã thiết kế một tiếng nói truy tìm mới (theo cách của họ): “dễ tiếp cận hơn cho người học lập trình web mà không cần được đào tạo chính quy về toán học hoặc lập trình máy tính.”
Trước thời kỳ của Internet và máy tính cá nhân chủ nghĩa, khi mà tiếng nói lập trình C được giới thiệu với thế giới, hai nhà khoa học máy tính trẻ nhận ra rằng, “phần lớn sự thành công của ngành công nghiệp máy tính phụ thuộc vào việc phát triển một nhóm người dùng phổ biến khác, ngoài việc đào tạo các chuyên gia máy tính”.

Họ muốn một tiếng nói tróc nã dễ hiểu như tiếng Anh, và cũng bao gồm hệ quản trị cơ sở dữ liệu và thao tác.
Kết quả là SQL, lần đầu tiên được giới thiệu với thế giới vào năm 1974. Trong vài thập kỷ sau đó, SQL đã chứng minh được sự phổ biến rộng rãi. Khi các cơ sở dữ liệu quan hệ như System R, Ingres, DB2, Oracle, SQL Server, PostgreSQL, MySQL (và nhiều hơn nữa) đã tiếp quản ngành công nghiệp phần mềm, SQL đã trở thành ngôn ngữ ưu việt để tương tác đến cơ sở dữ liệu với cộng đồng đông đảo và hệ sinh thái cạnh tranh.
(Đáng buồn, Raymond Boyce chưa bao giờ có dịp chứng kiến sự thành công của SQL và chết vì chứng phình mạch não 1 tháng sau khi đưa ra một trong những bài thuyết trình SQL sớm nhất, chỉ 26 tuổi, để lại vợ và con gái).
Trong một tuổi, chừng như SQL đã hoàn thành thành công sứ mệnh của nó. Nhưng sau đó Internet ra đời.

Phần 2: NoSQL kháng cự

Trong khi Chamberlin và Boyce đang tụ tập phát triển SQL, họ không nhận ra là nhóm kỹ sư thứ hai ở California khi ấy đang làm việc cho một dự án khác mà sau đó nó lan rộng và đe doạ sự tồn tại của SQL. Dự án đó là ARPANET, và vào ngày 29 tháng 10 năm 1969, nó đã ra đời.
Nhưng SQL đã thực sự tốt cho đến khi một kỹ sư khác xuất hiện và phát minh ra World Wide Web, vào năm 1989.
Giống như một loại cỏ dại, Internet và Web đã phát triển mạnh mẽ, phá vỡ thế giới của chúng ta bằng nhiều cách, nhưng đối với cộng đồng dữ liệu, nó gây ra một vấn đề nhức đầu: nhiều nguồn tạo ra dữ liệu mới với khối lượng và véc tơ vận tốc tức thời cao hơn trước.
Khi Internet tiếp tục phát triển và phát triển, cộng đồng phần mềm đã phát hiện ra rằng cơ sở dữ liệu quan hệ lúc đó chẳng thể xử lý nổi. Có một sự hỗn loạn, kiểu như hàng triệu database đột kêu khóc và bị quá tải.

Sau đó, hai gã đồ sộ mới của Internet đã đột phá và phát triển các hệ thống non-relational phân tán của riêng họ để giúp giải quyết vấn đề này: MapReduce (xuất bản năm 2004) và Bigtable (xuất bản 2006) của Google và Dynamo (xuất bản năm 2007) của Amazon.

Các tài liệu này đã dẫn tới nhiều cơ sở dữ liệu non-relational khác, bao gồm Hadoop (dựa trên MapReduce paper, 2006), Cassandra (lấy cảm hứng từ cả hai bài báo Bigtable và Dynamo, 2008) và MongoDB (2009). do đây là những hệ thống mới được viết từ đầu, họ cũng tránh SQL, dẫn đến sự gia tăng của phong trào NoSQL.

Thật dễ hiểu vì sao: NoSQL mới và sáng bóng; hẹn về scale và power; nó chừng như là con đường nhanh chóng để thành công về kỹ thuật. Nhưng rồi những vấn đề bắt đầu xuất hiện.
Các nhà phát triển sớm nhận ra rằng không có SQL đích thực là khá hạn chế. Mỗi cơ sở dữ liệu NoSQL cung cấp ngôn ngữ tầm nã độc nhất của riêng mình, có tức là nhiều ngôn ngữ hơn để học (và dạy cho đồng nghiệp của bạn); gia tăng sự khó khăn trong việc kết nối các cơ sở dữ liệu này với các ứng dụng, dẫn đến dính theo hàng tấn code; thiếu hệ sinh thái của bên thứ ba, đòi hỏi các công ty phải phát triển các công cụ vận hành và trình diễn dữ liệu riêng.
Những tiếng nói NoSQL mới cũng không được phát triển đầy đủ. tỉ dụ, để thêm tính năng JOIN của SQL vào NoSQL rất phức tạp ở tầng application. Sự thiếu JOINs cũng dẫn đến sự không thường ngày, dẫn đến sự sụp đổ và chu toàn của dữ liệu.
Một số cơ sở dữ liệu NoSQL đã thêm các ngôn ngữ truy “giống SQL”, như CQL của Cassandra. Nhưng điều này thường gây ra vấn đề tối dạ hơn. sử dụng một giao diện gần giống với một cái gì đó phổ thông hơn, thực thụ ám ảnh về mặt tinh thần: các kỹ sư không biết những gì đã được tương trợ và những gì không được.
Một số trong cộng đồng đã nhận thấy những vấn đề với NoSQL từ sớm (thí dụ, DeWitt và Stonebraker trong năm 2008). Theo thời kì, càng ngày càng có nhiều nhà phát triển phần mềm nhận ra chiều này.

Phần 3: Sự trở lại của SQL

Ban đầu bị hấp dẫn bởi “lực lượng bóng tối”, cộng đồng phần mềm bắt đầu nhìn thấy ánh sáng và trở lại với SQL.
đầu tiên là các giao diện SQL bên trên Hadoop/Spark, hướng NoSQL thành “Not only SQL”
Sự phát triển của NewSQL: cơ sở dữ liệu mới, có thể mở rộng và tương trợ SQL. H-Store (xuất bản năm 2008) của MIT và các nhà nghiên cứu ở Brown lần đầu tiên thực hành mở rộng các cơ sở dữ liệu OLTP . Google tiếp chuyện dẫn đầu việc nhân rộng cơ sở dữ liệu có giao diện SQL với bản ít trước hết của họ (xuất bản năm 2012) (những tác giả bao gồm các tác giả gốc MapReduce), tiếp theo là những người tiền phong khác như CockroachDB (2014).
Đồng thời, cộng đồng PostgreSQL bắt đầu hồi sinh, bổ sung các cải tiến quan yếu như kiểu dữ liệu JSON (2012) và một loạt các tính năng mới trong PostgreSQL 10: hỗ trợ tốt hơn cho phân vùng và replication, tương trợ độ văn bản toàn diện cho JSON và hơn thế nữa (dự định phát hành cuối năm nay). Các công ty khác như CitusDB (2016) và Yours Truly (TimescaleDB, phát hành trong năm nay) đã tìm ra những cách mới để mở mang PostgreSQL cho các data workload chuyên biệt.
Trên thực tế, hành trình phát triển TimescaleDB của chúng tôi phản ảnh chặt đẹp con đường mà ngành công nghiệp đã sang. Các phiên bản nội bộ trước hết của TimescaleDB bao gồm tiếng nói truy vấn SQL-like, gọi là “ioQL.” Vâng, chúng tôi cũng bị cám dỗ bởi mặt tối: việc xây dựng ngôn ngữ truy riêng của chúng tôi có cảm tưởng là sẽ mạnh mẽ. Tưởng như dễ dàng, chúng tôi lại sớm nhận ra rằng chúng ta phải làm nhiều việc hơn: tỉ dụ, quyết định cú pháp, xây dựng các kết nối khác nhau, giáo dục người dùng … Chúng tôi cũng tìm thấy chính mình liên tục trên dưới cú pháp thích hợp với tróc nã mà chúng tôi đã có thể biểu thị bằng SQL, cho một ngôn ngữ tróc nã mà chúng tôi đã chính tay viết ra!

Một ngày chúng tôi nhận ra rằng xây dựng ngôn ngữ truy tìm riêng của chúng tôi không có ý nghĩa. Đó chính là chìa khóa dẫn đến ưng ý SQL. Và đó là một trong những quyết định thiết kế tốt nhất mà chúng tôi đã thực hành. tức thì một thế giới hoàn toàn mới mở ra. ngày nay, dù rằng TimescaleDB chỉ là một cơ sở dữ liệu 5 tháng tuổi, người dùng có thể dùng trong production và nhận được tất tật các điều ráo: công cụ trực giác (Tableau), kết nối với các ORM phổ quát, một loạt các tools và các tùy chọn sao lưu, chỉ dẫn phong phú và trả lời syntax trực tuyến, v.v.

Nhưng đừng tin chúng tôi. Hãy thử tìm hiểu về Google
Google rõ ràng là người tiền phong trong lĩnh vực cơ sở dữ liệu và cơ sở hạ tầng trong hơn một thập kỷ nay. Nó khiến chúng tôi chú ý đến những gì họ đang làm.
Xem paper của Google(Spanner), phát hành cách đây chỉ bốn tháng (Spanner: Becoming a SQL System, May 2017), và bạn sẽ thấy rằng nó củng cố các phát hiện của chúng tôi.
thí dụ: Google đã bắt đầu xây dựng trên Bigtable, nhưng sau đó phát hiện ra rằng việc thiếu các vấn đề tạo SQL (nhấn mạnh trong quờ quạng các trích dẫn dưới đây của chúng tôi):

“dù rằng các hệ thống này cung cấp một số lợi. của một hệ thống cơ sở dữ liệu, nhưng họ thiếu nhiều tính năng cơ sở dữ liệu truyền thống mà các nhà phát triển áp dụng thường dựa vào. Một tỉ dụ quan yếu là một ngôn ngữ tróc nã mạnh mẽ, có tức thị các nhà phát triển phải viết mã phức tạp để xử lý và tổng hợp dữ liệu trong các áp dụng của họ. Do đó, chúng tôi đã quyết định biến Spanner thành một hệ thống SQL đầy đủ tính năng, với việc thực hiện truy vấn được tích hợp chặt chịa với các tính năng kiến trúc khác của Spanner (như tính nhất quán mạnh mẽ và nhân rộng toàn cầu). “

Sau đó trong bài báo họ tiếp feature các lý do chuyển đổi từ NoSQL sang SQL:

API gốc của Spanner đã cung cấp các NoSQL methods để lục vấn và quét dãy các bảng riêng lẻ và xen kẽ nhau. Trong khi NoSQL methods cung cấp một path đơn giản để khởi chạy Spanner, và tiếp chuyện hữu ích trong các kịch bản thu hồi kết quả đơn giản, SQL đã cung cấp giá trị bổ sung đáng kể trong việc bộc lộ các mẫu truy cập dữ liệu phức tạp hơn và đẩy tâm tính vào dữ liệu.

Bài báo cũng diễn đạt cách họ không ngừng nghỉ vận dụng SQL vào Spanner, mở mang ra bít tất phần còn lại của Google, nơi mà nhiều hệ thống hiện có chung một phương ngữ SQL:

SQL engine của Spanner san sớt một phương ngữ SQL phổ thông, được gọi là “Standard SQL”, với một số hệ thống khác của Google bao gồm các hệ thống nội bộ như F1 và Dremel (các hệ khác) và các hệ thống bên ngoài như BigQuery …
Đối với người dùng Google, điều này làm giảm rào cản làm việc giữa các hệ thống. Nhà phát triển hoặc nhà phân tích dữ liệu có thể viết SQL trong cơ sở dữ liệu Spanner để transfer sự hiểu biết của họ về ngôn ngữ này sang Dremel mà không quan hoài đến sự khác biệt nhỏ về syntax, xử lý NULL, v.v …

Sự thành công của cách tiếp cận này nói lên bản thân nó. Spanner đã là “suối nguồn chân lý” cho các hệ thống lớn của Google, bao gồm cả AdWords và Google Play, trong khi khách hàng tiềm năng của đám mây quan hoài đến việc sử dụng SQL.
Xét rằng Google đã giúp đề xướng phong trào NoSQL, thì điều đáng để ý là hiện tại, họ đang nắm bắt SQL .

Điều này có ý nghĩa gì đối với tương lai của data?

Trong computer networking, có một khái niệm gọi là “narrow waist”.
Ý tưởng này xuất hiện để giải quyết một vấn đề mấu chốt: Trên bất kỳ thiết bị nối mạng nào, hãy mường tưởng một ngăn xếp, với các lớp phần cứng ở dưới cùng và các lớp phần mềm trên đầu. Có thể tồn tại một loạt các phần cứng mạng; hao hao có thể tồn tại một loạt các phần mềm và vận dụng. Cần một cách để đảm bảo rằng bất kể vấn đề về phần cứng, phần mềm vẫn có thể kết nối với mạng; và bất kề vấn đề về phần mềm, phần cứng mạng vẫn biết cách xử lý các yêu cầu mạng.
Trong thế giới mạng, vai trò của narrow waist được thực hiện bởi Internet Protocol (IP), đóng vai trò như một giao diện chung giữa các giao thức mạng cấp thấp được thiết kế cho mạng cục bộ và các giao thức vận dụng và giao thức cấp cao hơn. Giao diện chung này đã trở thành tiếng nói giữa các máy tính, cho phép các mạng kết nối, thiết bị truyền thông và “mạng lưới các mạng” này phát triển thành Internet phong phú và đa dạng ngày nay.

Chúng tôi tin rằng SQL đã trở nên narrow waist để phân tách dữ liệu.

Chúng ta đang sống trong thời đại mà dữ liệu đang trở nên “nguồn tài nguyên quý nhất thế giới” (The Economist, tháng 5 năm 2017). Kết quả là, chúng ta đã chứng kiến ​​sự bùng nổ của các cơ sở dữ liệu chuyên dụng Cambri (OLAP, time-series, document, graph, etc.), các dụng cụ xử lý dữ liệu (Hadoop, Spark, Flink), data buses (Kafka, RabbitMQ). càng ngày càng nhiều vận dụng cần dựa vào hạ tầng cơ sở dữ liệu này, kể cả là các phương tiện trực giác hoá dữ liệu của bên thứ ba (Tableau, Grafana, PowerBI, Superset), các web frameworks (Rails, Django) hay các custom-built data-driven applications.
Giống như networking, stack phức tạp với cơ sở hạ tầng ở dưới cùng và các ứng dụng bên trên. Thông thường, chúng ta sẽ viết rất nhiều code để làm cho stack hoạt động và chúng cần phải được maintain.

Những gì chúng ta cần là một giao diện chung cho phép các phần của stack này giao thông với nhau. Một điều gì đó đã được chuẩn hóa trong ngành. Cái gì đó sẽ cho phép chúng ta bàn bạc trong / ngoài các lớp khác nhau với thất thoát tối thiểu.

Đó là sức mạnh của SQL. Giống như IP, SQL là một giao diện chung.

Nhưng SQL đích thực khác biệt hơn IP. vày dữ liệu cũng được phân tách bởi con người. Và đúng với mục đích mà người sáng tạo ra SQL gán cho nó thuở ban sơ: SQL có thể đọc được.
SQL hoàn hảo? Không, nhưng đó là ngôn ngữ mà hầu hết chúng ta biết. Và mặc dầu đã có các kỹ sư đang làm việc trên giao diện tiếng nói thiên nhiên hơn, những hệ thống này sau đó sẽ kết nối với những gì? Yes, SQL.

thành ra, có một lớp ở trên cùng của stack. Và lớp đó là chúng ta.

SQL đã trở lại

SQL đã trở lại. do thế giới đang đầy ắp dữ liệu. Nó vây quanh và kết liên mọi người. Lúc đầu, chúng ta dựa vào các giác quan của con người và hệ thần kinh cảm giác để xử lý nó. giờ phần mềm và các hệ thống phần cứng cũng đủ sáng dạ, sự phức tạp của các hệ thống lưu trữ, xử lý, phân tích…chúng thu thập dữ liệu ngày càng nhiều hơn để hiểu rõ hơn về thế giới của chúng ta.

No comments:

Post a Comment