BigQuery import from GCS buckets #113

vinceatbluelabs · 2020-10-26T16:07:23Z

Right now we only have code to load data into BigQuery by streaming data over the network to it. This PR teaches it as well to be able to point to existing data in a GCS bucket.

This is important when data gets large - there are ways to move mass amount of data into a GCS bucket (e.g., GCP Cloud Data Transfer) that accomplish the goal much faster than trying to stream data down to your laptop and back up again. BigQuery is able to read from a bucket in parallel and over a much faster network in order to load data.

One major limitation remaining: all of the methods that Records Mover knows about to get data into that GCS bucket are inherently slow as they rely on streaming data down to Records Mover and then back up to the GCS bucket. In practice for large datasets (>100MB) folks will want to first get data into a GCS bucket and then use Records Mover.

Watch this space.

Depends on #120 and set to merge into it for clarity of diff.

records_mover/db/bigquery/bigquery_db_driver.py

records_mover/airflow/hooks/records_hook.py

records_mover/session.py

records_mover/db/bigquery/bigquery_db_driver.py

records_mover/db/redshift/redshift_db_driver.py

records_mover/db/vertica/unloader.py

records_mover/creds/base_creds.py

It's not needed anymore, presumably due to changes in the move() algorithm.

…dshift_load_when_bucket_load_not_available

tests/unit/creds/test_base_creds.py

tests/unit/db/bigquery/test_bigquery_loader.py

tests/unit/db/redshift/test_loader.py

crvena-sonja · 2020-11-11T05:29:11Z

tests/unit/test_session_choices.py

@@ -152,7 +158,8 @@ def test_select_lastpass_session_by_config(self,
                                                 default_boto3_session=PleaseInfer.token,
                                                 default_gcp_creds=PleaseInfer.token,
                                                 default_gcs_client=PleaseInfer.token,
-                                                 scratch_s3_url='s3://foo/')
+                                                 scratch_s3_url='s3://foo/',
+                                                 scratch_gcs_url='gs://bar/')


fiddler on the roof style singing TRADITION

crvena-sonja

Probably shouldn't do "late nite reviewing" like this but here we are.

Overall looks good. A few comments on test function naming but it feels less useful in some of these instances so it might not even be worth making the changes. Totally defer to you.

Co-authored-by: Sonja Duric <[email protected]>

bluelabsbutler · 2020-11-11T14:07:59Z

tests/unit/creds/test_base_creds.py

@@ -135,6 +135,34 @@ def test_s3_scratch_bucket_via_prefix_assumed_role(self,
        self.assertIsNone(out)
        mock_get_config.assert_called_with('records_mover', 'bluelabs')

+    @patch('records_mover.creds.base_creds.get_config')
+    @patch('records_mover.creds.base_creds.os')


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:00Z

tests/unit/creds/test_base_creds.py

@@ -135,6 +135,34 @@ def test_s3_scratch_bucket_via_prefix_assumed_role(self,
        self.assertIsNone(out)
        mock_get_config.assert_called_with('records_mover', 'bluelabs')

+    @patch('records_mover.creds.base_creds.get_config')
+    @patch('records_mover.creds.base_creds.os')
+    def test_gcs_scratch_bucket_configured_true(self,


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:01Z

tests/unit/creds/test_base_creds.py

+        mock_get_config.assert_called_with('records_mover', 'bluelabs')
+
+    @patch('records_mover.creds.base_creds.get_config')
+    @patch('records_mover.creds.base_creds.os')


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:02Z

tests/unit/creds/test_base_creds.py

+
+    @patch('records_mover.creds.base_creds.get_config')
+    @patch('records_mover.creds.base_creds.os')
+    def test_gcs_scratch_bucket_not_configured_true(self,


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:03Z

tests/unit/creds/test_base_creds.py

@@ -163,6 +191,36 @@ def test_s3_scratch_bucket_no_config_file(self,
        self.assertIsNone(out)
        mock_get_config.assert_called_with('records_mover', 'bluelabs')

+    @patch('records_mover.creds.base_creds.get_config')
+    @patch('records_mover.creds.base_creds.os')


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:04Z

tests/unit/creds/test_base_creds.py

@@ -163,6 +191,36 @@ def test_s3_scratch_bucket_no_config_file(self,
        self.assertIsNone(out)
        mock_get_config.assert_called_with('records_mover', 'bluelabs')

+    @patch('records_mover.creds.base_creds.get_config')
+    @patch('records_mover.creds.base_creds.os')
+    def test_gcs_scratch_bucket_no_config_file_true(self,


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:04Z

tests/unit/creds/test_base_creds.py

+        self.assertIsNone(out)
+        mock_get_config.assert_called_with('records_mover', 'bluelabs')
+
+    @patch('records_mover.creds.base_creds.os')


E128 continuation line under-indented for visual indent

bluelabsbutler · 2020-11-11T14:08:05Z

tests/unit/creds/test_base_creds.py

+        out = creds.default_scratch_gcs_url()
+        self.assertIsNone(out)
+
+    @patch('records_mover.creds.base_creds.os')


E128 continuation line under-indented for visual indent

vinceatbluelabs added 3 commits May 31, 2020 16:26

Initial code for BigQuery load from GCS bucket

ce8c7ac

Pass through scratch GCS URL information

4120880

Merge remote-tracking branch 'origin/master' into gcs_bigquery_load

a899713

bluelabsbutler reviewed Oct 26, 2020

View reviewed changes

records_mover/db/bigquery/bigquery_db_driver.py Outdated Show resolved Hide resolved

Allow GCS scratch bucket configuration

648dc19

bluelabsbutler reviewed Oct 26, 2020

View reviewed changes

records_mover/airflow/hooks/records_hook.py Outdated Show resolved Hide resolved

bluelabsbutler reviewed Oct 26, 2020

View reviewed changes

records_mover/session.py Outdated Show resolved Hide resolved

bluelabsbutler reviewed Oct 26, 2020

View reviewed changes

records_mover/session.py Outdated Show resolved Hide resolved

vinceatbluelabs added 3 commits October 26, 2020 14:34

Remove deletion of final directory in purge_directory()

79645cb

Improve error messages

76a128f

Allow configuration of project via env variable if not in creds

ee2d1dc

bluelabsbutler reviewed Oct 27, 2020

View reviewed changes

records_mover/db/bigquery/bigquery_db_driver.py Outdated Show resolved Hide resolved

bluelabsbutler reviewed Oct 27, 2020

View reviewed changes

records_mover/db/redshift/redshift_db_driver.py Outdated Show resolved Hide resolved

bluelabsbutler reviewed Oct 27, 2020

View reviewed changes

records_mover/db/vertica/unloader.py Outdated Show resolved Hide resolved

bluelabsbutler reviewed Oct 27, 2020

View reviewed changes

records_mover/creds/base_creds.py Outdated Show resolved Hide resolved

vinceatbluelabs added 12 commits October 27, 2020 18:05

Load via INSERT on Redshift when scratch bucket not available

a66f4db

Add TODO

d20d77f

Retire SupportsMoveFromTempLocAfterFillingIt from DataUrlTarget

e4bd0ea

It's not needed anymore, presumably due to changes in the move() algorithm.

Merge remote-tracking branch 'origin/retire_protocol' into do_slow_re…

f53587a

…dshift_load_when_bucket_load_not_available

Add comment

ef0b8c1

Implement for Vertica

643ee51

TODONE

2ec1930

Fix refactored logic

97dc95c

Revert change

575a3cd

Refactor

3314b64

Clean up and drop TODOs

ce9371e

Fix tests

66a5f2f

vinceatbluelabs mentioned this pull request Oct 28, 2020

Load via INSERT on Redshift when scratch bucket not available #114

Merged

vinceatbluelabs added 2 commits October 27, 2020 20:10

Fix unused import

bdd6099

Fix flake8 issues

7b239cb

vinceatbluelabs requested a review from crvena-sonja November 11, 2020 02:17

crvena-sonja reviewed Nov 11, 2020

View reviewed changes

tests/unit/creds/test_base_creds.py Outdated Show resolved Hide resolved