-
Notifications
You must be signed in to change notification settings - Fork 61
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
spark etl 驗收內容 #1296
Comments
@wycccccc 感謝幫忙建立議題,那四項大致上沒錯,另外要請你針對那四項寫一個報告放到此專案,私下的報告格式則是要投影片。不過我們可以先完成要推到此PR的測試報告,然後在剪貼成投影片就好 |
有一個問題想要問一下學長,我嘗試將file path通過ftp的方式,類似於 |
測試報告的部分別用 ftp,那會成為效能瓶頸。將資料複製到所有節點,並且將資料掛載到容器內,從“本地”檔案來創建 spark streaming,這樣可以避免掉“來源的效率問題”,也就是讓我們把報告的重點放在“資料處理”和“資料傳輸到kafka” |
我嘗試將資料文件夾按如下方式掛載到spark_worker中:
然後sourcePath配置爲/home/kafka/spark2kafkaTest/ImportcsvTest/source 但它似乎還是沒找到sourcePath裏的資料,是我哪裡沒處理好嘛 |
可否先把這個功能放到腳本上然後發一隻PR(要用通用一點的參數名稱),我們先確定各個 spark worker 有看到路徑 |
學長我算了一下,目前兩個worker,10GB資料會花費時間是2分55秒。replica 1 的情況下產生到叢集的資料爲36GB 這就有了一個問題,在做實驗的過程中,我製造一個負載全力往一個Broker打資料,對結果根本沒有影響。。。哪怕我再加一個worker也只能對一個Broker的負載增加到102MB/s。我擔心對於1GB的頻寬基本也沒影響。 或許我可以把網路空改到2.5G再做實驗可能會有效果。這樣可以嗎。 |
學長沒救了,發現一個叢集的新坑,以前可以通過換網路口將頻寬從10G降到2.5G,現在這招不行了,換到2.5G的口從外面都ping不到這臺機器。(可能因爲這幾天的搬遷動到了什麼東西)。1跟2的資料已經收集完成,我之後研究下能不能連回來做3的實驗吧。 |
麻煩多試著測試一些狀況,例如反過來ping能不能通 |
@Haser0305 我把這個議題指定給你,請盡力在月底前完成~ |
可否先試著不要用 spark,直接用 perf 打打看是不是也有一樣的狀況 |
我又測試了幾次,並且換了不同的節點作為負載高的節點。 |
時間關係,這部分先緩著,我們先把報告做一個版本出來,依照描述中提到的部分,做一個頁面然後先發隻PR給我看一下 |
目前缺少抽檢的圖片在台式機中,我今日隔離結束後,回家再補上。有需要修改的地方我再儘快修正。 |
Kafka 的叢集規模多大?另外可否試試看用 local lode 跑跑看 spark 看看效能如何 |
由於時辰的關係,這個功能會從 0.1.0 release 中移除 |
感謝,接下來要去解析一下這段流程主要花費的時間在哪裡 |
好,我再進行測試看看是哪裡在吃時間 |
所以應該是從硬碟撈資料這段太慢嗎? |
結論上是的,從硬碟上撈csv會發生EOFException,spark處理該exception會用掉大量時間。講結論的話就是這段太慢。 |
將此議題涵蓋到 0.2.0,我們需要重新審視從“來源拉資料”這一段的效能,查看是硬碟提供的速度太慢還是我們做資料轉換 (binary to csv) 的部分有問題 |
在spark standalone mode 下對etl進行如下測試
=========================================================
@chia7712 有漏掉的部分我再補充
The text was updated successfully, but these errors were encountered: