{eval=Array;=+count(Array);}
如果數據量小的表,這樣的設計意義不大,而且當然是單表速度快。若在大數據量情況下,設計非常有意義。在多表連接中注意數據的條目和外健,避免出行大量冗余數據導致性能下降。下面我以Oracle講講數據查詢的整個過程技術。
由于數據分布到數據塊,在大量數據設計中可以將數據存儲于多個數據塊,在高并發進程的隨機訪問的情況下,能有效減少塊沖突 同樣的數據需要更多的數據塊來存儲,由于數據塊的塊頭元信息大小固定,所以需要更多的空間來存儲塊頭元信息。行長度過大容易導致行連接,從而導致Oracle獲取數據塊的效率降低 ,在行長度固定的前提下,單塊能夠存儲更多的數據行,也就意味著Oracle一次I/O能讀取更多的數據行。適合連續順序讀或者存放大對象數據(如LOB數據) 由于大數據塊可以存放更多的索引葉節點信息,容易引起爭用,所以大數據塊不適合存放索引葉節點信息。
大量數據表的數據庫參數設置DB_FILE_MULTIBLOCK_READ_COUNT表示Oracle一次順序I/O讀操作最多能讀取的數據塊塊數。該參數的默認值隨操作系統的不同而不同。在全表掃描或者索引快速掃描比較多的系統中(如DSS系統),建議將該值設置得較大。但是DB_FILE_MULTIBLOCK_READ_COUNT參數受操作最大單次I/O大小的限制,大多數操作系統單次讀操作的大小不能超過1MB,這也就意味著在8KB數據塊大小的情況下,該參數最大值為128。值得一提的是,該參數的大小還會影響Oracle CBO對執行計劃的評估,如果設成較大值,Oracle的執行計劃傾向于全表掃描。當該參數設置為0或者保持默認時,CBO假設全表掃描時最多能連續讀取8個數據塊。從Oracle 11R2開始,DB_FILE_MULTIBLOCK_READ_COUNT的取值算法如下:
db_file_multiblock_read_count = min(1048576/db_block_size , db_cache_size/
(sessions * db_block_size))
注意 數據庫參數BLOCK_SIZE在設定之后,在數據庫生命周期內不可更改。
當執行SELECT語句時,如果在內存里找不到相應的數據,就會從磁盤讀取進而緩存至LRU末端(冷端),這個過程就叫物理讀。當相應數據已在內存,就會邏輯讀。我物理讀是磁盤讀,邏輯讀是內存讀;內存讀的速度遠比磁盤讀來得快。
下面將本人大數據分區設計截圖,為大家參考學習。
先貼倆圖鎮鎮場。
對于內連接,使用單個查詢是有意義的,因為你只獲得匹配的行。
對于左連接,多個查詢要好得多。
看看下面的基準測試:
5個連接的單個查詢
查詢:8.074508秒
結果大小:2268000
一行5個查詢
組合查詢時間:0.00262秒
結果大小:165 (6 + 50 + 7 + 12 + 90)
注意,我們在兩種情況下得到了相同的結果(6 x 50 x 7 x 12 x 90 = 2268000)
對于冗余數據,左連接使用更多的內存。
如果只執行兩個表的連接,那么內存限制可能沒有那么糟糕,但通常是三個或更多的表,因此值得進行不同的查詢。
用過Laravel嗎?還記得 Eloquent ORM模型嗎?
不知道有沒有注意到,debug所打印出來的多表聯合查詢,
都是拆分為“單個表查詢”,然后使用PHP處理的。
Happy coding :-)
我是@程序員小助手,持續分享編程知識,歡迎關注。
是做表連接查詢還是做分解查詢要具體情況具體分析。
如果數據庫的結構合理,索引設計得當,表連接的效率要高于分解查詢。比如,在有外鍵的時候,數據庫可以為外鍵建表并建立索引從而提升多個表連接查詢的效率。另外,多表連接查詢不需要把數據傳輸到應用程序中,直接在數據庫端執行,這在很大程度上提升了效率。
但是多表連接也有一些缺點。多表連接對表結構的依存度很高,只要表結構出現變更就會同時對數據庫檢索和應用處理兩個部分產生較大影響。另外,多表連接的兼容性不好,數據庫不同SQL文也多少有些差異。而且采用分散數據庫的時候,實現多表連接即麻煩又沒有什么好處。因此,一些大型系統或者是支持多種類數據庫的系統一般不會使用多表連接,而傾向于采用分解查詢。
這個得看情況,一般數據不大的情況下多表連接查詢和多次單表查詢的效率差不多。如果數據量足夠大,那肯定是多次單表查詢的效率更高。在很多大的公司里面,都會禁用多表連接查詢,原因就是一旦數據量足夠大的時候多表連接查詢效率會很慢,而且不利于分庫分表的查詢優化。那么看一下下面這個例子。
我這里有一個數據庫,我們拿里面的客戶表和地區表做兩種查詢的對比。用戶表數據是31萬條,地區表3511條。
1. 使用連表查詢成都市的客戶總數
2.使用多次單表查詢客戶總數
可以看到,查詢出來的結果都是一樣,但是第一種的連表查詢用了0.67秒中,而第二種多次單表查詢一共用時0.14秒。這個對比已經是很明顯了吧。
雖然這只是一個很簡單的例子,但是對比結果是非常明顯的。在實際應用中可能會更復雜、數據更多,如果還使用連表查詢時非常慢的,而且還消耗服務器資源。
所以現在在很多大了公司明確要求禁止使用join查詢,比如ucloud、ucloud就明確規定禁用三表以上的join查詢。
1. 多次單表查詢,讓緩存的效率更高。
許多應用程序可以方便地緩存單表查詢對應的結果對象。另外對于MySQL的查詢緩存來說,如果關聯中的某個表發生了變化,那么就無法使用查詢緩存了,而拆分后,如果某個表很少改變,那么基于該表的查詢就可以重復利用查詢緩存結果了。
2. 將查詢分解后,執行單個查詢可以減少鎖的競爭。
3. 在應用層做關聯,更容易對數據庫進行拆分,更容易做到高性能和可擴展。
4. 查詢本身效率也可能會有所提升。
5. 可以減少冗余記錄的查詢。
6. 在應用中實現了哈希關聯,而不是使用MySQL的嵌套環關聯,某些場景哈希關聯的效率更高很多。
7. 單表查詢有利于后期數據量大了分庫分表,如果聯合查詢的話,一旦分庫,原來的sql都需要改動。
8. 很多大公司明確規定禁用join,因為數據量大的時候查詢確實很慢
所以在數據量不大的情況下,兩種方式的查詢都沒什么明顯的差別,使用多表連接查詢更方便。但是在數據量足夠大幾十萬、幾百萬甚至上億的數據,或者在一些高并發、高性能的應用中,一般建議使用單表查詢。
如果覺得笨貓的回答對你有用,點個關注,非常感謝。
先說結論:不一定。
多表查詢效率低的時候,可以考慮拆解sql成多個小的sql,至于效率是否一定會提高,這個還不一定,具體問題具體問題。當多表查詢效率低的時候,拆解成單個小sql,這只是一個可能的思路,起不起作用,不一定。
sql是一個很復雜的東西,sql引擎會分析執行計劃,并可能按照他認為最優的執行計劃執行sql,但他認為的也不一定是正確的。不同的sql執行計劃不一樣,所以很難斷定sql拆解或者合并的效率。
說了這么多,那到底是多表聯合查詢還是拆解呢?有沒有一個原則? 有!如果你確定你的單個sql的執行效率比較快,當然可以寫多個單個sql。當然了,具備這個能力需要你對數據庫足夠了解,比如什么時候走索引,什么時候nested loop等等。如果你現在的多表聯合查詢比較慢,你需要找出來慢的原因,并分析拆解后的sql的執行計劃,看是否避免了多表聯合查詢的效率問題。
總之吧。這個問題,只能給你一個大體的思路,因為牽扯到很多基礎問題,我覺得最起碼sql執行計劃應該需要了解,一個sql可能的執行計劃有幾十中,復雜sql的執行計劃又是這幾十種的組合。哪種效率低,哪種效率高應該有個大體了解。
多表查詢可以很快,也可以很慢。主要看執行計劃。
單次肯定是多表連接查詢的效率高,但多次單表查詢的吞吐量高,而且容易優化,例如分庫分表,使用緩存減少DB訪問次數等等,所以在大數據量高并發場景通常使用多次單表查詢的方式。另外,不管是單表還是多表連接查詢,SQL的執行時間和數據量、并發量都有很大關系,和掃描的數據行數也很有關系。如果一條SQL,平時執行一次要2秒,10個并發時,系統可能一點問題都沒有,1000個并發時,數據庫可能就被拖死了。我們組之前碰到過好幾次這種問題,一張只有幾萬條數據的表,因為忘記加索引,平時執行只有幾百毫秒,高峰期直接飆到幾十秒,DB差點被拖垮。
單純從效率來講,join的表不太多時,join效率比較高。但是占用的主要是數據庫服務器的資源。數據庫資源又是個瓶頸,不易橫向擴展。所以在數據量大的時候,我們會采用單表查詢,把循環和匹配等大量工作移到應用服務器上。應用服務器容易擴展,對并發支持更好。
當數據量大到千萬級以上,就建議盡可能減少join,鼓勵使用單表查詢。查詢優化比較容易。這時候使用join的一個大型查詢就可能花很久,對其他查詢造成阻塞,導致服務不可用。
當考慮單表查詢后,就會衍生一系列的策略,比如冷熱數據分離,將熱數據和歷史數據分離,大幅降低數據量級以提高熱數據查詢性能,并可以使用內存緩存。這樣又促使你考慮引入微服務架構。
總結,數據量小,查詢并發少,那么使用join的性能是可控的,開發成本低。當數量級上升到千萬級且不斷增加,盡早考慮向單表查詢切換,否則可能有性能下降會導致系統奔潰。而且性能下降不是線性的,會陡降。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答