格式化 SQL 來提高效率
來源:易賢網(wǎng) 閱讀:1132 次 日期:2015-05-04 14:17:41
溫馨提示:易賢網(wǎng)小編為您整理了“格式化 SQL 來提高效率”,方便廣大網(wǎng)友查閱!

背景

已格式化的SQL并不比未格式化SQL運(yùn)行地更快。數(shù)據(jù)庫可能真的不太在意你是否把逗號放在每個字段名稱的前面或后面。為幫助你更理智和成為一名高效的SQL編寫者,我建議你遵循一些格式化的指導(dǎo)方針。在這篇文章里,我將分享如何格式化SQL語句來提高工作效率。我對生產(chǎn)力這樣定義,能夠從SQL得到準(zhǔn)確的結(jié)果,同時代碼容易理解,修改和調(diào)試。我只會專注于SELECT語句,它占到我編寫SQL的99%。格式化SQL代碼是非常個性的選擇,我很清楚,不同的人將鐘愛他們自己的格式化規(guī)則。

問題樣例

這是一個典型的SQL使用場景,業(yè)務(wù)上需要這樣的報表,它的數(shù)據(jù)在三個表中,分別是customer、sales 和 location。在2015年1月,報表需要顯示位于每一個郵政編碼區(qū)域的客戶數(shù)量和總銷售額。這應(yīng)該是一個簡單的SQL語句,它連接三個表。

數(shù)據(jù)可能有問題

雖然SQL很容易,確保結(jié)果準(zhǔn)確才是真正的挑戰(zhàn),以下是許多可能的原因中的一個,包括:

數(shù)據(jù)可能來自不同數(shù)據(jù)源。這意味著在不同的表中的無法保證引用完整性。簡單說,你不能假定 customer 表上的所有郵政編碼是有效的,同時在 location 表上也存在該問題。

存取客戶數(shù)據(jù)的應(yīng)用程序,可能沒有適當(dāng)?shù)臄?shù)據(jù)驗證??赡芤呀?jīng)存入不正確的郵政編碼。

postcode 表可能沒有所有郵政編碼。新的郵政編碼代碼可能被引入,但自從上次更新還沒有添加到表中。

第一原則

對我來說,格式化SQL更多地是從SQL獲得正確的結(jié)果,因為它有明確的SQL,很容易跟蹤。我做的第一件事編寫獲取客戶總數(shù)的語句。這是個數(shù)字,我將在寫完整個語句后進(jìn)行對比。

我寫的第一條語句是:

SELECT

COUNT(DISTINCT cust_id) AS count_customers

FROM

customers

Result:

count_customers

“10″

這個查詢很重要,因為它遵循了 第一原則(外部鏈接) 。因為沒有SQL連接,因此沒有依賴,我知道這是正確的客戶數(shù)量。我總是記下結(jié)果,因為我總是需要拿這個數(shù)字對比,在這篇文章是 10。

接下來我要做的就是添加必要的字段和表到這個查詢。我強(qiáng)調(diào)添加這個詞,因為根據(jù)我遵循的格式化規(guī)則,我可以注釋掉查詢的元素來得到和我應(yīng)用第一原則時相同的結(jié)果。下面是我最終的格式化查詢,使用格式化查詢的方式。

格式化SQL

下面是我推薦的格式化的SQL,緊接后面是我進(jìn)行的格式化選擇的理由。

SELECT

0

,c.cust_post_code

,p.location

,COUNT(DISTINCT c.cust_id) number_customers

,SUM(s.total_amount) AS total_sales

FROM

customers c

JOIN post_codes p ON c.cust_post_code = p.post_code

JOIN sales s ON c.cust_id = s.cust_id

WHERE

1=1

AND s.sales_date BETWEEN '2015-01-01' AND '2015-01-31'

--AND s.order_id = 5

GROUP BY

c.cust_post_code

,p.location

總是使用表別名

這將會在你的SQL中得到證實。如果你不為參與查詢的每個字段使用 別名(外部鏈接) ,有時候在后期,具有相同名稱的字段添加到查詢中使用的某個表中。你的查詢和你的報表將出現(xiàn)一個錯誤(發(fā)現(xiàn)重復(fù)的字段名)。

逗號在字段前

當(dāng)調(diào)試/測試我的查詢時,這讓我能輕易進(jìn)行字段注釋和取消注釋,不需要在查詢中修改任何其他行,以確保逗號在正確的地方。我看過一些文章,博主為了大事化小不得不改變另一個查詢的一部分,以確保逗號是正確的,但是你如果花大部分時間編寫和測試 SQL 語句,這是一個大問題。你按這種方式將會更有效率。這個在 SELECT 和 GROUP BY 查詢部分都工作地很好。

我在開發(fā)環(huán)境使用 SELECT 0,同時傾向于進(jìn)入生產(chǎn)環(huán)境之前刪除它。它允許我把逗號放在所有字段前。如果沒有 0,我想注釋掉c.cust_post_code,它是第一個字段,我就必須注釋掉第二個字段前面的逗號。我也會在 GROUP BY 子句做同樣的事情。0 可以消除這個額外的工作。

在新的一行JOIN

將JOIN語句放在一個新行的優(yōu)勢包括:

通過僅僅向下滾動JOIN語句列表就可以很容易地查看查詢中所涉及到的所有表。

使用 JOIN,相比將所有表和關(guān)系表達(dá)式都列在 WHERE 語句中,它可以將所有關(guān)系邏輯保持在一個地方。JOIN 語句也許不可能總是遵循在一行,但至少會在一個地方。

注釋掉 JOIN 會相對比較容易。在調(diào)試時,當(dāng)你想知道哪個 JOIN 導(dǎo)致數(shù)據(jù)差異時,將很有用。

列模式編輯

在處理大量的字段時,列模式編輯非常方便。下面是我的第一次動畫GIF展示,顯示你如何注釋掉所有非聚合字段。在實踐中我使用

列模式編輯(外部鏈接),不僅僅是注釋字段還包括:

大量創(chuàng)建索引

在使用 UNION 語句時帶有長的字段列表

注 釋GROUP BY 子句長的字段列表

測試查詢結(jié)果

我不得不使用外連接來列出所有客戶,因為并不是所有客戶的郵政編碼在 location 表中都能找到對應(yīng)郵政編碼。我能夠做到這一點(diǎn),通過在我的查詢中反復(fù)包括和排除不同的字段和表,確保我能夠與基于第一原則的最早查詢保持一致。

SELECT

0

,c.cust_post_code

--,p.location

,COUNT(DISTINCT c.cust_id) number_customers

,SUM(s.total_amount) AS total_sales

FROM

customers c

--LEFT OUTER JOIN post_codes p ON c.cust_post_code = p.post_code

JOIN sales s ON c.cust_id = s.cust_id

WHERE

1=1

AND s.sales_date BETWEEN '2015-01-01' AND '2015-01-31'

--AND c.cust_post_code = 2000

--AND p.post_code = 200

GROUP BY

c.cust_post_code

--,p.location

對我來說,像這樣格式化SQL,意味著我不必編寫為了檢查數(shù)據(jù)做單獨(dú)的測試。通過注釋掉一些行,我能使用第一原則來測試數(shù)據(jù)的準(zhǔn)確性。這可以提高我的效率,以及報表的準(zhǔn)確性。

更多信息請查看IT技術(shù)專欄

更多信息請查看數(shù)據(jù)庫
易賢網(wǎng)手機(jī)網(wǎng)站地址:格式化 SQL 來提高效率
由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考,敬請考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇?zhǔn)!

2025國考·省考課程試聽報名

  • 報班類型
  • 姓名
  • 手機(jī)號
  • 驗證碼
關(guān)于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡要咨詢 | 簡要咨詢須知 | 加入群交流 | 手機(jī)站點(diǎn) | 投訴建議
工業(yè)和信息化部備案號:滇ICP備2023014141號-1 云南省教育廳備案號:云教ICP備0901021 滇公網(wǎng)安備53010202001879號 人力資源服務(wù)許可證:(云)人服證字(2023)第0102001523號
云南網(wǎng)警備案專用圖標(biāo)
聯(lián)系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關(guān)注公眾號:hfpxwx
咨詢QQ:526150442(9:00—18:00)版權(quán)所有:易賢網(wǎng)
云南網(wǎng)警報警專用圖標(biāo)