摘要:意大利商會通過遍布全國的多個分支機構來服務和促進意大利企業的公共機構信息交流。這項工作是基于意大利企業注冊摘要獲得的數據集,并包含有關企業參股的數據。
實驗概述摘要:
InfoCamere是附屬于意大利商會的IT公司,主要設計和開發最新和創新的IT解決方案和服務,它通過一個公眾也可以訪問的網絡連接商會及其數據庫。借助InfoCamere,意大利和國外的企業,公共機構,行業協會,專業團體和簡單的公民可以輕松獲取在意大利注冊和運營的所有業務的最新官方信息和經濟數據。
意大利商會通過遍布全國的300多個分支機構來服務和促進意大利企業的公共機構信息交流。InfoCamere
是商會的服務系統,幫助他們實現商業利益。在實施意大利數字化議程方面發揮了關鍵作用,涉及到國家生產系統的數字化轉型過程,特別是支持中小企業的數字化。
實驗案例由 Luca Sinico (InfoCamere 軟件開發人員) 負責編寫。
InfoCamere 于二零一六年下半年展開圖形數據庫領域的檢驗工作,工作的目的是對該技術的主要特性進行調查; 在概念和性能方面比較市場上的一些可用產品以及關系解決方案;并檢查一些InfoCamere應用程序的圖形數據庫的采用可能性。這項工作是基于意大利企業注冊摘要獲得的數據集,并包含有關企業參股的數據。圖的節點可以是自然人或公司,并且收集關于面額,公司的股本,注冊國家,唯一的財政標識符等的數據。圖的邊緣代表其中的股權參與。
在我們的工作中,我們檢查了兩種主要類型的圖形數據模型,即“屬性圖”和“RDF”。盡管RDF(W3C標準)代表了實現鏈接數據和語義Web的有效方法,盡管它以圖形的形式組織數據,但是我們發現屬性圖模型(一種“行業標準”)能更好地滿足我們的要求。實際上,它允許在邊上定義屬性。而RDF不允許直接使用它。另外,針對RDF(SPARQL)提出的標準查詢語言對于通常由支持“屬性圖”模型的DBMS提供的查詢語言顯示出一些限制。兩個簡單的例子是缺少最短路徑計算函數,并且可能為可變長度路徑搜索表示最大深度級別。
數據進入圖形數據庫的流程如圖2所示。從存儲意大利商業注冊的復雜關系數據庫開始,通過用戶需求或更新操作不斷產生一些標題搜索。標題搜索保存通過組合不同表中的不同記錄獲得的匯總數據,這對于某些應用是有用的。正因為如此,這些數據放在關系數據庫上以支持其操作。由于這個第二關系數據庫主要集中在與公司參股相關的方面,圖形數據庫從中獲取數據。
查詢我們開發的查詢可以被這些數據集上的應用程序所使用,也可以稍微強調數據庫管理系統的能力。特別是我們開發了一些標準查詢和一些更具體的查詢。
鑒于一個特定的公司,由其“財政ID”確定,我們要求其員工;它的參與;或兩者同時;從而通過將搜索限制到僅一個深度級別。但是,我們也要求直接和間接參與一家公司(同樣也是為了同事)。這對應于沒有深度限制的圖的探索。此外,由于數據集構成一個圖(而不是“簡單”樹),兩家公司之間的路徑可能是多個。這使我們要求提供連接兩家公司的完整的直接路徑列表;或者,也可以是最短的一個。我們還要求兩家公司的共同參與(或同事)。數據集的圖形性質也導致了另外兩個查詢的制定:第一個返回與檢索到的參與節點一起, 并且檢索到的深度值降低; 第二個查詢計算每個深度級別的與給定節點的關聯公司,但是避免對它們進行多次計數。
查詢的開發有助于調查目的和更好的數據探索體驗。
我們將數據集導入了三個最知名的圖形數據庫,分別是ArangoDB v3.0.10; Neo4j v3.0.6;和OrientDB v2.2.11(均為社區版)。我們還將數據集導入了一個眾所周知的關系數據庫:PostgreSQL v9.6.1。關系型數據庫的選擇沒有強烈的約束,因為性能主要受SQL語言性能的影響。這些產品已經安裝在虛擬服務器上,資源適中,因此對于其他類似硬件可用性的公司來說,結果也是有用的。對于每一種查詢,我們選擇了三個代表三種不同負載的DBMS的三個節點。特別是:一個節點表示一個輕量級的案例,可能較少的返回的結果,或者較短的勘探深度值; 一個節點代表中間的案例; 還有一個重量級的案例。我們不止一次地執行了這些查詢,所以我們也研究了延遲加載的緩存之間的性能差異。
由于目前還沒有圖形數據庫的標準查詢語言,因此每個圖形DBMS都提供自己的查詢語言。這促使我們評估各種查詢語言的表達性和易用性。
結果我們收集的結果概括如下:
圖表數據庫提供了一些特意設計的查詢語言,這些語言大大有助于描述圖遍歷查詢,也有助于應對該領域的一些典型計算問題。使用SQL或借助存儲過程,相同的查詢很難以高效的方式實現。
雖然關系數據庫對較簡單的查詢執行得很好,但對于圖挖掘查詢的重量級案例(即那些有大量待分析節點的數據,并需要遍歷的高水平的值),分析顯示三個圖數據庫的性能通常要比關系型數據庫高出一個或兩個數量級。
ArangoDB顯示了良好的導入和查詢性能,尤其適用于輕量級和中等工作負載的情況。
關于ArangoDB 測試版本的關注點之一就是內存占用 RAM
greedy。然而,ArangoDB聲稱已經用他們新的3.2版本和新的RocksDB存儲引擎解決了這個“問題”。
由于在研究工作中得到了良好的反饋,在導入和執行時間方面表現良好,文檔良好,易于使用和商業價格合理,ArangoDB 在InfoCamere 的一些應用程序中表現出了很好的潛力。最終,我們決定在我們正在開發的演示應用程序中使用ArangoDB。
關于比較實驗的一些額外細節可以在這里找到。
英文原文
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/27123.html
摘要:本報告面向的讀者是想要進入機器學習領域的學生和正在尋找新框架的專家。其輸入需要重塑為包含個元素的一維向量以滿足神經網絡。卷積神經網絡目前代表著用于圖像分類任務的較先進算法,并構成了深度學習中的主要架構。 初學者在學習神經網絡的時候往往會有不知道從何處入手的困難,甚至可能不知道選擇什么工具入手才合適。近日,來自意大利的四位研究者發布了一篇題為《神經網絡初學者:在 MATLAB、Torch 和 ...
摘要:于年在意大利北部帕維亞的監獄中死亡。的死亡促使了現代犯罪學的誕生。寫道,犯罪分子生下來就是罪犯。最近的一個例子便是,上海交通大學和在年月傳到上的論文使用臉部圖像自動推斷罪犯。 任何關心如何確保 AI 技術朝著有利于人類發展的人都是本文的讀者1844 年,意大利南部一個小城鎮舉辦了一場審判會,一個名叫 Giuseppe Villella 的勞工因涉嫌竊取了5 個里考塔(注釋:意大利奶制品,類似...
摘要:于月日至日在意大利比薩舉行,主會于日開始。自然語言理解領域的較高級科學家受邀在發表主旨演講。深度學習的方法在這兩方面都能起到作用。下一個突破,將是信息檢索。深度學習在崛起,在衰退的主席在卸任的告別信中這樣寫到我們的大會正在衰退。 SIGIR全稱ACM SIGIR ,是國際計算機協會信息檢索大會的縮寫,這是一個展示信息檢索領域中各種新技術和新成果的重要國際論壇。SIGIR 2016于 7月17...
閱讀 3736·2023-04-25 18:41
閱讀 1169·2021-11-11 16:55
閱讀 1823·2021-09-22 15:54
閱讀 3069·2021-09-22 15:51
閱讀 3545·2019-08-30 15:55
閱讀 1937·2019-08-30 14:19
閱讀 1277·2019-08-29 10:57
閱讀 1699·2019-08-29 10:56