跳到主要內容

Hadoop with Netbeans 函式包裹至單一專案JAR檔

75580003

 

 

在Hadoop雲端環境執行程式時,

主要是將程式先包裹為一個JAR檔後,由Master 將其做為Task送出到各個node進行處理,

然而當系統較為複雜時,程式內引用的處理程序往往更為繁雜,

以生物資訊的案例來說,

一個專案中可能會需要用到如:連結遠端特定服務的library ( Ex:BLAST) , XML 的Library (Ex: JDOM) , 網路連結套件 (Ex: httpclient), WSDL, SAAJ …. 等許許多多的外部函式庫。

 

這狀況若以Web Service 來說並不會造成問題,

因為Netbeans 會自動Deploy 成一個 war檔進行部署。

 

但在一般的專案中,

Netbeans只會將專案本身包為 JAR檔,其餘外部的函式( 如引入在 /lib/下的外部jar檔)

在build後並不會包入JAR中,而僅是存放在dist/中的lib/目錄下。

 

這在平常或許沒什麼太大問題,

只要設定classpath或放到公用java classpath (ext/lib)中即可。

 

但在雲端環境中,由於JAR是做為Task傳送到不同的node server執行,

除非是每個node都預先存放好 library,否則在執行時便會因為僅將專案JAR檔送出,

造成 node server找不到外部library 而引發ClassNotFoundException導致task falue 。

 

解決上述問題的方式,有以下幾種方法:

  1. 將library放入各node Server的共用函式資料夾
  2. 將外部涵式解開JAR後,將package複製到自己的專案內,再令其重新build包裹在一起
  3. 直接將JAR檔包進JAR中

 

然而在雲端環境中,若要逐一對node server預先設定外部library,

不只耗時費工 (node server可能高達百臺),更有可能因為外部server而無法進行設定。

 

以上作法最便利的便是第三種方式:將外部的JAR包入專案的JAR中

此方法類似 Eclipse中的 “Fat Jar” plugin ,可以將外部的JAR直接包裝進JAR中,

而 Netbeans的作法則僅需修改ANT的build.xml便可達成。

 

唯編輯ANT的方式較為複雜,以下推薦一個網友分享的方式讓大家參考。

( From: Fat JARs out of NetBeans – by Joshua Born )

 

作法如下 (以下採用 Netbeans IDE 6.9.1):

 

  • 1. 將外部函式匯入 lib

image

 

  • 2. 點選專案視窗的Files分頁

image

 

  • 3. 開啟專案中的build.xml檔,並於<project> </project> 範圍內加入以下Tag,並存檔
  <target name="-unjar-and-copy-lib-jars">
<unjar dest="${build.classes.dir}">
<fileset dir="lib">
<include name="**/*.jar"/>
</fileset>
<patternset>
<exclude name="META-INF/**"/>
<exclude name="/*"/>
</patternset>
</unjar>
</target>

<target depends="init,compile,-pre-pre-jar,-pre-jar,-unjar-and-copy-lib-jars" name="fat-jar">
<property location="${build.classes.dir}" name="build.classes.dir.resolved"/>
<jar destfile="${dist.jar}">
<fileset dir="${build.classes.dir}"/>
<manifest>
<attribute name="Main-Class" value="${main.class}"/>
</manifest>
</jar>
<echo>To run this application from the command line without Ant, try:</echo>
<property location="${dist.jar}" name="dist.jar.resolved"/>
<echo>java -jar "${dist.jar.resolved}"</echo>
</target>

<target depends="clean,fat-jar" name="clean-and-fat-jar"/>
 


  • 4. build.xml修改完成後,在該檔案上按右鍵選[Run Target] –> [Other Targets] ,當中便會出現[fat-jar] , [clean-and-fat-jar],執行[fat-jar]後即可在dist中編出單一個JAR檔
 image
 
 

image
 
 
透過上述的方法便可以很輕鬆的進行JAR包裝,
這對想要移植過去的JAVA專案至雲端應用上是非常有幫助的,
 
不過這個作法有許多缺點,
最大的問題是包裹後的JAR檔相當肥大(檔案大小),
因此在Master Server進行task分派時勢必會造成流量的增加,
以單JAR 5mb來說,
若有100個task運行於100個node,則一個job造成的流量便會超過500mb,
這對系統來說會是非常大的負擔,尤其是node server不在鄰近區域時更會影響,

 


因此,盡可能的精減外部Library的使用,


並且將未用到的library 刪除,更甚至用解JAR的方式來取出僅需要的部份,


這樣的方式便可以減少傳輸流量的暴增,降低系統負擔。


 


BP  2011.06.10


 


相關文章:


  ‧『Hadoop with Netbeans 雲端開發環境

留言

這個網誌中的熱門文章

醫學健康跨領域合作的開始:資料工程

一直都很喜歡在會議上與跨領域的專家、醫師、學者分享我們在數據工程與分析應用上的發展經驗。 許多的專家學者,對於大數據應用的認知都仍侷限在一個超大型結構化資料集的子集合應用,在規劃好的條件設定下,針對特定的目標(疾病、行為)進行篩選,將數據narrow down到可以被個人電腦或是單一伺服器架構處理的小型資料集。 這樣的半手工處理方式,對於專一(Specific)領域主題的資料追蹤計算或許已經十分足夠,但當中倘若資料清理方式有改變、篩選條件增減,所有的數據都要從raw重新處理,不僅造成大量的時間與人力浪費,對於專案計畫進度的延宕更是麻煩。這些還不包含

Google 資料庫方案–Spreadsheet–(1)資料呈現

HEMiDEMi 的標籤: Google , Google SpreadSheet , 雲端 早在規劃『 教育,意義! 』project時, 便有打算將整個網站建立過程撰寫一篇教學,讓有興趣以google 服務為基礎進行開發的朋友參考。 沒想到這個想法擺著就拖了好幾個月, 好在學生提出了問題,就趁這機會寫一寫吧。 基本上『 教育,意義! 』網站的架構完全建立在Google提供的服務, 廣義來說也是個雲端的系統, 所有的資料是分散在不同的服務架構下,再用GAE, Javascrript將服務資訊串接起來, 由Blogspot 統一呈現。 省了租主機的費用,或架站的硬體、電費, 最好的地方在於不用管理主機維運的問題, 只要專心做我的創意、嘗鮮就好了!!   多棒! 若將『 教育,意義! 』網站依功能層次來分類,可以分為三層結構, 當中的層次與使用技術大致如下: UI 介面層 服務 : Blogspot (網站介面) , Picasa (相簿空間), Google Apps 技術 : Javascript , AJAX ( JQuery ) App應用層  服務 : Google App Engine (GAE) 技術 : Java, Java Server Page (JSP) 資料層 服務 : Google Docs (文件), Google Spreadsheet (試算表) 技術/函式庫 : Java, Google Data APIs 本篇文章將著重在介紹以Google Spreadsheet 做為雲端資料庫, 其他主題將會陸續推出。 若對Google API 與 Google App Engine 初步建置有興趣, 可以參考之前文章: 佛心來著的 Google Data API – for JAVA 雲端的開始:Netbeans 無痛 Google App Engine Java 服務開發 Google Spreadsheet 做為資料庫系統 對於小型的資料系統來說, 採用Google Spreadsheet做為應用程式資料庫(如問卷調查或線上系統) 也算堪用, 目前的儲存限制為 : 40 萬個儲存格 每張工作表最多...

當咒術成真 - 文字生成的虛擬世界

  2024/02  這幾天灌爆各大ai社群的,不外乎就是文字生成高清畫質影像的OpenAI Sora , 讓人驚艷的細膩表現,自動化的場景生成與運鏡效果,縱使這個概念並不是多創新的模式,但Open AI始終很懂得抓住大家眼球  (Sora的各種生成影片: https://openai.com/sora  ) 關於Sora 的技術與介紹,不妨看看chatGPT 對它的描述: OpenAI Sora文字-視訊生成模型 在視頻數據上進行大規模訓練生成模型,具體而言,OpenAI聯合訓練了文本條件擴散模型,處理不同持續時間、解析度和長寬比的視頻和圖像。利用了一種在視頻和圖像潛碼的時空塊上操作的轉換器架構。受到Srivastava等人(2015年)在使用LSTMs進行視頻表示學習的無監督學習的啟發,OpenAI的最大模型Sora擴展了這些概念,能夠生成一分鐘的高保真度視頻。此外,Chiappa等人(2017年)描述的循環環境模擬器方法與我們的方法論框架相一致,表明擴大視頻生成模型的規模是建立通用物理世界模擬器的一條有希望的道路。 一、技術創新 OpenAI 的 Sora 模型在技術創新上主要融合了 diffusion models 與 transformer models 的特點,這一結合代表著從文字描述到視覺內容生成的一大進步。根據 Goodfellow et al. (2014) 的研究,Generative Adversarial Nets (GANs) 開創了使用機器學習生成圖像的新方法,而 diffusion models 則透過逆向的擴散過程從隨機噪聲中逐步建構出有意義的圖像,提供了一種不同於傳統 GANs 的新途徑。另一方面,Vaswani et al. (2017) 提出的 transformer 模型,通過其自注意力機制有效處理長距離依賴關係,已廣泛應用於語言模型中。Sora 模型的創新之處在於將這兩種技術融合應用,實現了從簡單文本提示生成高質量視覺內容的能力,這不僅展示了機器學習技術的新高度,也為未來的影像生成、自然語言處理和人機交互開啟了新的可能性。 二、物理現象與現實世界的模擬 Sora 的另一大進步是在模擬現實世界物理現象方面的表現。雖然現有模型如 Raissi et al. (2019) 所提出的 Physi...