12 anos atrás · 97e3aa3c4b
--- a/hadoop/hadoop.md
+++ b/hadoop/hadoop.md
@@ -0,0 +1,19 @@
 
				+##优化参数
			
 
				+
			
 
				+###控制Reduce启动时间.当Map运行超过5%时启动
			
 
				+
			
 
				+    mapred.reduce.slowstart.completed.maps=0.05
			
 
				+	
			
 
				+##Hadoop任务推测
			
 
				+
			
 
				+Hadoop发现一个任务运行比预期慢的时候，它会尽量检测，并启动另一个相同的任务作为备份，即“推测执行”(speculative execution)。
			
 
				+
			
 
				+推测执行是一种优化措施，并不能使作业运行更可靠。默认启用，但可以单独为map/reduce任务设置，mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution。开启此功能会减少整个吞吐量，在集群中倾向于关闭此选项，而让用户根据个别作业需要开启该功能。
			
 
				+
			
 
				+    mapred.map.tasks.speculative.execution=true
			
 
				+    mapred.reduce.tasks.speculative.execution=true
			
 
				+
			
 
				+Hadoop为每个任务启动一个新JVM需要耗时1秒，对于大量超短任务如果重用JVM会提升性能。当启用JVM重用后，JVM不会同时运行多个任务，而是顺序执行。tasktracker可以一次启动多个JVM然后同时运行，接着重用这些JVM。控制任务重用JVM的属性是mapred.job.reuse.jvm.num.tasks，它指定给定作业每个JVM运行的任务的最大数，默认为1，即无重用；-1表示无限制即该作业的所有的任务都是有一个JVM。
			
 
				+
			
 
				+    mapred.job.reuse.jvm.num.tasks=1
			
 
				+
			
--- a/hbase/hbase.md
+++ b/hbase/hbase.md
@@ -18,3 +18,11 @@
 
				 
			
 
				     bin/hadoop jar lib/hbase-0.94.11.jar completebulkload /user/hadoop/poststore posttable
			
 
				 
			
 
				+##检验HBase集群一致性
			
 
				+
			
 
				+    hbase hbck
			
 
				+	
			
 
				+##检验HBase集群一致性,如果不一致会尝试修复.
			
 
				+
			
 
				+    hbase hbck -fix
			
 
				+
			
--- a/mongo-cluster/mongos.md
+++ b/mongo-cluster/mongos.md
@@ -1,3 +1,6 @@
 
				+##MongoDB导出数据
			
 
				+
			
 
				+    bin/mongoexport --host 192.168.1.15:40000 -d nsmongo -c userNoBaseInfo -f userId --csv -o ./userNoBaseInfo.csv
			
 
				 
			
 
				 ##MongoDB 备份数据库