Ver código fonte

add hadoop manual

ZhenQin 12 anos atrás
pai
commit
97e3aa3c4b
3 arquivos alterados com 30 adições e 0 exclusões
  1. 19 0
      hadoop/hadoop.md
  2. 8 0
      hbase/hbase.md
  3. 3 0
      mongo-cluster/mongos.md

+ 19 - 0
hadoop/hadoop.md

@@ -0,0 +1,19 @@
+##优化参数
+
+###控制Reduce启动时间.当Map运行超过5%时启动
+
+    mapred.reduce.slowstart.completed.maps=0.05
+	
+##Hadoop任务推测
+
+Hadoop发现一个任务运行比预期慢的时候,它会尽量检测,并启动另一个相同的任务作为备份,即“推测执行”(speculative execution)。
+
+推测执行是一种优化措施,并不能使作业运行更可靠。默认启用,但可以单独为map/reduce任务设置,mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution。开启此功能会减少整个吞吐量,在集群中倾向于关闭此选项,而让用户根据个别作业需要开启该功能。
+
+    mapred.map.tasks.speculative.execution=true
+    mapred.reduce.tasks.speculative.execution=true
+
+Hadoop为每个任务启动一个新JVM需要耗时1秒,对于大量超短任务如果重用JVM会提升性能。当启用JVM重用后,JVM不会同时运行多个任务,而是顺序执行。tasktracker可以一次启动多个JVM然后同时运行,接着重用这些JVM。控制任务重用JVM的属性是mapred.job.reuse.jvm.num.tasks,它指定给定作业每个JVM运行的任务的最大数,默认为1,即无重用;-1表示无限制即该作业的所有的任务都是有一个JVM。
+
+    mapred.job.reuse.jvm.num.tasks=1
+

+ 8 - 0
hbase/hbase.md

@@ -18,3 +18,11 @@
 
     bin/hadoop jar lib/hbase-0.94.11.jar completebulkload /user/hadoop/poststore posttable
 
+##检验HBase集群一致性
+
+    hbase hbck
+	
+##检验HBase集群一致性,如果不一致会尝试修复.
+
+    hbase hbck -fix
+

+ 3 - 0
mongo-cluster/mongos.md

@@ -1,3 +1,6 @@
+##MongoDB导出数据
+
+    bin/mongoexport --host 192.168.1.15:40000 -d nsmongo -c userNoBaseInfo -f userId --csv -o ./userNoBaseInfo.csv
 
 ##MongoDB 备份数据库