records/120424_ValueEmbed/67716aee-6747-4997-a37c-b96932fab4dd.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 02:00:42 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   30C    P0             115W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             117W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   38C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   38C    P0             123W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             103W / 700W |     23MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             124W / 700W |     41MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:31804ms step_avg:nanms
step:2/1530 train_loss:10.0627 train_time:31915ms step_avg:nanms
step:3/1530 train_loss:8.3455 train_time:32075ms step_avg:nanms
step:4/1530 train_loss:7.5583 train_time:32237ms step_avg:nanms
step:5/1530 train_loss:7.4941 train_time:32397ms step_avg:nanms
step:6/1530 train_loss:6.9870 train_time:32557ms step_avg:nanms
step:7/1530 train_loss:7.2244 train_time:32717ms step_avg:nanms
step:8/1530 train_loss:6.7413 train_time:32878ms step_avg:nanms
step:9/1530 train_loss:6.6268 train_time:33039ms step_avg:nanms
step:10/1530 train_loss:6.4977 train_time:33199ms step_avg:nanms
step:11/1530 train_loss:6.3988 train_time:114ms step_avg:nanms
step:12/1530 train_loss:6.3206 train_time:275ms step_avg:nanms
step:13/1530 train_loss:6.2235 train_time:435ms step_avg:144.91ms
step:14/1530 train_loss:6.2065 train_time:594ms step_avg:148.52ms
step:15/1530 train_loss:6.1935 train_time:755ms step_avg:151.03ms
step:16/1530 train_loss:6.1411 train_time:916ms step_avg:152.68ms
step:17/1530 train_loss:6.1477 train_time:1075ms step_avg:153.52ms
step:18/1530 train_loss:5.9550 train_time:1234ms step_avg:154.26ms
step:19/1530 train_loss:5.9519 train_time:1395ms step_avg:155.00ms
step:20/1530 train_loss:5.6706 train_time:1555ms step_avg:155.49ms
step:21/1530 train_loss:5.9449 train_time:1714ms step_avg:155.80ms
step:22/1530 train_loss:6.1646 train_time:1875ms step_avg:156.22ms
step:23/1530 train_loss:5.8336 train_time:2035ms step_avg:156.54ms
step:24/1530 train_loss:6.0032 train_time:2196ms step_avg:156.85ms
step:25/1530 train_loss:5.6628 train_time:2356ms step_avg:157.06ms
step:26/1530 train_loss:5.5755 train_time:2516ms step_avg:157.22ms
step:27/1530 train_loss:5.7472 train_time:2676ms step_avg:157.40ms
step:28/1530 train_loss:5.4046 train_time:2835ms step_avg:157.48ms
step:29/1530 train_loss:5.6492 train_time:2995ms step_avg:157.65ms
step:30/1530 train_loss:5.4569 train_time:3156ms step_avg:157.79ms
step:31/1530 train_loss:5.4224 train_time:3315ms step_avg:157.87ms
step:32/1530 train_loss:5.2717 train_time:3475ms step_avg:157.96ms
step:33/1530 train_loss:5.5639 train_time:3636ms step_avg:158.07ms
step:34/1530 train_loss:5.4843 train_time:3795ms step_avg:158.14ms
step:35/1530 train_loss:5.5933 train_time:3954ms step_avg:158.17ms
step:36/1530 train_loss:5.5399 train_time:4114ms step_avg:158.24ms
step:37/1530 train_loss:5.4454 train_time:4275ms step_avg:158.34ms
step:38/1530 train_loss:5.2994 train_time:4435ms step_avg:158.40ms
step:39/1530 train_loss:5.3133 train_time:4596ms step_avg:158.47ms
step:40/1530 train_loss:5.2385 train_time:4756ms step_avg:158.54ms
step:41/1530 train_loss:5.2311 train_time:4916ms step_avg:158.58ms
step:42/1530 train_loss:5.1823 train_time:5075ms step_avg:158.60ms
step:43/1530 train_loss:5.2455 train_time:5235ms step_avg:158.62ms
step:44/1530 train_loss:5.2182 train_time:5396ms step_avg:158.71ms
step:45/1530 train_loss:5.3653 train_time:5556ms step_avg:158.75ms
step:46/1530 train_loss:5.1496 train_time:5716ms step_avg:158.78ms
step:47/1530 train_loss:5.0475 train_time:5876ms step_avg:158.82ms
step:48/1530 train_loss:5.1965 train_time:6037ms step_avg:158.87ms
step:49/1530 train_loss:5.1284 train_time:6196ms step_avg:158.86ms
step:50/1530 train_loss:5.2475 train_time:6356ms step_avg:158.89ms
step:51/1530 train_loss:5.1511 train_time:6516ms step_avg:158.93ms
step:52/1530 train_loss:5.0317 train_time:6676ms step_avg:158.95ms
step:53/1530 train_loss:5.1629 train_time:6836ms step_avg:158.97ms
step:54/1530 train_loss:5.0016 train_time:6997ms step_avg:159.03ms
step:55/1530 train_loss:5.3892 train_time:7157ms step_avg:159.05ms
step:56/1530 train_loss:5.0140 train_time:7317ms step_avg:159.06ms
step:57/1530 train_loss:4.8694 train_time:7478ms step_avg:159.10ms
step:58/1530 train_loss:5.0283 train_time:7639ms step_avg:159.15ms
step:59/1530 train_loss:5.0046 train_time:7800ms step_avg:159.18ms
step:60/1530 train_loss:5.1240 train_time:7962ms step_avg:159.23ms
step:61/1530 train_loss:4.8350 train_time:8122ms step_avg:159.25ms
step:62/1530 train_loss:4.9706 train_time:8283ms step_avg:159.29ms
step:63/1530 train_loss:4.9918 train_time:8443ms step_avg:159.30ms
step:64/1530 train_loss:4.8168 train_time:8604ms step_avg:159.34ms
step:65/1530 train_loss:4.8240 train_time:8765ms step_avg:159.36ms
step:66/1530 train_loss:4.9240 train_time:8925ms step_avg:159.37ms
step:67/1530 train_loss:4.8140 train_time:9086ms step_avg:159.40ms
step:68/1530 train_loss:5.0903 train_time:9246ms step_avg:159.41ms
step:69/1530 train_loss:4.7303 train_time:9407ms step_avg:159.45ms
step:70/1530 train_loss:4.8253 train_time:9567ms step_avg:159.46ms
step:71/1530 train_loss:4.9628 train_time:9728ms step_avg:159.47ms
step:72/1530 train_loss:4.8728 train_time:9889ms step_avg:159.50ms
step:73/1530 train_loss:4.7691 train_time:10048ms step_avg:159.50ms
step:74/1530 train_loss:4.8963 train_time:10209ms step_avg:159.52ms
step:75/1530 train_loss:4.8650 train_time:10370ms step_avg:159.54ms
step:76/1530 train_loss:4.7925 train_time:10531ms step_avg:159.56ms
step:77/1530 train_loss:4.9034 train_time:10692ms step_avg:159.59ms
step:78/1530 train_loss:5.1088 train_time:10852ms step_avg:159.59ms
step:79/1530 train_loss:4.8357 train_time:11013ms step_avg:159.60ms
step:80/1530 train_loss:4.8491 train_time:11173ms step_avg:159.61ms
step:81/1530 train_loss:4.6401 train_time:11333ms step_avg:159.62ms
step:82/1530 train_loss:4.8122 train_time:11493ms step_avg:159.63ms
step:83/1530 train_loss:4.7727 train_time:11653ms step_avg:159.63ms
step:84/1530 train_loss:4.7469 train_time:11814ms step_avg:159.65ms
step:85/1530 train_loss:4.6046 train_time:11975ms step_avg:159.66ms
step:86/1530 train_loss:4.8270 train_time:12135ms step_avg:159.67ms
step:87/1530 train_loss:4.7474 train_time:12296ms step_avg:159.69ms
step:88/1530 train_loss:4.7433 train_time:12457ms step_avg:159.70ms
step:89/1530 train_loss:4.7171 train_time:12617ms step_avg:159.71ms
step:90/1530 train_loss:4.6314 train_time:12776ms step_avg:159.70ms
step:91/1530 train_loss:4.6195 train_time:12937ms step_avg:159.71ms
step:92/1530 train_loss:4.7782 train_time:13097ms step_avg:159.72ms
step:93/1530 train_loss:4.6104 train_time:13257ms step_avg:159.72ms
step:94/1530 train_loss:4.6399 train_time:13417ms step_avg:159.72ms
step:95/1530 train_loss:4.6804 train_time:13577ms step_avg:159.74ms
step:96/1530 train_loss:4.5933 train_time:13738ms step_avg:159.74ms
step:97/1530 train_loss:4.6499 train_time:13897ms step_avg:159.73ms
step:98/1530 train_loss:4.5754 train_time:14058ms step_avg:159.75ms
step:99/1530 train_loss:4.6646 train_time:14218ms step_avg:159.75ms
step:100/1530 train_loss:4.6866 train_time:14378ms step_avg:159.75ms
step:101/1530 train_loss:4.5521 train_time:14538ms step_avg:159.76ms
step:102/1530 train_loss:4.7045 train_time:14699ms step_avg:159.78ms
step:103/1530 train_loss:4.5823 train_time:14860ms step_avg:159.78ms
step:104/1530 train_loss:4.5262 train_time:15019ms step_avg:159.78ms
step:105/1530 train_loss:4.5596 train_time:15181ms step_avg:159.80ms
step:106/1530 train_loss:4.6322 train_time:15341ms step_avg:159.80ms
step:107/1530 train_loss:4.5170 train_time:15501ms step_avg:159.81ms
step:108/1530 train_loss:4.3673 train_time:15663ms step_avg:159.83ms
step:109/1530 train_loss:4.4995 train_time:15824ms step_avg:159.84ms
step:110/1530 train_loss:4.4928 train_time:15984ms step_avg:159.84ms
step:111/1530 train_loss:4.4212 train_time:16144ms step_avg:159.84ms
step:112/1530 train_loss:4.5827 train_time:16305ms step_avg:159.86ms
step:113/1530 train_loss:4.4826 train_time:16465ms step_avg:159.86ms
step:114/1530 train_loss:4.3603 train_time:16626ms step_avg:159.87ms
step:115/1530 train_loss:4.5138 train_time:16790ms step_avg:159.90ms
step:116/1530 train_loss:4.4855 train_time:16954ms step_avg:159.94ms
step:117/1530 train_loss:4.3715 train_time:17117ms step_avg:159.97ms
step:118/1530 train_loss:4.5857 train_time:17282ms step_avg:160.02ms
step:119/1530 train_loss:4.4557 train_time:17446ms step_avg:160.05ms
step:120/1530 train_loss:4.3425 train_time:17610ms step_avg:160.09ms
step:121/1530 train_loss:4.3080 train_time:17773ms step_avg:160.12ms
step:122/1530 train_loss:4.4629 train_time:17937ms step_avg:160.15ms
step:123/1530 train_loss:4.2884 train_time:18101ms step_avg:160.19ms
step:124/1530 train_loss:4.5845 train_time:18266ms step_avg:160.23ms
step:125/1530 train_loss:4.4674 train_time:18430ms step_avg:160.26ms
step:125/1530 val_loss:4.4062 train_time:18477ms step_avg:160.67ms
step:126/1530 train_loss:4.4113 train_time:18596ms step_avg:160.31ms
step:127/1530 train_loss:4.4291 train_time:18760ms step_avg:160.34ms
step:128/1530 train_loss:4.3813 train_time:18923ms step_avg:160.37ms
step:129/1530 train_loss:4.6753 train_time:19087ms step_avg:160.40ms
step:130/1530 train_loss:4.3668 train_time:19251ms step_avg:160.42ms
step:131/1530 train_loss:4.3969 train_time:19415ms step_avg:160.45ms
step:132/1530 train_loss:4.3490 train_time:19579ms step_avg:160.49ms
step:133/1530 train_loss:4.4449 train_time:19743ms step_avg:160.51ms
step:134/1530 train_loss:4.2655 train_time:19907ms step_avg:160.54ms
step:135/1530 train_loss:4.4459 train_time:20071ms step_avg:160.57ms
step:136/1530 train_loss:4.2139 train_time:20234ms step_avg:160.59ms
step:137/1530 train_loss:4.3780 train_time:20399ms step_avg:160.62ms
step:138/1530 train_loss:4.2924 train_time:20562ms step_avg:160.64ms
step:139/1530 train_loss:4.3847 train_time:20725ms step_avg:160.66ms
step:140/1530 train_loss:4.4650 train_time:20889ms step_avg:160.69ms
step:141/1530 train_loss:4.3172 train_time:21054ms step_avg:160.72ms
step:142/1530 train_loss:4.3147 train_time:21218ms step_avg:160.74ms
step:143/1530 train_loss:4.2554 train_time:21382ms step_avg:160.76ms
step:144/1530 train_loss:4.3538 train_time:21545ms step_avg:160.79ms
step:145/1530 train_loss:4.3113 train_time:21710ms step_avg:160.82ms
step:146/1530 train_loss:4.1682 train_time:21875ms step_avg:160.85ms
step:147/1530 train_loss:4.3251 train_time:22039ms step_avg:160.87ms
step:148/1530 train_loss:4.3706 train_time:22203ms step_avg:160.89ms
step:149/1530 train_loss:4.3053 train_time:22367ms step_avg:160.92ms
step:150/1530 train_loss:4.4315 train_time:22532ms step_avg:160.94ms
step:151/1530 train_loss:4.2646 train_time:22696ms step_avg:160.96ms
step:152/1530 train_loss:4.2636 train_time:22859ms step_avg:160.98ms
step:153/1530 train_loss:4.3623 train_time:23023ms step_avg:161.00ms
step:154/1530 train_loss:4.3722 train_time:23187ms step_avg:161.02ms
step:155/1530 train_loss:4.2694 train_time:23351ms step_avg:161.04ms
step:156/1530 train_loss:4.3446 train_time:23514ms step_avg:161.05ms
step:157/1530 train_loss:4.4169 train_time:23679ms step_avg:161.08ms
step:158/1530 train_loss:4.2495 train_time:23842ms step_avg:161.09ms
step:159/1530 train_loss:4.3132 train_time:24005ms step_avg:161.11ms
step:160/1530 train_loss:4.1331 train_time:24171ms step_avg:161.14ms
step:161/1530 train_loss:4.3531 train_time:24334ms step_avg:161.15ms
step:162/1530 train_loss:4.3663 train_time:24497ms step_avg:161.17ms
step:163/1530 train_loss:4.3501 train_time:24661ms step_avg:161.18ms
step:164/1530 train_loss:4.1849 train_time:24825ms step_avg:161.20ms
step:165/1530 train_loss:4.2834 train_time:24988ms step_avg:161.21ms
step:166/1530 train_loss:4.3362 train_time:25154ms step_avg:161.24ms
step:167/1530 train_loss:4.2035 train_time:25318ms step_avg:161.26ms
step:168/1530 train_loss:4.2905 train_time:25481ms step_avg:161.27ms
step:169/1530 train_loss:4.1591 train_time:25645ms step_avg:161.29ms
step:170/1530 train_loss:4.0237 train_time:25810ms step_avg:161.31ms
step:171/1530 train_loss:4.2030 train_time:25972ms step_avg:161.32ms
step:172/1530 train_loss:4.2071 train_time:26136ms step_avg:161.33ms
step:173/1530 train_loss:4.2607 train_time:26299ms step_avg:161.35ms
step:174/1530 train_loss:4.4132 train_time:26463ms step_avg:161.36ms
step:175/1530 train_loss:4.2478 train_time:26625ms step_avg:161.36ms
step:176/1530 train_loss:4.0889 train_time:26787ms step_avg:161.37ms
step:177/1530 train_loss:4.0567 train_time:26949ms step_avg:161.37ms
step:178/1530 train_loss:4.1824 train_time:27113ms step_avg:161.39ms
step:179/1530 train_loss:4.1256 train_time:27277ms step_avg:161.40ms
step:180/1530 train_loss:4.1080 train_time:27439ms step_avg:161.41ms
step:181/1530 train_loss:4.2916 train_time:27603ms step_avg:161.42ms
step:182/1530 train_loss:4.1593 train_time:27766ms step_avg:161.43ms
step:183/1530 train_loss:4.1317 train_time:27928ms step_avg:161.43ms
step:184/1530 train_loss:4.1171 train_time:28090ms step_avg:161.44ms
step:185/1530 train_loss:4.1975 train_time:28253ms step_avg:161.45ms
step:186/1530 train_loss:4.1700 train_time:28416ms step_avg:161.45ms
step:187/1530 train_loss:4.2390 train_time:28579ms step_avg:161.46ms
step:188/1530 train_loss:4.1741 train_time:28881ms step_avg:162.25ms
step:189/1530 train_loss:4.1065 train_time:29210ms step_avg:163.19ms
step:190/1530 train_loss:4.2054 train_time:29373ms step_avg:163.18ms
step:191/1530 train_loss:4.0822 train_time:29536ms step_avg:163.18ms
step:192/1530 train_loss:4.0242 train_time:29700ms step_avg:163.19ms
step:193/1530 train_loss:4.2545 train_time:29864ms step_avg:163.19ms
step:194/1530 train_loss:4.1701 train_time:30025ms step_avg:163.18ms
step:195/1530 train_loss:4.3539 train_time:30188ms step_avg:163.18ms
step:196/1530 train_loss:4.1786 train_time:30352ms step_avg:163.18ms
step:197/1530 train_loss:4.0468 train_time:30515ms step_avg:163.18ms
step:198/1530 train_loss:4.1775 train_time:30678ms step_avg:163.18ms
step:199/1530 train_loss:4.0319 train_time:30841ms step_avg:163.18ms
step:200/1530 train_loss:4.1076 train_time:31004ms step_avg:163.18ms
step:201/1530 train_loss:4.0127 train_time:31168ms step_avg:163.18ms
step:202/1530 train_loss:4.2523 train_time:31331ms step_avg:163.18ms
step:203/1530 train_loss:4.0637 train_time:31494ms step_avg:163.18ms
step:204/1530 train_loss:4.1885 train_time:31658ms step_avg:163.19ms
step:205/1530 train_loss:4.2387 train_time:31820ms step_avg:163.18ms
step:206/1530 train_loss:3.9391 train_time:31983ms step_avg:163.18ms
step:207/1530 train_loss:4.0754 train_time:32146ms step_avg:163.18ms
step:208/1530 train_loss:4.0990 train_time:32309ms step_avg:163.18ms
step:209/1530 train_loss:4.2402 train_time:32473ms step_avg:163.18ms
step:210/1530 train_loss:4.1698 train_time:32639ms step_avg:163.19ms
step:211/1530 train_loss:4.0500 train_time:32802ms step_avg:163.19ms
step:212/1530 train_loss:4.1123 train_time:32964ms step_avg:163.19ms
step:213/1530 train_loss:4.0487 train_time:33127ms step_avg:163.19ms
step:214/1530 train_loss:4.1072 train_time:33291ms step_avg:163.19ms
step:215/1530 train_loss:3.9607 train_time:33454ms step_avg:163.19ms
step:216/1530 train_loss:4.0073 train_time:33616ms step_avg:163.19ms
step:217/1530 train_loss:4.0222 train_time:33779ms step_avg:163.19ms
step:218/1530 train_loss:4.0833 train_time:33943ms step_avg:163.19ms
step:219/1530 train_loss:4.0683 train_time:34106ms step_avg:163.19ms
step:220/1530 train_loss:4.0815 train_time:34269ms step_avg:163.19ms
step:221/1530 train_loss:4.0948 train_time:34431ms step_avg:163.18ms
step:222/1530 train_loss:3.9906 train_time:34595ms step_avg:163.18ms
step:223/1530 train_loss:3.9986 train_time:34758ms step_avg:163.18ms
step:224/1530 train_loss:4.2964 train_time:34920ms step_avg:163.18ms
step:225/1530 train_loss:3.9240 train_time:35083ms step_avg:163.18ms
step:226/1530 train_loss:3.9818 train_time:35246ms step_avg:163.18ms
step:227/1530 train_loss:3.9728 train_time:35409ms step_avg:163.18ms
step:228/1530 train_loss:4.1393 train_time:35575ms step_avg:163.19ms
step:229/1530 train_loss:3.9211 train_time:35742ms step_avg:163.20ms
step:230/1530 train_loss:4.0323 train_time:35907ms step_avg:163.21ms
step:231/1530 train_loss:3.9031 train_time:36074ms step_avg:163.23ms
step:232/1530 train_loss:3.9613 train_time:36240ms step_avg:163.24ms
step:233/1530 train_loss:4.0915 train_time:36404ms step_avg:163.25ms
step:234/1530 train_loss:4.0329 train_time:36573ms step_avg:163.27ms
step:235/1530 train_loss:3.9039 train_time:36740ms step_avg:163.29ms
step:236/1530 train_loss:4.0784 train_time:36906ms step_avg:163.30ms
step:237/1530 train_loss:4.0729 train_time:37074ms step_avg:163.32ms
step:238/1530 train_loss:3.9350 train_time:37240ms step_avg:163.33ms
step:239/1530 train_loss:4.0720 train_time:37406ms step_avg:163.35ms
step:240/1530 train_loss:4.1059 train_time:37574ms step_avg:163.37ms
step:241/1530 train_loss:3.9657 train_time:37740ms step_avg:163.38ms
step:242/1530 train_loss:4.1528 train_time:37907ms step_avg:163.39ms
step:243/1530 train_loss:4.0014 train_time:38074ms step_avg:163.41ms
step:244/1530 train_loss:4.0751 train_time:38241ms step_avg:163.42ms
step:245/1530 train_loss:4.1367 train_time:38408ms step_avg:163.44ms
step:246/1530 train_loss:4.0505 train_time:38575ms step_avg:163.45ms
step:247/1530 train_loss:3.9977 train_time:38741ms step_avg:163.46ms
step:248/1530 train_loss:4.1078 train_time:38908ms step_avg:163.48ms
step:249/1530 train_loss:3.9142 train_time:39076ms step_avg:163.50ms
step:250/1530 train_loss:3.9592 train_time:39242ms step_avg:163.51ms
step:250/1530 val_loss:3.9992 train_time:39290ms step_avg:163.71ms
step:251/1530 train_loss:4.0670 train_time:39411ms step_avg:163.53ms
step:252/1530 train_loss:4.1613 train_time:39578ms step_avg:163.54ms
step:253/1530 train_loss:3.9302 train_time:39744ms step_avg:163.55ms
step:254/1530 train_loss:3.8815 train_time:39909ms step_avg:163.56ms
step:255/1530 train_loss:4.0762 train_time:40075ms step_avg:163.57ms
step:256/1530 train_loss:3.9877 train_time:40242ms step_avg:163.58ms
step:257/1530 train_loss:3.9879 train_time:40407ms step_avg:163.59ms
step:258/1530 train_loss:3.9795 train_time:40574ms step_avg:163.60ms
step:259/1530 train_loss:4.0218 train_time:40741ms step_avg:163.62ms
step:260/1530 train_loss:4.0506 train_time:40908ms step_avg:163.63ms
step:261/1530 train_loss:4.0151 train_time:41075ms step_avg:163.65ms
step:262/1530 train_loss:3.9876 train_time:41242ms step_avg:163.66ms
step:263/1530 train_loss:3.8880 train_time:41408ms step_avg:163.67ms
step:264/1530 train_loss:3.9822 train_time:41575ms step_avg:163.68ms
step:265/1530 train_loss:3.8650 train_time:41742ms step_avg:163.69ms
step:266/1530 train_loss:3.9162 train_time:41907ms step_avg:163.70ms
step:267/1530 train_loss:3.9265 train_time:42073ms step_avg:163.71ms
step:268/1530 train_loss:3.9605 train_time:42240ms step_avg:163.72ms
step:269/1530 train_loss:3.8454 train_time:42406ms step_avg:163.73ms
step:270/1530 train_loss:4.0920 train_time:42573ms step_avg:163.74ms
step:271/1530 train_loss:3.9650 train_time:42739ms step_avg:163.75ms
step:272/1530 train_loss:3.9331 train_time:42905ms step_avg:163.76ms
step:273/1530 train_loss:3.9457 train_time:43069ms step_avg:163.76ms
step:274/1530 train_loss:4.0418 train_time:43239ms step_avg:163.79ms
step:275/1530 train_loss:4.0546 train_time:43406ms step_avg:163.80ms
step:276/1530 train_loss:4.2331 train_time:43574ms step_avg:163.81ms
step:277/1530 train_loss:4.0323 train_time:43740ms step_avg:163.82ms
step:278/1530 train_loss:4.0759 train_time:43905ms step_avg:163.83ms
step:279/1530 train_loss:3.9981 train_time:44071ms step_avg:163.83ms
step:280/1530 train_loss:4.2030 train_time:44240ms step_avg:163.85ms
step:281/1530 train_loss:3.9731 train_time:44406ms step_avg:163.86ms
step:282/1530 train_loss:3.9395 train_time:44573ms step_avg:163.87ms
step:283/1530 train_loss:3.9048 train_time:44739ms step_avg:163.88ms
step:284/1530 train_loss:4.0419 train_time:44905ms step_avg:163.89ms
step:285/1530 train_loss:4.0444 train_time:45071ms step_avg:163.89ms
step:286/1530 train_loss:4.0811 train_time:45237ms step_avg:163.90ms
step:287/1530 train_loss:3.9035 train_time:45402ms step_avg:163.91ms
step:288/1530 train_loss:4.0163 train_time:45567ms step_avg:163.91ms
step:289/1530 train_loss:3.8694 train_time:45734ms step_avg:163.92ms
step:290/1530 train_loss:3.8474 train_time:45900ms step_avg:163.93ms
step:291/1530 train_loss:3.9008 train_time:46065ms step_avg:163.93ms
step:292/1530 train_loss:3.8620 train_time:46231ms step_avg:163.94ms
step:293/1530 train_loss:3.8971 train_time:46396ms step_avg:163.94ms
step:294/1530 train_loss:3.9338 train_time:46562ms step_avg:163.95ms
step:295/1530 train_loss:3.8390 train_time:46727ms step_avg:163.95ms
step:296/1530 train_loss:3.8580 train_time:46893ms step_avg:163.96ms
step:297/1530 train_loss:3.8600 train_time:47058ms step_avg:163.97ms
step:298/1530 train_loss:3.9697 train_time:47223ms step_avg:163.97ms
step:299/1530 train_loss:3.8168 train_time:47388ms step_avg:163.97ms
step:300/1530 train_loss:3.9585 train_time:47553ms step_avg:163.98ms
step:301/1530 train_loss:3.9575 train_time:47719ms step_avg:163.98ms
step:302/1530 train_loss:3.9284 train_time:47883ms step_avg:163.98ms
step:303/1530 train_loss:3.9839 train_time:48048ms step_avg:163.99ms
step:304/1530 train_loss:3.9594 train_time:48215ms step_avg:164.00ms
step:305/1530 train_loss:4.4468 train_time:48380ms step_avg:164.00ms
step:306/1530 train_loss:3.9433 train_time:48544ms step_avg:164.00ms
step:307/1530 train_loss:3.8345 train_time:48709ms step_avg:164.00ms
step:308/1530 train_loss:3.9707 train_time:48875ms step_avg:164.01ms
step:309/1530 train_loss:3.8722 train_time:49041ms step_avg:164.02ms
step:310/1530 train_loss:4.0804 train_time:49206ms step_avg:164.02ms
step:311/1530 train_loss:3.9209 train_time:49370ms step_avg:164.02ms
step:312/1530 train_loss:3.8614 train_time:49537ms step_avg:164.03ms
step:313/1530 train_loss:3.9260 train_time:49702ms step_avg:164.03ms
step:314/1530 train_loss:4.0626 train_time:49867ms step_avg:164.03ms
step:315/1530 train_loss:3.9369 train_time:50034ms step_avg:164.05ms
step:316/1530 train_loss:3.7918 train_time:50200ms step_avg:164.05ms
step:317/1530 train_loss:3.8719 train_time:50364ms step_avg:164.05ms
step:318/1530 train_loss:3.9140 train_time:50529ms step_avg:164.05ms
step:319/1530 train_loss:3.8880 train_time:50694ms step_avg:164.06ms
step:320/1530 train_loss:4.0055 train_time:50859ms step_avg:164.06ms
step:321/1530 train_loss:3.9439 train_time:51024ms step_avg:164.06ms
step:322/1530 train_loss:3.9296 train_time:51189ms step_avg:164.07ms
step:323/1530 train_loss:4.0005 train_time:51355ms step_avg:164.07ms
step:324/1530 train_loss:3.9429 train_time:51521ms step_avg:164.08ms
step:325/1530 train_loss:4.0043 train_time:51685ms step_avg:164.08ms
step:326/1530 train_loss:3.8914 train_time:51851ms step_avg:164.09ms
step:327/1530 train_loss:4.3926 train_time:52019ms step_avg:164.10ms
step:328/1530 train_loss:4.0638 train_time:52183ms step_avg:164.10ms
step:329/1530 train_loss:3.7852 train_time:52348ms step_avg:164.10ms
step:330/1530 train_loss:3.7452 train_time:52513ms step_avg:164.10ms
step:331/1530 train_loss:3.9676 train_time:52678ms step_avg:164.11ms
step:332/1530 train_loss:3.9061 train_time:52843ms step_avg:164.11ms
step:333/1530 train_loss:3.8724 train_time:53007ms step_avg:164.11ms
step:334/1530 train_loss:3.8363 train_time:53174ms step_avg:164.12ms
step:335/1530 train_loss:4.0072 train_time:53340ms step_avg:164.12ms
step:336/1530 train_loss:3.9659 train_time:53505ms step_avg:164.13ms
step:337/1530 train_loss:4.4142 train_time:53671ms step_avg:164.13ms
step:338/1530 train_loss:3.9266 train_time:53837ms step_avg:164.14ms
step:339/1530 train_loss:3.8570 train_time:54002ms step_avg:164.14ms
step:340/1530 train_loss:3.9267 train_time:54167ms step_avg:164.14ms
step:341/1530 train_loss:3.8452 train_time:54334ms step_avg:164.15ms
step:342/1530 train_loss:3.8056 train_time:54502ms step_avg:164.16ms
step:343/1530 train_loss:3.8350 train_time:54670ms step_avg:164.17ms
step:344/1530 train_loss:3.9917 train_time:54837ms step_avg:164.18ms
step:345/1530 train_loss:3.8108 train_time:55006ms step_avg:164.20ms
step:346/1530 train_loss:3.7558 train_time:55173ms step_avg:164.20ms
step:347/1530 train_loss:3.7935 train_time:55342ms step_avg:164.22ms
step:348/1530 train_loss:3.8509 train_time:55511ms step_avg:164.23ms
step:349/1530 train_loss:3.8234 train_time:55680ms step_avg:164.25ms
step:350/1530 train_loss:3.5623 train_time:55847ms step_avg:164.26ms
step:351/1530 train_loss:3.8192 train_time:56015ms step_avg:164.27ms
step:352/1530 train_loss:4.1932 train_time:56182ms step_avg:164.28ms
step:353/1530 train_loss:3.6588 train_time:56350ms step_avg:164.29ms
step:354/1530 train_loss:3.9273 train_time:56518ms step_avg:164.30ms
step:355/1530 train_loss:3.7872 train_time:56685ms step_avg:164.30ms
step:356/1530 train_loss:3.8803 train_time:56853ms step_avg:164.31ms
step:357/1530 train_loss:3.7463 train_time:57023ms step_avg:164.33ms
step:358/1530 train_loss:3.8546 train_time:57190ms step_avg:164.34ms
step:359/1530 train_loss:3.7785 train_time:57360ms step_avg:164.36ms
step:360/1530 train_loss:3.4220 train_time:57530ms step_avg:164.37ms
step:361/1530 train_loss:4.0111 train_time:57700ms step_avg:164.39ms
step:362/1530 train_loss:3.9107 train_time:57868ms step_avg:164.40ms
step:363/1530 train_loss:3.8324 train_time:58037ms step_avg:164.41ms
step:364/1530 train_loss:3.7375 train_time:58205ms step_avg:164.42ms
step:365/1530 train_loss:3.9060 train_time:58374ms step_avg:164.43ms
step:366/1530 train_loss:3.8562 train_time:58542ms step_avg:164.44ms
step:367/1530 train_loss:3.8473 train_time:58710ms step_avg:164.45ms
step:368/1530 train_loss:3.8463 train_time:58878ms step_avg:164.46ms
step:369/1530 train_loss:3.7412 train_time:59045ms step_avg:164.47ms
step:370/1530 train_loss:3.8717 train_time:59213ms step_avg:164.48ms
step:371/1530 train_loss:3.7277 train_time:59380ms step_avg:164.49ms
step:372/1530 train_loss:3.6881 train_time:59548ms step_avg:164.50ms
step:373/1530 train_loss:3.9023 train_time:59717ms step_avg:164.51ms
step:374/1530 train_loss:3.8159 train_time:59883ms step_avg:164.52ms
step:375/1530 train_loss:3.7908 train_time:60052ms step_avg:164.53ms
step:375/1530 val_loss:3.8175 train_time:60101ms step_avg:164.66ms
step:376/1530 train_loss:3.8578 train_time:60222ms step_avg:164.54ms
step:377/1530 train_loss:3.7901 train_time:60531ms step_avg:164.94ms
step:378/1530 train_loss:3.8445 train_time:60708ms step_avg:164.97ms
step:379/1530 train_loss:3.8676 train_time:61025ms step_avg:165.38ms
step:380/1530 train_loss:3.9478 train_time:61193ms step_avg:165.39ms
step:381/1530 train_loss:3.8287 train_time:61360ms step_avg:165.39ms
step:382/1530 train_loss:3.7930 train_time:61529ms step_avg:165.40ms
step:383/1530 train_loss:3.7841 train_time:61698ms step_avg:165.41ms
step:384/1530 train_loss:3.8668 train_time:61864ms step_avg:165.41ms
step:385/1530 train_loss:3.7868 train_time:62033ms step_avg:165.42ms
step:386/1530 train_loss:3.8837 train_time:62199ms step_avg:165.42ms
step:387/1530 train_loss:4.0500 train_time:62367ms step_avg:165.43ms
step:388/1530 train_loss:3.7840 train_time:62535ms step_avg:165.44ms
step:389/1530 train_loss:3.7841 train_time:62702ms step_avg:165.44ms
step:390/1530 train_loss:3.8966 train_time:62873ms step_avg:165.46ms
step:391/1530 train_loss:3.8048 train_time:63040ms step_avg:165.46ms
step:392/1530 train_loss:3.9159 train_time:63207ms step_avg:165.46ms
step:393/1530 train_loss:3.7577 train_time:63376ms step_avg:165.47ms
step:394/1530 train_loss:3.8775 train_time:63543ms step_avg:165.48ms
step:395/1530 train_loss:3.6365 train_time:63711ms step_avg:165.48ms
step:396/1530 train_loss:3.8274 train_time:63879ms step_avg:165.49ms
step:397/1530 train_loss:3.8511 train_time:64046ms step_avg:165.49ms
step:398/1530 train_loss:3.8742 train_time:64214ms step_avg:165.50ms
step:399/1530 train_loss:3.7648 train_time:64381ms step_avg:165.50ms
step:400/1530 train_loss:3.8208 train_time:64548ms step_avg:165.51ms
step:401/1530 train_loss:3.9122 train_time:64716ms step_avg:165.51ms
step:402/1530 train_loss:3.8399 train_time:64883ms step_avg:165.52ms
step:403/1530 train_loss:3.9465 train_time:65052ms step_avg:165.53ms
step:404/1530 train_loss:3.6783 train_time:65218ms step_avg:165.53ms
step:405/1530 train_loss:3.7783 train_time:65385ms step_avg:165.53ms
step:406/1530 train_loss:4.0877 train_time:65553ms step_avg:165.54ms
step:407/1530 train_loss:3.7706 train_time:65719ms step_avg:165.54ms
step:408/1530 train_loss:3.8111 train_time:65887ms step_avg:165.55ms
step:409/1530 train_loss:3.8444 train_time:66054ms step_avg:165.55ms
step:410/1530 train_loss:3.7506 train_time:66220ms step_avg:165.55ms
step:411/1530 train_loss:3.7566 train_time:66386ms step_avg:165.55ms
step:412/1530 train_loss:4.1755 train_time:66555ms step_avg:165.56ms
step:413/1530 train_loss:3.6272 train_time:66722ms step_avg:165.56ms
step:414/1530 train_loss:3.9993 train_time:66888ms step_avg:165.56ms
step:415/1530 train_loss:3.7428 train_time:67055ms step_avg:165.57ms
step:416/1530 train_loss:3.7513 train_time:67221ms step_avg:165.57ms
step:417/1530 train_loss:3.9431 train_time:67391ms step_avg:165.58ms
step:418/1530 train_loss:3.6806 train_time:67558ms step_avg:165.58ms
step:419/1530 train_loss:3.8021 train_time:67724ms step_avg:165.58ms
step:420/1530 train_loss:3.6974 train_time:67893ms step_avg:165.59ms
step:421/1530 train_loss:3.6407 train_time:68060ms step_avg:165.60ms
step:422/1530 train_loss:3.7779 train_time:68227ms step_avg:165.60ms
step:423/1530 train_loss:3.8665 train_time:68394ms step_avg:165.60ms
step:424/1530 train_loss:3.6069 train_time:68560ms step_avg:165.60ms
step:425/1530 train_loss:3.7828 train_time:68729ms step_avg:165.61ms
step:426/1530 train_loss:3.6399 train_time:68897ms step_avg:165.62ms
step:427/1530 train_loss:3.8821 train_time:69064ms step_avg:165.62ms
step:428/1530 train_loss:3.8018 train_time:69232ms step_avg:165.63ms
step:429/1530 train_loss:3.7540 train_time:69398ms step_avg:165.63ms
step:430/1530 train_loss:3.6981 train_time:69565ms step_avg:165.63ms
step:431/1530 train_loss:3.6244 train_time:69733ms step_avg:165.64ms
step:432/1530 train_loss:3.7568 train_time:69899ms step_avg:165.64ms
step:433/1530 train_loss:3.8101 train_time:70068ms step_avg:165.64ms
step:434/1530 train_loss:3.7670 train_time:70234ms step_avg:165.65ms
step:435/1530 train_loss:3.7987 train_time:70402ms step_avg:165.65ms
step:436/1530 train_loss:3.8223 train_time:70570ms step_avg:165.66ms
step:437/1530 train_loss:3.7111 train_time:70736ms step_avg:165.66ms
step:438/1530 train_loss:3.6958 train_time:70904ms step_avg:165.66ms
step:439/1530 train_loss:3.7072 train_time:71073ms step_avg:165.67ms
step:440/1530 train_loss:3.8840 train_time:71239ms step_avg:165.67ms
step:441/1530 train_loss:3.7531 train_time:71407ms step_avg:165.68ms
step:442/1530 train_loss:3.7347 train_time:71575ms step_avg:165.68ms
step:443/1530 train_loss:3.6147 train_time:71741ms step_avg:165.68ms
step:444/1530 train_loss:3.9154 train_time:71908ms step_avg:165.69ms
step:445/1530 train_loss:3.8411 train_time:72076ms step_avg:165.69ms
step:446/1530 train_loss:3.8278 train_time:72242ms step_avg:165.69ms
step:447/1530 train_loss:3.7439 train_time:72410ms step_avg:165.70ms
step:448/1530 train_loss:3.8453 train_time:72577ms step_avg:165.70ms
step:449/1530 train_loss:3.6860 train_time:72744ms step_avg:165.70ms
step:450/1530 train_loss:3.7047 train_time:72912ms step_avg:165.71ms
step:451/1530 train_loss:3.5770 train_time:73079ms step_avg:165.71ms
step:452/1530 train_loss:3.7057 train_time:73246ms step_avg:165.71ms
step:453/1530 train_loss:3.6609 train_time:73413ms step_avg:165.72ms
step:454/1530 train_loss:3.6349 train_time:73579ms step_avg:165.72ms
step:455/1530 train_loss:3.8350 train_time:73747ms step_avg:165.72ms
step:456/1530 train_loss:3.7236 train_time:73916ms step_avg:165.73ms
step:457/1530 train_loss:3.7817 train_time:74085ms step_avg:165.74ms
step:458/1530 train_loss:3.8139 train_time:74255ms step_avg:165.75ms
step:459/1530 train_loss:3.6290 train_time:74426ms step_avg:165.76ms
step:460/1530 train_loss:3.7874 train_time:74596ms step_avg:165.77ms
step:461/1530 train_loss:3.6841 train_time:74766ms step_avg:165.78ms
step:462/1530 train_loss:3.7294 train_time:74935ms step_avg:165.79ms
step:463/1530 train_loss:3.7673 train_time:75105ms step_avg:165.79ms
step:464/1530 train_loss:3.7056 train_time:75275ms step_avg:165.80ms
step:465/1530 train_loss:3.7034 train_time:75443ms step_avg:165.81ms
step:466/1530 train_loss:3.7914 train_time:75612ms step_avg:165.82ms
step:467/1530 train_loss:3.8152 train_time:75782ms step_avg:165.82ms
step:468/1530 train_loss:3.7873 train_time:75951ms step_avg:165.83ms
step:469/1530 train_loss:3.6806 train_time:76120ms step_avg:165.84ms
step:470/1530 train_loss:3.7592 train_time:76291ms step_avg:165.85ms
step:471/1530 train_loss:3.8086 train_time:76462ms step_avg:165.86ms
step:472/1530 train_loss:3.7744 train_time:76633ms step_avg:165.87ms
step:473/1530 train_loss:3.7054 train_time:76801ms step_avg:165.88ms
step:474/1530 train_loss:3.5918 train_time:76970ms step_avg:165.88ms
step:475/1530 train_loss:4.0125 train_time:77140ms step_avg:165.89ms
step:476/1530 train_loss:3.7449 train_time:77309ms step_avg:165.90ms
step:477/1530 train_loss:3.5881 train_time:77479ms step_avg:165.91ms
step:478/1530 train_loss:3.8215 train_time:77648ms step_avg:165.92ms
step:479/1530 train_loss:3.7668 train_time:77817ms step_avg:165.92ms
step:480/1530 train_loss:3.9134 train_time:77988ms step_avg:165.93ms
step:481/1530 train_loss:3.7151 train_time:78158ms step_avg:165.94ms
step:482/1530 train_loss:3.5250 train_time:78327ms step_avg:165.95ms
step:483/1530 train_loss:3.7954 train_time:78497ms step_avg:165.96ms
step:484/1530 train_loss:3.6514 train_time:78667ms step_avg:165.97ms
step:485/1530 train_loss:3.6559 train_time:78837ms step_avg:165.97ms
step:486/1530 train_loss:3.5679 train_time:79008ms step_avg:165.98ms
step:487/1530 train_loss:3.6792 train_time:79178ms step_avg:165.99ms
step:488/1530 train_loss:3.8723 train_time:79346ms step_avg:166.00ms
step:489/1530 train_loss:3.6992 train_time:79518ms step_avg:166.01ms
step:490/1530 train_loss:3.5840 train_time:79689ms step_avg:166.02ms
step:491/1530 train_loss:3.6048 train_time:79858ms step_avg:166.02ms
step:492/1530 train_loss:3.7281 train_time:80028ms step_avg:166.03ms
step:493/1530 train_loss:3.5681 train_time:80198ms step_avg:166.04ms
step:494/1530 train_loss:3.6865 train_time:80367ms step_avg:166.05ms
step:495/1530 train_loss:3.6555 train_time:80537ms step_avg:166.06ms
step:496/1530 train_loss:3.5026 train_time:80708ms step_avg:166.07ms
step:497/1530 train_loss:3.7236 train_time:80877ms step_avg:166.07ms
step:498/1530 train_loss:3.7808 train_time:81045ms step_avg:166.08ms
step:499/1530 train_loss:3.8151 train_time:81215ms step_avg:166.08ms
step:500/1530 train_loss:3.7159 train_time:81385ms step_avg:166.09ms
step:500/1530 val_loss:3.6970 train_time:81433ms step_avg:166.19ms
step:501/1530 train_loss:3.8032 train_time:81556ms step_avg:166.10ms
step:502/1530 train_loss:3.7519 train_time:81729ms step_avg:166.12ms
step:503/1530 train_loss:3.7701 train_time:81898ms step_avg:166.12ms
step:504/1530 train_loss:3.7081 train_time:82067ms step_avg:166.13ms
step:505/1530 train_loss:3.7967 train_time:82236ms step_avg:166.13ms
step:506/1530 train_loss:3.6402 train_time:82406ms step_avg:166.14ms
step:507/1530 train_loss:3.7561 train_time:82574ms step_avg:166.15ms
step:508/1530 train_loss:3.8180 train_time:82748ms step_avg:166.16ms
step:509/1530 train_loss:3.7599 train_time:82916ms step_avg:166.16ms
step:510/1530 train_loss:3.5724 train_time:83085ms step_avg:166.17ms
step:511/1530 train_loss:3.7651 train_time:83255ms step_avg:166.18ms
step:512/1530 train_loss:3.7104 train_time:83427ms step_avg:166.19ms
step:513/1530 train_loss:3.6590 train_time:83595ms step_avg:166.19ms
step:514/1530 train_loss:3.8411 train_time:83766ms step_avg:166.20ms
step:515/1530 train_loss:3.7290 train_time:83935ms step_avg:166.21ms
step:516/1530 train_loss:4.0876 train_time:84106ms step_avg:166.22ms
step:517/1530 train_loss:3.6952 train_time:84275ms step_avg:166.22ms
step:518/1530 train_loss:3.7654 train_time:84444ms step_avg:166.23ms
step:519/1530 train_loss:3.6524 train_time:84613ms step_avg:166.23ms
step:520/1530 train_loss:3.6779 train_time:84783ms step_avg:166.24ms
step:521/1530 train_loss:3.6652 train_time:84951ms step_avg:166.25ms
step:522/1530 train_loss:3.6506 train_time:85123ms step_avg:166.26ms
step:523/1530 train_loss:4.2751 train_time:85292ms step_avg:166.26ms
step:524/1530 train_loss:3.7293 train_time:85462ms step_avg:166.27ms
step:525/1530 train_loss:3.6752 train_time:85629ms step_avg:166.27ms
step:526/1530 train_loss:3.6921 train_time:85797ms step_avg:166.27ms
step:527/1530 train_loss:3.6498 train_time:85966ms step_avg:166.28ms
step:528/1530 train_loss:3.6195 train_time:86133ms step_avg:166.28ms
step:529/1530 train_loss:3.8367 train_time:86305ms step_avg:166.29ms
step:530/1530 train_loss:3.6419 train_time:86474ms step_avg:166.30ms
step:531/1530 train_loss:3.9173 train_time:86646ms step_avg:166.31ms
step:532/1530 train_loss:3.7245 train_time:86814ms step_avg:166.31ms
step:533/1530 train_loss:3.6499 train_time:86984ms step_avg:166.32ms
step:534/1530 train_loss:3.6602 train_time:87152ms step_avg:166.32ms
step:535/1530 train_loss:3.5933 train_time:87322ms step_avg:166.33ms
step:536/1530 train_loss:3.7382 train_time:87490ms step_avg:166.33ms
step:537/1530 train_loss:3.7186 train_time:87661ms step_avg:166.34ms
step:538/1530 train_loss:3.6133 train_time:87830ms step_avg:166.35ms
step:539/1530 train_loss:4.1014 train_time:88003ms step_avg:166.36ms
step:540/1530 train_loss:3.6697 train_time:88172ms step_avg:166.36ms
step:541/1530 train_loss:3.7740 train_time:88343ms step_avg:166.37ms
step:542/1530 train_loss:3.5782 train_time:88511ms step_avg:166.37ms
step:543/1530 train_loss:3.5750 train_time:88680ms step_avg:166.38ms
step:544/1530 train_loss:3.6273 train_time:88849ms step_avg:166.38ms
step:545/1530 train_loss:3.5798 train_time:89018ms step_avg:166.39ms
step:546/1530 train_loss:3.6095 train_time:89186ms step_avg:166.39ms
step:547/1530 train_loss:3.6305 train_time:89354ms step_avg:166.39ms
step:548/1530 train_loss:3.6067 train_time:89524ms step_avg:166.40ms
step:549/1530 train_loss:3.7135 train_time:89692ms step_avg:166.40ms
step:550/1530 train_loss:3.6099 train_time:89861ms step_avg:166.41ms
step:551/1530 train_loss:3.6222 train_time:90029ms step_avg:166.41ms
step:552/1530 train_loss:3.9216 train_time:90199ms step_avg:166.42ms
step:553/1530 train_loss:3.7453 train_time:90368ms step_avg:166.42ms
step:554/1530 train_loss:3.6999 train_time:90538ms step_avg:166.43ms
step:555/1530 train_loss:3.6212 train_time:90706ms step_avg:166.43ms
step:556/1530 train_loss:3.6941 train_time:90874ms step_avg:166.44ms
step:557/1530 train_loss:3.3051 train_time:91044ms step_avg:166.44ms
step:558/1530 train_loss:3.6021 train_time:91212ms step_avg:166.45ms
step:559/1530 train_loss:3.6377 train_time:91382ms step_avg:166.45ms
step:560/1530 train_loss:3.6787 train_time:91550ms step_avg:166.45ms
step:561/1530 train_loss:3.6040 train_time:91719ms step_avg:166.46ms
step:562/1530 train_loss:3.5458 train_time:91886ms step_avg:166.46ms
step:563/1530 train_loss:3.7476 train_time:92055ms step_avg:166.46ms
step:564/1530 train_loss:3.5657 train_time:92226ms step_avg:166.47ms
step:565/1530 train_loss:3.6733 train_time:92394ms step_avg:166.48ms
step:566/1530 train_loss:3.6115 train_time:92703ms step_avg:166.73ms
step:567/1530 train_loss:3.5947 train_time:92880ms step_avg:166.75ms
step:568/1530 train_loss:3.6737 train_time:93051ms step_avg:166.76ms
step:569/1530 train_loss:3.6373 train_time:93381ms step_avg:167.05ms
step:570/1530 train_loss:3.6861 train_time:93551ms step_avg:167.05ms
step:571/1530 train_loss:3.7513 train_time:93722ms step_avg:167.06ms
step:572/1530 train_loss:3.7224 train_time:93893ms step_avg:167.07ms
step:573/1530 train_loss:3.7316 train_time:94065ms step_avg:167.08ms
step:574/1530 train_loss:3.7727 train_time:94239ms step_avg:167.09ms
step:575/1530 train_loss:3.7258 train_time:94410ms step_avg:167.10ms
step:576/1530 train_loss:3.7530 train_time:94581ms step_avg:167.10ms
step:577/1530 train_loss:3.6609 train_time:94751ms step_avg:167.11ms
step:578/1530 train_loss:3.6690 train_time:94926ms step_avg:167.12ms
step:579/1530 train_loss:3.6683 train_time:95096ms step_avg:167.13ms
step:580/1530 train_loss:3.5806 train_time:95267ms step_avg:167.13ms
step:581/1530 train_loss:3.6310 train_time:95439ms step_avg:167.14ms
step:582/1530 train_loss:3.8420 train_time:95609ms step_avg:167.15ms
step:583/1530 train_loss:3.6199 train_time:95782ms step_avg:167.16ms
step:584/1530 train_loss:3.5832 train_time:95952ms step_avg:167.16ms
step:585/1530 train_loss:3.7822 train_time:96125ms step_avg:167.17ms
step:586/1530 train_loss:3.5093 train_time:96295ms step_avg:167.18ms
step:587/1530 train_loss:3.6636 train_time:96466ms step_avg:167.19ms
step:588/1530 train_loss:3.6405 train_time:96637ms step_avg:167.19ms
step:589/1530 train_loss:3.9840 train_time:96809ms step_avg:167.20ms
step:590/1530 train_loss:3.7727 train_time:96982ms step_avg:167.21ms
step:591/1530 train_loss:3.4947 train_time:97153ms step_avg:167.22ms
step:592/1530 train_loss:3.5293 train_time:97328ms step_avg:167.23ms
step:593/1530 train_loss:3.4938 train_time:97502ms step_avg:167.24ms
step:594/1530 train_loss:3.5463 train_time:97673ms step_avg:167.25ms
step:595/1530 train_loss:3.9154 train_time:97848ms step_avg:167.26ms
step:596/1530 train_loss:3.6454 train_time:98022ms step_avg:167.27ms
step:597/1530 train_loss:3.5778 train_time:98193ms step_avg:167.28ms
step:598/1530 train_loss:3.6486 train_time:98363ms step_avg:167.28ms
step:599/1530 train_loss:3.4712 train_time:98533ms step_avg:167.29ms
step:600/1530 train_loss:3.5870 train_time:98705ms step_avg:167.30ms
step:601/1530 train_loss:3.6372 train_time:98878ms step_avg:167.31ms
step:602/1530 train_loss:3.6608 train_time:99050ms step_avg:167.31ms
step:603/1530 train_loss:3.7739 train_time:99223ms step_avg:167.32ms
step:604/1530 train_loss:3.6007 train_time:99393ms step_avg:167.33ms
step:605/1530 train_loss:3.6070 train_time:99566ms step_avg:167.34ms
step:606/1530 train_loss:3.5711 train_time:99740ms step_avg:167.35ms
step:607/1530 train_loss:3.8313 train_time:99912ms step_avg:167.36ms
step:608/1530 train_loss:3.6207 train_time:100082ms step_avg:167.36ms
step:609/1530 train_loss:3.6131 train_time:100253ms step_avg:167.37ms
step:610/1530 train_loss:3.6923 train_time:100424ms step_avg:167.37ms
step:611/1530 train_loss:3.5900 train_time:100594ms step_avg:167.38ms
step:612/1530 train_loss:3.5668 train_time:100766ms step_avg:167.39ms
step:613/1530 train_loss:3.7566 train_time:100937ms step_avg:167.39ms
step:614/1530 train_loss:3.6917 train_time:101108ms step_avg:167.40ms
step:615/1530 train_loss:3.6976 train_time:101279ms step_avg:167.40ms
step:616/1530 train_loss:3.6215 train_time:101449ms step_avg:167.41ms
step:617/1530 train_loss:3.5446 train_time:101623ms step_avg:167.42ms
step:618/1530 train_loss:3.6807 train_time:101793ms step_avg:167.42ms
step:619/1530 train_loss:3.5416 train_time:101965ms step_avg:167.43ms
step:620/1530 train_loss:3.5828 train_time:102136ms step_avg:167.44ms
step:621/1530 train_loss:3.9184 train_time:102309ms step_avg:167.45ms
step:622/1530 train_loss:3.5671 train_time:102483ms step_avg:167.46ms
step:623/1530 train_loss:3.5900 train_time:102654ms step_avg:167.46ms
step:624/1530 train_loss:3.6875 train_time:102828ms step_avg:167.47ms
step:625/1530 train_loss:3.6958 train_time:102997ms step_avg:167.47ms
step:625/1530 val_loss:3.6180 train_time:103047ms step_avg:167.56ms
step:626/1530 train_loss:3.7288 train_time:103170ms step_avg:167.48ms
step:627/1530 train_loss:3.7136 train_time:103344ms step_avg:167.49ms
step:628/1530 train_loss:3.7507 train_time:103514ms step_avg:167.50ms
step:629/1530 train_loss:3.5863 train_time:103686ms step_avg:167.51ms
step:630/1530 train_loss:3.7188 train_time:103855ms step_avg:167.51ms
step:631/1530 train_loss:3.7383 train_time:104025ms step_avg:167.51ms
step:632/1530 train_loss:3.6392 train_time:104196ms step_avg:167.52ms
step:633/1530 train_loss:3.6032 train_time:104368ms step_avg:167.52ms
step:634/1530 train_loss:3.6877 train_time:104538ms step_avg:167.53ms
step:635/1530 train_loss:3.9407 train_time:104708ms step_avg:167.53ms
step:636/1530 train_loss:3.5387 train_time:104881ms step_avg:167.54ms
step:637/1530 train_loss:3.3491 train_time:105051ms step_avg:167.54ms
step:638/1530 train_loss:3.5828 train_time:105220ms step_avg:167.55ms
step:639/1530 train_loss:3.6186 train_time:105390ms step_avg:167.55ms
step:640/1530 train_loss:3.5662 train_time:105562ms step_avg:167.56ms
step:641/1530 train_loss:3.5863 train_time:105730ms step_avg:167.56ms
step:642/1530 train_loss:3.6221 train_time:105899ms step_avg:167.56ms
step:643/1530 train_loss:3.5890 train_time:106069ms step_avg:167.57ms
step:644/1530 train_loss:3.5532 train_time:106240ms step_avg:167.57ms
step:645/1530 train_loss:3.7671 train_time:106409ms step_avg:167.57ms
step:646/1530 train_loss:3.6651 train_time:106582ms step_avg:167.58ms
step:647/1530 train_loss:3.6588 train_time:106752ms step_avg:167.59ms
step:648/1530 train_loss:3.7005 train_time:106923ms step_avg:167.59ms
step:649/1530 train_loss:3.7591 train_time:107093ms step_avg:167.59ms
step:650/1530 train_loss:3.6186 train_time:107264ms step_avg:167.60ms
step:651/1530 train_loss:3.7606 train_time:107435ms step_avg:167.61ms
step:652/1530 train_loss:3.5764 train_time:107606ms step_avg:167.61ms
step:653/1530 train_loss:3.6573 train_time:107776ms step_avg:167.61ms
step:654/1530 train_loss:3.4263 train_time:107947ms step_avg:167.62ms
step:655/1530 train_loss:3.5702 train_time:108117ms step_avg:167.62ms
step:656/1530 train_loss:3.5720 train_time:108286ms step_avg:167.63ms
step:657/1530 train_loss:3.5010 train_time:108457ms step_avg:167.63ms
step:658/1530 train_loss:3.6788 train_time:108627ms step_avg:167.63ms
step:659/1530 train_loss:3.5740 train_time:108797ms step_avg:167.64ms
step:660/1530 train_loss:3.6770 train_time:108968ms step_avg:167.64ms
step:661/1530 train_loss:3.7412 train_time:109141ms step_avg:167.65ms
step:662/1530 train_loss:3.6611 train_time:109311ms step_avg:167.65ms
step:663/1530 train_loss:3.5431 train_time:109484ms step_avg:167.66ms
step:664/1530 train_loss:3.6057 train_time:109655ms step_avg:167.67ms
step:665/1530 train_loss:3.4905 train_time:109825ms step_avg:167.67ms
step:666/1530 train_loss:3.7781 train_time:109996ms step_avg:167.68ms
step:667/1530 train_loss:3.5966 train_time:110166ms step_avg:167.68ms
step:668/1530 train_loss:3.6360 train_time:110337ms step_avg:167.69ms
step:669/1530 train_loss:3.4797 train_time:110508ms step_avg:167.69ms
step:670/1530 train_loss:3.5958 train_time:110680ms step_avg:167.70ms
step:671/1530 train_loss:3.5549 train_time:110850ms step_avg:167.70ms
step:672/1530 train_loss:3.5619 train_time:111021ms step_avg:167.71ms
step:673/1530 train_loss:3.8455 train_time:111191ms step_avg:167.71ms
step:674/1530 train_loss:3.6177 train_time:111363ms step_avg:167.72ms
step:675/1530 train_loss:3.7019 train_time:111534ms step_avg:167.72ms
step:676/1530 train_loss:3.4875 train_time:111705ms step_avg:167.72ms
step:677/1530 train_loss:3.5935 train_time:111876ms step_avg:167.73ms
step:678/1530 train_loss:3.5486 train_time:112047ms step_avg:167.74ms
step:679/1530 train_loss:3.6741 train_time:112219ms step_avg:167.74ms
step:680/1530 train_loss:3.5807 train_time:112389ms step_avg:167.74ms
step:681/1530 train_loss:3.6050 train_time:112562ms step_avg:167.75ms
step:682/1530 train_loss:3.6584 train_time:112736ms step_avg:167.76ms
step:683/1530 train_loss:3.7341 train_time:112908ms step_avg:167.77ms
step:684/1530 train_loss:3.6448 train_time:113081ms step_avg:167.78ms
step:685/1530 train_loss:3.6789 train_time:113254ms step_avg:167.78ms
step:686/1530 train_loss:3.6318 train_time:113426ms step_avg:167.79ms
step:687/1530 train_loss:3.6564 train_time:113600ms step_avg:167.80ms
step:688/1530 train_loss:3.1928 train_time:113775ms step_avg:167.81ms
step:689/1530 train_loss:3.4001 train_time:113949ms step_avg:167.82ms
step:690/1530 train_loss:3.5315 train_time:114123ms step_avg:167.83ms
step:691/1530 train_loss:3.4091 train_time:114294ms step_avg:167.83ms
step:692/1530 train_loss:3.6254 train_time:114467ms step_avg:167.84ms
step:693/1530 train_loss:3.6366 train_time:114640ms step_avg:167.85ms
step:694/1530 train_loss:3.5468 train_time:114812ms step_avg:167.85ms
step:695/1530 train_loss:3.5280 train_time:114983ms step_avg:167.86ms
step:696/1530 train_loss:3.8432 train_time:115154ms step_avg:167.86ms
step:697/1530 train_loss:3.5793 train_time:115327ms step_avg:167.87ms
step:698/1530 train_loss:3.6410 train_time:115498ms step_avg:167.88ms
step:699/1530 train_loss:3.7640 train_time:115673ms step_avg:167.88ms
step:700/1530 train_loss:3.5616 train_time:115845ms step_avg:167.89ms
step:701/1530 train_loss:3.5382 train_time:116017ms step_avg:167.90ms
step:702/1530 train_loss:3.5078 train_time:116190ms step_avg:167.91ms
step:703/1530 train_loss:3.4959 train_time:116364ms step_avg:167.91ms
step:704/1530 train_loss:3.5646 train_time:116536ms step_avg:167.92ms
step:705/1530 train_loss:3.5602 train_time:116712ms step_avg:167.93ms
step:706/1530 train_loss:3.5739 train_time:116888ms step_avg:167.94ms
step:707/1530 train_loss:3.6438 train_time:117063ms step_avg:167.95ms
step:708/1530 train_loss:3.5957 train_time:117234ms step_avg:167.96ms
step:709/1530 train_loss:3.5727 train_time:117407ms step_avg:167.96ms
step:710/1530 train_loss:3.5271 train_time:117579ms step_avg:167.97ms
step:711/1530 train_loss:3.5864 train_time:117752ms step_avg:167.98ms
step:712/1530 train_loss:3.6398 train_time:117927ms step_avg:167.99ms
step:713/1530 train_loss:3.6508 train_time:118104ms step_avg:168.00ms
step:714/1530 train_loss:3.5556 train_time:118278ms step_avg:168.01ms
step:715/1530 train_loss:3.5661 train_time:118449ms step_avg:168.01ms
step:716/1530 train_loss:3.5793 train_time:118621ms step_avg:168.02ms
step:717/1530 train_loss:3.6980 train_time:118796ms step_avg:168.03ms
step:718/1530 train_loss:3.5888 train_time:118967ms step_avg:168.03ms
step:719/1530 train_loss:3.6740 train_time:119141ms step_avg:168.04ms
step:720/1530 train_loss:3.8416 train_time:119315ms step_avg:168.05ms
step:721/1530 train_loss:3.4637 train_time:119487ms step_avg:168.06ms
step:722/1530 train_loss:3.7318 train_time:119661ms step_avg:168.06ms
step:723/1530 train_loss:3.7600 train_time:119832ms step_avg:168.07ms
step:724/1530 train_loss:3.5623 train_time:120004ms step_avg:168.07ms
step:725/1530 train_loss:3.6503 train_time:120178ms step_avg:168.08ms
step:726/1530 train_loss:3.5272 train_time:120351ms step_avg:168.09ms
step:727/1530 train_loss:3.5757 train_time:120525ms step_avg:168.10ms
step:728/1530 train_loss:3.7206 train_time:120697ms step_avg:168.10ms
step:729/1530 train_loss:3.6657 train_time:120870ms step_avg:168.11ms
step:730/1530 train_loss:3.6568 train_time:121044ms step_avg:168.12ms
step:731/1530 train_loss:3.5489 train_time:121216ms step_avg:168.12ms
step:732/1530 train_loss:3.5884 train_time:121388ms step_avg:168.13ms
step:733/1530 train_loss:3.8311 train_time:121563ms step_avg:168.14ms
step:734/1530 train_loss:3.5577 train_time:121735ms step_avg:168.14ms
step:735/1530 train_loss:3.6163 train_time:121908ms step_avg:168.15ms
step:736/1530 train_loss:3.7296 train_time:122082ms step_avg:168.16ms
step:737/1530 train_loss:3.6715 train_time:122252ms step_avg:168.16ms
step:738/1530 train_loss:3.5926 train_time:122424ms step_avg:168.16ms
step:739/1530 train_loss:3.5007 train_time:122595ms step_avg:168.17ms
step:740/1530 train_loss:4.1110 train_time:122773ms step_avg:168.18ms
step:741/1530 train_loss:3.4892 train_time:122946ms step_avg:168.19ms
step:742/1530 train_loss:3.5510 train_time:123120ms step_avg:168.20ms
step:743/1530 train_loss:3.5755 train_time:123291ms step_avg:168.20ms
step:744/1530 train_loss:3.6389 train_time:123465ms step_avg:168.21ms
step:745/1530 train_loss:3.5797 train_time:123640ms step_avg:168.22ms
step:746/1530 train_loss:3.5926 train_time:123811ms step_avg:168.22ms
step:747/1530 train_loss:3.6432 train_time:123987ms step_avg:168.23ms
step:748/1530 train_loss:3.5547 train_time:124166ms step_avg:168.25ms
step:749/1530 train_loss:3.5589 train_time:124338ms step_avg:168.25ms
step:750/1530 train_loss:3.5939 train_time:124508ms step_avg:168.25ms
step:750/1530 val_loss:3.5587 train_time:124559ms step_avg:168.32ms
step:751/1530 train_loss:3.5654 train_time:124685ms step_avg:168.27ms
step:752/1530 train_loss:3.6075 train_time:124855ms step_avg:168.27ms
step:753/1530 train_loss:3.6090 train_time:125029ms step_avg:168.28ms
step:754/1530 train_loss:3.5862 train_time:125200ms step_avg:168.28ms
step:755/1530 train_loss:3.6748 train_time:125514ms step_avg:168.48ms
step:756/1530 train_loss:3.4575 train_time:125697ms step_avg:168.49ms
step:757/1530 train_loss:3.7171 train_time:125870ms step_avg:168.50ms
step:758/1530 train_loss:3.6463 train_time:126039ms step_avg:168.50ms
step:759/1530 train_loss:3.5796 train_time:126389ms step_avg:168.74ms
step:760/1530 train_loss:3.6993 train_time:126570ms step_avg:168.76ms
step:761/1530 train_loss:3.3996 train_time:126741ms step_avg:168.76ms
step:762/1530 train_loss:3.5510 train_time:126915ms step_avg:168.77ms
step:763/1530 train_loss:3.6569 train_time:127089ms step_avg:168.78ms
step:764/1530 train_loss:3.3190 train_time:127261ms step_avg:168.78ms
step:765/1530 train_loss:3.7300 train_time:127433ms step_avg:168.79ms
step:766/1530 train_loss:3.5631 train_time:127606ms step_avg:168.79ms
step:767/1530 train_loss:3.5588 train_time:127778ms step_avg:168.80ms
step:768/1530 train_loss:3.5609 train_time:127953ms step_avg:168.80ms
step:769/1530 train_loss:3.5815 train_time:128126ms step_avg:168.81ms
step:770/1530 train_loss:3.6311 train_time:128299ms step_avg:168.81ms
step:771/1530 train_loss:3.8791 train_time:128471ms step_avg:168.82ms
step:772/1530 train_loss:3.4436 train_time:128642ms step_avg:168.82ms
step:773/1530 train_loss:3.6216 train_time:128814ms step_avg:168.83ms
step:774/1530 train_loss:3.6343 train_time:128986ms step_avg:168.83ms
step:775/1530 train_loss:3.6050 train_time:129156ms step_avg:168.83ms
step:776/1530 train_loss:3.3949 train_time:129331ms step_avg:168.84ms
step:777/1530 train_loss:3.3800 train_time:129506ms step_avg:168.85ms
step:778/1530 train_loss:3.4867 train_time:129677ms step_avg:168.85ms
step:779/1530 train_loss:3.5757 train_time:129849ms step_avg:168.85ms
step:780/1530 train_loss:3.5826 train_time:130020ms step_avg:168.86ms
step:781/1530 train_loss:3.6702 train_time:130195ms step_avg:168.86ms
step:782/1530 train_loss:3.5831 train_time:130367ms step_avg:168.87ms
step:783/1530 train_loss:3.5615 train_time:130537ms step_avg:168.87ms
step:784/1530 train_loss:3.6044 train_time:130712ms step_avg:168.88ms
step:785/1530 train_loss:3.5579 train_time:130882ms step_avg:168.88ms
step:786/1530 train_loss:3.4342 train_time:131055ms step_avg:168.89ms
step:787/1530 train_loss:3.7181 train_time:131227ms step_avg:168.89ms
step:788/1530 train_loss:3.4917 train_time:131399ms step_avg:168.89ms
step:789/1530 train_loss:3.5483 train_time:131571ms step_avg:168.90ms
step:790/1530 train_loss:3.6183 train_time:131744ms step_avg:168.90ms
step:791/1530 train_loss:3.7642 train_time:131919ms step_avg:168.91ms
step:792/1530 train_loss:3.7544 train_time:132093ms step_avg:168.92ms
step:793/1530 train_loss:3.4387 train_time:132263ms step_avg:168.92ms
step:794/1530 train_loss:3.5922 train_time:132436ms step_avg:168.92ms
step:795/1530 train_loss:3.6741 train_time:132611ms step_avg:168.93ms
step:796/1530 train_loss:3.7291 train_time:132789ms step_avg:168.94ms
step:797/1530 train_loss:3.5192 train_time:132961ms step_avg:168.95ms
step:798/1530 train_loss:3.6384 train_time:133136ms step_avg:168.95ms
step:799/1530 train_loss:3.5292 train_time:133315ms step_avg:168.97ms
step:800/1530 train_loss:3.5224 train_time:133489ms step_avg:168.97ms
step:801/1530 train_loss:3.6208 train_time:133662ms step_avg:168.98ms
step:802/1530 train_loss:3.4880 train_time:133840ms step_avg:168.99ms
step:803/1530 train_loss:3.4877 train_time:134013ms step_avg:169.00ms
step:804/1530 train_loss:3.6140 train_time:134187ms step_avg:169.00ms
step:805/1530 train_loss:3.5069 train_time:134361ms step_avg:169.01ms
step:806/1530 train_loss:3.5561 train_time:134536ms step_avg:169.02ms
step:807/1530 train_loss:3.6300 train_time:134710ms step_avg:169.02ms
step:808/1530 train_loss:3.5374 train_time:134884ms step_avg:169.03ms
step:809/1530 train_loss:3.4859 train_time:135057ms step_avg:169.03ms
step:810/1530 train_loss:3.5559 train_time:135231ms step_avg:169.04ms
step:811/1530 train_loss:3.5749 train_time:135403ms step_avg:169.04ms
step:812/1530 train_loss:3.5915 train_time:135577ms step_avg:169.05ms
step:813/1530 train_loss:3.6137 train_time:135750ms step_avg:169.05ms
step:814/1530 train_loss:3.5594 train_time:135922ms step_avg:169.06ms
step:815/1530 train_loss:3.5593 train_time:136098ms step_avg:169.07ms
step:816/1530 train_loss:3.6759 train_time:136274ms step_avg:169.07ms
step:817/1530 train_loss:3.7646 train_time:136448ms step_avg:169.08ms
step:818/1530 train_loss:3.5190 train_time:136620ms step_avg:169.08ms
step:819/1530 train_loss:3.7103 train_time:136796ms step_avg:169.09ms
step:820/1530 train_loss:3.4879 train_time:136973ms step_avg:169.10ms
step:821/1530 train_loss:3.5593 train_time:137146ms step_avg:169.11ms
step:822/1530 train_loss:3.6967 train_time:137322ms step_avg:169.12ms
step:823/1530 train_loss:3.5662 train_time:137496ms step_avg:169.12ms
step:824/1530 train_loss:3.5055 train_time:137669ms step_avg:169.13ms
step:825/1530 train_loss:3.6062 train_time:137844ms step_avg:169.13ms
step:826/1530 train_loss:3.4708 train_time:138020ms step_avg:169.14ms
step:827/1530 train_loss:3.7298 train_time:138195ms step_avg:169.15ms
step:828/1530 train_loss:3.6125 train_time:138370ms step_avg:169.16ms
step:829/1530 train_loss:3.6255 train_time:138545ms step_avg:169.16ms
step:830/1530 train_loss:3.5298 train_time:138720ms step_avg:169.17ms
step:831/1530 train_loss:3.5917 train_time:138893ms step_avg:169.18ms
step:832/1530 train_loss:3.5071 train_time:139068ms step_avg:169.18ms
step:833/1530 train_loss:3.6407 train_time:139242ms step_avg:169.19ms
step:834/1530 train_loss:3.4594 train_time:139416ms step_avg:169.19ms
step:835/1530 train_loss:3.4510 train_time:139591ms step_avg:169.20ms
step:836/1530 train_loss:3.7081 train_time:139766ms step_avg:169.21ms
step:837/1530 train_loss:3.3867 train_time:139940ms step_avg:169.21ms
step:838/1530 train_loss:3.5873 train_time:140114ms step_avg:169.22ms
step:839/1530 train_loss:3.4226 train_time:140288ms step_avg:169.23ms
step:840/1530 train_loss:3.4627 train_time:140459ms step_avg:169.23ms
step:841/1530 train_loss:3.5676 train_time:140633ms step_avg:169.23ms
step:842/1530 train_loss:3.5791 train_time:140810ms step_avg:169.24ms
step:843/1530 train_loss:3.5554 train_time:140982ms step_avg:169.25ms
step:844/1530 train_loss:3.4252 train_time:141155ms step_avg:169.25ms
step:845/1530 train_loss:3.6599 train_time:141329ms step_avg:169.26ms
step:846/1530 train_loss:3.5129 train_time:141502ms step_avg:169.26ms
step:847/1530 train_loss:3.4880 train_time:141678ms step_avg:169.27ms
step:848/1530 train_loss:3.6313 train_time:141852ms step_avg:169.27ms
step:849/1530 train_loss:3.4835 train_time:142026ms step_avg:169.28ms
step:850/1530 train_loss:3.4354 train_time:142200ms step_avg:169.29ms
step:851/1530 train_loss:3.7284 train_time:142375ms step_avg:169.29ms
step:852/1530 train_loss:3.4309 train_time:142549ms step_avg:169.30ms
step:853/1530 train_loss:3.5582 train_time:142721ms step_avg:169.30ms
step:854/1530 train_loss:3.6446 train_time:142897ms step_avg:169.31ms
step:855/1530 train_loss:3.5094 train_time:143071ms step_avg:169.31ms
step:856/1530 train_loss:3.5408 train_time:143243ms step_avg:169.32ms
step:857/1530 train_loss:3.5972 train_time:143417ms step_avg:169.32ms
step:858/1530 train_loss:3.4627 train_time:143594ms step_avg:169.33ms
step:859/1530 train_loss:3.5526 train_time:143767ms step_avg:169.34ms
step:860/1530 train_loss:3.5759 train_time:143939ms step_avg:169.34ms
step:861/1530 train_loss:3.6201 train_time:144116ms step_avg:169.35ms
step:862/1530 train_loss:3.6002 train_time:144294ms step_avg:169.36ms
step:863/1530 train_loss:3.5604 train_time:144470ms step_avg:169.37ms
step:864/1530 train_loss:3.3791 train_time:144643ms step_avg:169.37ms
step:865/1530 train_loss:3.5915 train_time:144815ms step_avg:169.37ms
step:866/1530 train_loss:3.8982 train_time:144994ms step_avg:169.39ms
step:867/1530 train_loss:3.4516 train_time:145167ms step_avg:169.39ms
step:868/1530 train_loss:3.6399 train_time:145339ms step_avg:169.39ms
step:869/1530 train_loss:3.6112 train_time:145514ms step_avg:169.40ms
step:870/1530 train_loss:3.4433 train_time:145689ms step_avg:169.41ms
step:871/1530 train_loss:3.3950 train_time:145862ms step_avg:169.41ms
step:872/1530 train_loss:3.6407 train_time:146037ms step_avg:169.42ms
step:873/1530 train_loss:3.4533 train_time:146212ms step_avg:169.42ms
step:874/1530 train_loss:3.2208 train_time:146389ms step_avg:169.43ms
step:875/1530 train_loss:3.6300 train_time:146563ms step_avg:169.44ms
step:875/1530 val_loss:3.5131 train_time:146612ms step_avg:169.49ms
step:876/1530 train_loss:3.4301 train_time:146739ms step_avg:169.44ms
step:877/1530 train_loss:3.6121 train_time:146910ms step_avg:169.45ms
step:878/1530 train_loss:3.4611 train_time:147083ms step_avg:169.45ms
step:879/1530 train_loss:3.6445 train_time:147257ms step_avg:169.46ms
step:880/1530 train_loss:3.3170 train_time:147430ms step_avg:169.46ms
step:881/1530 train_loss:3.4714 train_time:147602ms step_avg:169.46ms
step:882/1530 train_loss:3.6895 train_time:147775ms step_avg:169.47ms
step:883/1530 train_loss:3.8309 train_time:147948ms step_avg:169.47ms
step:884/1530 train_loss:3.5626 train_time:148125ms step_avg:169.48ms
step:885/1530 train_loss:3.4859 train_time:148298ms step_avg:169.48ms
step:886/1530 train_loss:3.5703 train_time:148470ms step_avg:169.49ms
step:887/1530 train_loss:4.0751 train_time:148644ms step_avg:169.49ms
step:888/1530 train_loss:3.8316 train_time:148824ms step_avg:169.50ms
step:889/1530 train_loss:3.5119 train_time:148998ms step_avg:169.51ms
step:890/1530 train_loss:3.5307 train_time:149169ms step_avg:169.51ms
step:891/1530 train_loss:3.3518 train_time:149344ms step_avg:169.52ms
step:892/1530 train_loss:3.7139 train_time:149518ms step_avg:169.52ms
step:893/1530 train_loss:3.4188 train_time:149690ms step_avg:169.52ms
step:894/1530 train_loss:3.6323 train_time:149867ms step_avg:169.53ms
step:895/1530 train_loss:3.6741 train_time:150043ms step_avg:169.54ms
step:896/1530 train_loss:3.4917 train_time:150218ms step_avg:169.55ms
step:897/1530 train_loss:3.5358 train_time:150392ms step_avg:169.55ms
step:898/1530 train_loss:3.5906 train_time:150567ms step_avg:169.56ms
step:899/1530 train_loss:3.4711 train_time:150740ms step_avg:169.56ms
step:900/1530 train_loss:3.4191 train_time:150913ms step_avg:169.56ms
step:901/1530 train_loss:3.6102 train_time:151085ms step_avg:169.57ms
step:902/1530 train_loss:3.6292 train_time:151259ms step_avg:169.57ms
step:903/1530 train_loss:3.5313 train_time:151433ms step_avg:169.58ms
step:904/1530 train_loss:3.4852 train_time:151608ms step_avg:169.58ms
step:905/1530 train_loss:3.4951 train_time:151779ms step_avg:169.59ms
step:906/1530 train_loss:3.7010 train_time:151955ms step_avg:169.59ms
step:907/1530 train_loss:3.5105 train_time:152128ms step_avg:169.60ms
step:908/1530 train_loss:3.5594 train_time:152302ms step_avg:169.60ms
step:909/1530 train_loss:3.4497 train_time:152481ms step_avg:169.61ms
step:910/1530 train_loss:3.5213 train_time:152661ms step_avg:169.62ms
step:911/1530 train_loss:3.6381 train_time:152837ms step_avg:169.63ms
step:912/1530 train_loss:3.6008 train_time:153013ms step_avg:169.64ms
step:913/1530 train_loss:3.4630 train_time:153190ms step_avg:169.65ms
step:914/1530 train_loss:3.7364 train_time:153368ms step_avg:169.66ms
step:915/1530 train_loss:3.5296 train_time:153550ms step_avg:169.67ms
step:916/1530 train_loss:3.6055 train_time:153727ms step_avg:169.68ms
step:917/1530 train_loss:3.5991 train_time:153901ms step_avg:169.68ms
step:918/1530 train_loss:4.8275 train_time:154082ms step_avg:169.69ms
step:919/1530 train_loss:3.4948 train_time:154261ms step_avg:169.70ms
step:920/1530 train_loss:3.5849 train_time:154436ms step_avg:169.71ms
step:921/1530 train_loss:3.5475 train_time:154612ms step_avg:169.72ms
step:922/1530 train_loss:3.5781 train_time:154789ms step_avg:169.72ms
step:923/1530 train_loss:3.6023 train_time:154965ms step_avg:169.73ms
step:924/1530 train_loss:3.6753 train_time:155142ms step_avg:169.74ms
step:925/1530 train_loss:3.6428 train_time:155318ms step_avg:169.75ms
step:926/1530 train_loss:3.5463 train_time:155491ms step_avg:169.75ms
step:927/1530 train_loss:3.5434 train_time:155666ms step_avg:169.76ms
step:928/1530 train_loss:3.7787 train_time:155844ms step_avg:169.76ms
step:929/1530 train_loss:3.6058 train_time:156019ms step_avg:169.77ms
step:930/1530 train_loss:3.3947 train_time:156195ms step_avg:169.78ms
step:931/1530 train_loss:3.4870 train_time:156369ms step_avg:169.78ms
step:932/1530 train_loss:3.6459 train_time:156547ms step_avg:169.79ms
step:933/1530 train_loss:3.3522 train_time:156724ms step_avg:169.80ms
step:934/1530 train_loss:3.5787 train_time:156901ms step_avg:169.81ms
step:935/1530 train_loss:3.4340 train_time:157078ms step_avg:169.81ms
step:936/1530 train_loss:3.5156 train_time:157255ms step_avg:169.82ms
step:937/1530 train_loss:3.6176 train_time:157435ms step_avg:169.83ms
step:938/1530 train_loss:3.5359 train_time:157608ms step_avg:169.84ms
step:939/1530 train_loss:3.6703 train_time:157787ms step_avg:169.85ms
step:940/1530 train_loss:3.4742 train_time:157962ms step_avg:169.85ms
step:941/1530 train_loss:3.5462 train_time:158138ms step_avg:169.86ms
step:942/1530 train_loss:3.3493 train_time:158313ms step_avg:169.86ms
step:943/1530 train_loss:3.7040 train_time:158492ms step_avg:169.87ms
step:944/1530 train_loss:3.3943 train_time:158811ms step_avg:170.03ms
step:945/1530 train_loss:3.4222 train_time:158993ms step_avg:170.05ms
step:946/1530 train_loss:5.0637 train_time:159176ms step_avg:170.06ms
step:947/1530 train_loss:3.5916 train_time:159352ms step_avg:170.07ms
step:948/1530 train_loss:3.4780 train_time:159527ms step_avg:170.07ms
step:949/1530 train_loss:3.3682 train_time:159866ms step_avg:170.25ms
step:950/1530 train_loss:3.4348 train_time:160041ms step_avg:170.26ms
step:951/1530 train_loss:3.4018 train_time:160220ms step_avg:170.27ms
step:952/1530 train_loss:3.4784 train_time:160394ms step_avg:170.27ms
step:953/1530 train_loss:3.5609 train_time:160572ms step_avg:170.28ms
step:954/1530 train_loss:3.4411 train_time:160750ms step_avg:170.29ms
step:955/1530 train_loss:3.4725 train_time:160926ms step_avg:170.29ms
step:956/1530 train_loss:3.4378 train_time:161101ms step_avg:170.30ms
step:957/1530 train_loss:3.4867 train_time:161281ms step_avg:170.31ms
step:958/1530 train_loss:3.4973 train_time:161460ms step_avg:170.32ms
step:959/1530 train_loss:3.5065 train_time:161638ms step_avg:170.32ms
step:960/1530 train_loss:3.4048 train_time:161815ms step_avg:170.33ms
step:961/1530 train_loss:3.6426 train_time:161990ms step_avg:170.34ms
step:962/1530 train_loss:3.5852 train_time:162165ms step_avg:170.34ms
step:963/1530 train_loss:3.4406 train_time:162344ms step_avg:170.35ms
step:964/1530 train_loss:3.4221 train_time:162523ms step_avg:170.36ms
step:965/1530 train_loss:3.4752 train_time:162696ms step_avg:170.36ms
step:966/1530 train_loss:3.7009 train_time:162870ms step_avg:170.37ms
step:967/1530 train_loss:3.5150 train_time:163045ms step_avg:170.37ms
step:968/1530 train_loss:3.5062 train_time:163222ms step_avg:170.38ms
step:969/1530 train_loss:3.5779 train_time:163399ms step_avg:170.38ms
step:970/1530 train_loss:3.3677 train_time:163572ms step_avg:170.39ms
step:971/1530 train_loss:3.5205 train_time:163746ms step_avg:170.39ms
step:972/1530 train_loss:3.4866 train_time:163920ms step_avg:170.39ms
step:973/1530 train_loss:3.5282 train_time:164094ms step_avg:170.40ms
step:974/1530 train_loss:3.5805 train_time:164271ms step_avg:170.41ms
step:975/1530 train_loss:3.4609 train_time:164445ms step_avg:170.41ms
step:976/1530 train_loss:3.6634 train_time:164620ms step_avg:170.41ms
step:977/1530 train_loss:3.5589 train_time:164793ms step_avg:170.42ms
step:978/1530 train_loss:3.3477 train_time:164969ms step_avg:170.42ms
step:979/1530 train_loss:3.6170 train_time:165145ms step_avg:170.43ms
step:980/1530 train_loss:3.4124 train_time:165322ms step_avg:170.44ms
step:981/1530 train_loss:3.5699 train_time:165500ms step_avg:170.44ms
step:982/1530 train_loss:3.5368 train_time:165674ms step_avg:170.45ms
step:983/1530 train_loss:3.5056 train_time:165848ms step_avg:170.45ms
step:984/1530 train_loss:3.4908 train_time:166025ms step_avg:170.46ms
step:985/1530 train_loss:3.5664 train_time:166203ms step_avg:170.46ms
step:986/1530 train_loss:3.4058 train_time:166379ms step_avg:170.47ms
step:987/1530 train_loss:3.4831 train_time:166552ms step_avg:170.47ms
step:988/1530 train_loss:3.4566 train_time:166727ms step_avg:170.48ms
step:989/1530 train_loss:3.4096 train_time:166901ms step_avg:170.48ms
step:990/1530 train_loss:3.6524 train_time:167078ms step_avg:170.49ms
step:991/1530 train_loss:3.4627 train_time:167251ms step_avg:170.49ms
step:992/1530 train_loss:3.4395 train_time:167431ms step_avg:170.50ms
step:993/1530 train_loss:3.4936 train_time:167613ms step_avg:170.51ms
step:994/1530 train_loss:3.5916 train_time:167787ms step_avg:170.51ms
step:995/1530 train_loss:3.5228 train_time:167958ms step_avg:170.52ms
step:996/1530 train_loss:3.4536 train_time:168132ms step_avg:170.52ms
step:997/1530 train_loss:3.7480 train_time:168305ms step_avg:170.52ms
step:998/1530 train_loss:3.4358 train_time:168478ms step_avg:170.52ms
step:999/1530 train_loss:3.5827 train_time:168652ms step_avg:170.53ms
step:1000/1530 train_loss:3.4350 train_time:168829ms step_avg:170.53ms
step:1000/1530 val_loss:3.4610 train_time:168880ms step_avg:170.59ms
step:1001/1530 train_loss:3.4947 train_time:169005ms step_avg:170.54ms
step:1002/1530 train_loss:3.3672 train_time:169179ms step_avg:170.54ms
step:1003/1530 train_loss:3.5500 train_time:169357ms step_avg:170.55ms
step:1004/1530 train_loss:3.5984 train_time:169533ms step_avg:170.56ms
step:1005/1530 train_loss:3.3879 train_time:169708ms step_avg:170.56ms
step:1006/1530 train_loss:3.4570 train_time:169883ms step_avg:170.57ms
step:1007/1530 train_loss:3.4280 train_time:170060ms step_avg:170.57ms
step:1008/1530 train_loss:3.5479 train_time:170236ms step_avg:170.58ms
step:1009/1530 train_loss:3.6537 train_time:170415ms step_avg:170.59ms
step:1010/1530 train_loss:3.5535 train_time:170590ms step_avg:170.59ms
step:1011/1530 train_loss:3.5271 train_time:170763ms step_avg:170.59ms
step:1012/1530 train_loss:3.3823 train_time:170938ms step_avg:170.60ms
step:1013/1530 train_loss:3.5257 train_time:171115ms step_avg:170.60ms
step:1014/1530 train_loss:3.6149 train_time:171289ms step_avg:170.61ms
step:1015/1530 train_loss:3.3237 train_time:171465ms step_avg:170.61ms
step:1016/1530 train_loss:3.4019 train_time:171640ms step_avg:170.62ms
step:1017/1530 train_loss:3.3957 train_time:171817ms step_avg:170.62ms
step:1018/1530 train_loss:3.3895 train_time:171992ms step_avg:170.63ms
step:1019/1530 train_loss:3.5163 train_time:172167ms step_avg:170.63ms
step:1020/1530 train_loss:3.3767 train_time:172345ms step_avg:170.64ms
step:1021/1530 train_loss:3.3498 train_time:172520ms step_avg:170.64ms
step:1022/1530 train_loss:3.4690 train_time:172697ms step_avg:170.65ms
step:1023/1530 train_loss:3.4983 train_time:172874ms step_avg:170.66ms
step:1024/1530 train_loss:3.4666 train_time:173053ms step_avg:170.66ms
step:1025/1530 train_loss:3.4721 train_time:173230ms step_avg:170.67ms
step:1026/1530 train_loss:3.6142 train_time:173405ms step_avg:170.67ms
step:1027/1530 train_loss:3.3121 train_time:173582ms step_avg:170.68ms
step:1028/1530 train_loss:3.3935 train_time:173761ms step_avg:170.69ms
step:1029/1530 train_loss:3.3033 train_time:173941ms step_avg:170.70ms
step:1030/1530 train_loss:3.5338 train_time:174118ms step_avg:170.70ms
step:1031/1530 train_loss:3.4983 train_time:174293ms step_avg:170.71ms
step:1032/1530 train_loss:3.6858 train_time:174474ms step_avg:170.72ms
step:1033/1530 train_loss:3.4794 train_time:174649ms step_avg:170.72ms
step:1034/1530 train_loss:3.3901 train_time:174828ms step_avg:170.73ms
step:1035/1530 train_loss:3.4351 train_time:175003ms step_avg:170.73ms
step:1036/1530 train_loss:3.4761 train_time:175181ms step_avg:170.74ms
step:1037/1530 train_loss:3.7802 train_time:175360ms step_avg:170.75ms
step:1038/1530 train_loss:3.6104 train_time:175539ms step_avg:170.76ms
step:1039/1530 train_loss:3.5073 train_time:175721ms step_avg:170.77ms
step:1040/1530 train_loss:3.4086 train_time:175897ms step_avg:170.77ms
step:1041/1530 train_loss:3.4837 train_time:176074ms step_avg:170.78ms
step:1042/1530 train_loss:3.5159 train_time:176248ms step_avg:170.78ms
step:1043/1530 train_loss:3.4392 train_time:176422ms step_avg:170.79ms
step:1044/1530 train_loss:3.4506 train_time:176599ms step_avg:170.79ms
step:1045/1530 train_loss:3.5080 train_time:176778ms step_avg:170.80ms
step:1046/1530 train_loss:3.4190 train_time:176954ms step_avg:170.80ms
step:1047/1530 train_loss:3.6258 train_time:177131ms step_avg:170.81ms
step:1048/1530 train_loss:3.4958 train_time:177306ms step_avg:170.82ms
step:1049/1530 train_loss:3.3973 train_time:177482ms step_avg:170.82ms
step:1050/1530 train_loss:3.3874 train_time:177661ms step_avg:170.83ms
step:1051/1530 train_loss:3.4891 train_time:177838ms step_avg:170.83ms
step:1052/1530 train_loss:3.3525 train_time:178017ms step_avg:170.84ms
step:1053/1530 train_loss:3.6805 train_time:178194ms step_avg:170.85ms
step:1054/1530 train_loss:3.5300 train_time:178373ms step_avg:170.86ms
step:1055/1530 train_loss:3.3779 train_time:178548ms step_avg:170.86ms
step:1056/1530 train_loss:3.4967 train_time:178723ms step_avg:170.86ms
step:1057/1530 train_loss:3.5702 train_time:178901ms step_avg:170.87ms
step:1058/1530 train_loss:3.2945 train_time:179079ms step_avg:170.88ms
step:1059/1530 train_loss:3.3680 train_time:179262ms step_avg:170.89ms
step:1060/1530 train_loss:3.4299 train_time:179439ms step_avg:170.89ms
step:1061/1530 train_loss:3.4118 train_time:179613ms step_avg:170.90ms
step:1062/1530 train_loss:3.3752 train_time:179790ms step_avg:170.90ms
step:1063/1530 train_loss:3.4538 train_time:179963ms step_avg:170.91ms
step:1064/1530 train_loss:3.3777 train_time:180139ms step_avg:170.91ms
step:1065/1530 train_loss:3.3564 train_time:180318ms step_avg:170.92ms
step:1066/1530 train_loss:3.4066 train_time:180494ms step_avg:170.92ms
step:1067/1530 train_loss:3.2755 train_time:180671ms step_avg:170.93ms
step:1068/1530 train_loss:3.4252 train_time:180848ms step_avg:170.93ms
step:1069/1530 train_loss:3.2912 train_time:181029ms step_avg:170.94ms
step:1070/1530 train_loss:3.5629 train_time:181204ms step_avg:170.95ms
step:1071/1530 train_loss:3.5077 train_time:181384ms step_avg:170.96ms
step:1072/1530 train_loss:3.4323 train_time:181560ms step_avg:170.96ms
step:1073/1530 train_loss:3.5174 train_time:181734ms step_avg:170.96ms
step:1074/1530 train_loss:3.4172 train_time:181911ms step_avg:170.97ms
step:1075/1530 train_loss:3.3969 train_time:182090ms step_avg:170.98ms
step:1076/1530 train_loss:3.7898 train_time:182266ms step_avg:170.98ms
step:1077/1530 train_loss:3.4288 train_time:182441ms step_avg:170.98ms
step:1078/1530 train_loss:3.0845 train_time:182626ms step_avg:171.00ms
step:1079/1530 train_loss:3.5269 train_time:182802ms step_avg:171.00ms
step:1080/1530 train_loss:3.4211 train_time:182980ms step_avg:171.01ms
step:1081/1530 train_loss:3.4942 train_time:183155ms step_avg:171.01ms
step:1082/1530 train_loss:3.5873 train_time:183329ms step_avg:171.02ms
step:1083/1530 train_loss:3.4851 train_time:183504ms step_avg:171.02ms
step:1084/1530 train_loss:3.4576 train_time:183680ms step_avg:171.02ms
step:1085/1530 train_loss:3.4271 train_time:183857ms step_avg:171.03ms
step:1086/1530 train_loss:3.6221 train_time:184031ms step_avg:171.03ms
step:1087/1530 train_loss:3.4990 train_time:184207ms step_avg:171.04ms
step:1088/1530 train_loss:3.3611 train_time:184383ms step_avg:171.04ms
step:1089/1530 train_loss:3.3700 train_time:184563ms step_avg:171.05ms
step:1090/1530 train_loss:3.4736 train_time:184743ms step_avg:171.06ms
step:1091/1530 train_loss:3.2769 train_time:184919ms step_avg:171.06ms
step:1092/1530 train_loss:3.4788 train_time:185097ms step_avg:171.07ms
step:1093/1530 train_loss:3.5953 train_time:185273ms step_avg:171.07ms
step:1094/1530 train_loss:3.4386 train_time:185449ms step_avg:171.08ms
step:1095/1530 train_loss:3.4154 train_time:185624ms step_avg:171.08ms
step:1096/1530 train_loss:3.4205 train_time:185801ms step_avg:171.09ms
step:1097/1530 train_loss:3.4829 train_time:185979ms step_avg:171.09ms
step:1098/1530 train_loss:3.5499 train_time:186158ms step_avg:171.10ms
step:1099/1530 train_loss:3.5207 train_time:186334ms step_avg:171.11ms
step:1100/1530 train_loss:3.4224 train_time:186511ms step_avg:171.11ms
step:1101/1530 train_loss:3.2834 train_time:186687ms step_avg:171.12ms
step:1102/1530 train_loss:3.3022 train_time:186867ms step_avg:171.12ms
step:1103/1530 train_loss:3.4406 train_time:187050ms step_avg:171.13ms
step:1104/1530 train_loss:3.3177 train_time:187226ms step_avg:171.14ms
step:1105/1530 train_loss:4.0578 train_time:187403ms step_avg:171.14ms
step:1106/1530 train_loss:3.2182 train_time:187579ms step_avg:171.15ms
step:1107/1530 train_loss:3.5626 train_time:187755ms step_avg:171.15ms
step:1108/1530 train_loss:3.3408 train_time:187929ms step_avg:171.16ms
step:1109/1530 train_loss:3.4937 train_time:188102ms step_avg:171.16ms
step:1110/1530 train_loss:3.4205 train_time:188276ms step_avg:171.16ms
step:1111/1530 train_loss:3.4756 train_time:188451ms step_avg:171.16ms
step:1112/1530 train_loss:3.5546 train_time:188629ms step_avg:171.17ms
step:1113/1530 train_loss:3.4270 train_time:188810ms step_avg:171.18ms
step:1114/1530 train_loss:3.3630 train_time:188988ms step_avg:171.18ms
step:1115/1530 train_loss:3.2348 train_time:189167ms step_avg:171.19ms
step:1116/1530 train_loss:3.4174 train_time:189341ms step_avg:171.19ms
step:1117/1530 train_loss:3.5832 train_time:189520ms step_avg:171.20ms
step:1118/1530 train_loss:3.6170 train_time:189696ms step_avg:171.21ms
step:1119/1530 train_loss:3.4723 train_time:189871ms step_avg:171.21ms
step:1120/1530 train_loss:3.4859 train_time:190047ms step_avg:171.21ms
step:1121/1530 train_loss:3.3831 train_time:190225ms step_avg:171.22ms
step:1122/1530 train_loss:3.4523 train_time:190399ms step_avg:171.22ms
step:1123/1530 train_loss:3.5722 train_time:190576ms step_avg:171.23ms
step:1124/1530 train_loss:3.3319 train_time:190754ms step_avg:171.23ms
step:1125/1530 train_loss:3.2192 train_time:190930ms step_avg:171.24ms
step:1125/1530 val_loss:3.4031 train_time:190981ms step_avg:171.28ms
step:1126/1530 train_loss:3.4709 train_time:191105ms step_avg:171.24ms
step:1127/1530 train_loss:3.6671 train_time:191283ms step_avg:171.25ms
step:1128/1530 train_loss:3.2221 train_time:191463ms step_avg:171.26ms
step:1129/1530 train_loss:3.5461 train_time:191643ms step_avg:171.26ms
step:1130/1530 train_loss:3.3726 train_time:191821ms step_avg:171.27ms
step:1131/1530 train_loss:3.3960 train_time:192002ms step_avg:171.28ms
step:1132/1530 train_loss:3.3601 train_time:192175ms step_avg:171.28ms
step:1133/1530 train_loss:3.4870 train_time:192492ms step_avg:171.41ms
step:1134/1530 train_loss:3.4398 train_time:192678ms step_avg:171.42ms
step:1135/1530 train_loss:3.5148 train_time:192855ms step_avg:171.43ms
step:1136/1530 train_loss:3.5621 train_time:193032ms step_avg:171.43ms
step:1137/1530 train_loss:3.4533 train_time:193208ms step_avg:171.44ms
step:1138/1530 train_loss:3.3452 train_time:193387ms step_avg:171.44ms
step:1139/1530 train_loss:3.6518 train_time:193723ms step_avg:171.59ms
step:1140/1530 train_loss:3.4503 train_time:193899ms step_avg:171.59ms
step:1141/1530 train_loss:3.5889 train_time:194080ms step_avg:171.60ms
step:1142/1530 train_loss:3.4410 train_time:194258ms step_avg:171.61ms
step:1143/1530 train_loss:3.3591 train_time:194437ms step_avg:171.61ms
step:1144/1530 train_loss:3.4371 train_time:194614ms step_avg:171.62ms
step:1145/1530 train_loss:3.5825 train_time:194788ms step_avg:171.62ms
step:1146/1530 train_loss:3.5528 train_time:194970ms step_avg:171.63ms
step:1147/1530 train_loss:3.4780 train_time:195149ms step_avg:171.64ms
step:1148/1530 train_loss:3.4928 train_time:195326ms step_avg:171.64ms
step:1149/1530 train_loss:3.3153 train_time:195506ms step_avg:171.65ms
step:1150/1530 train_loss:3.3681 train_time:195681ms step_avg:171.65ms
step:1151/1530 train_loss:3.3131 train_time:195860ms step_avg:171.66ms
step:1152/1530 train_loss:3.3994 train_time:196043ms step_avg:171.67ms
step:1153/1530 train_loss:3.4323 train_time:196224ms step_avg:171.67ms
step:1154/1530 train_loss:3.5125 train_time:196400ms step_avg:171.68ms
step:1155/1530 train_loss:3.3159 train_time:196581ms step_avg:171.69ms
step:1156/1530 train_loss:3.5330 train_time:196764ms step_avg:171.70ms
step:1157/1530 train_loss:3.4847 train_time:196943ms step_avg:171.70ms
step:1158/1530 train_loss:3.2468 train_time:197119ms step_avg:171.71ms
step:1159/1530 train_loss:3.3446 train_time:197295ms step_avg:171.71ms
step:1160/1530 train_loss:3.3298 train_time:197469ms step_avg:171.71ms
step:1161/1530 train_loss:3.0889 train_time:197648ms step_avg:171.72ms
step:1162/1530 train_loss:3.4168 train_time:197825ms step_avg:171.72ms
step:1163/1530 train_loss:3.3848 train_time:198004ms step_avg:171.73ms
step:1164/1530 train_loss:3.2856 train_time:198181ms step_avg:171.73ms
step:1165/1530 train_loss:3.2441 train_time:198357ms step_avg:171.74ms
step:1166/1530 train_loss:3.3841 train_time:198536ms step_avg:171.74ms
step:1167/1530 train_loss:3.4034 train_time:198711ms step_avg:171.75ms
step:1168/1530 train_loss:3.7153 train_time:198886ms step_avg:171.75ms
step:1169/1530 train_loss:3.3728 train_time:199064ms step_avg:171.75ms
step:1170/1530 train_loss:3.3881 train_time:199242ms step_avg:171.76ms
step:1171/1530 train_loss:3.3090 train_time:199417ms step_avg:171.76ms
step:1172/1530 train_loss:3.4178 train_time:199591ms step_avg:171.76ms
step:1173/1530 train_loss:3.5359 train_time:199771ms step_avg:171.77ms
step:1174/1530 train_loss:3.3782 train_time:199955ms step_avg:171.78ms
step:1175/1530 train_loss:3.3592 train_time:200135ms step_avg:171.79ms
step:1176/1530 train_loss:3.4224 train_time:200316ms step_avg:171.80ms
step:1177/1530 train_loss:3.4480 train_time:200501ms step_avg:171.81ms
step:1178/1530 train_loss:3.4939 train_time:200676ms step_avg:171.81ms
step:1179/1530 train_loss:3.3932 train_time:200852ms step_avg:171.82ms
step:1180/1530 train_loss:3.3561 train_time:201039ms step_avg:171.83ms
step:1181/1530 train_loss:3.3331 train_time:201215ms step_avg:171.83ms
step:1182/1530 train_loss:3.3744 train_time:201392ms step_avg:171.84ms
step:1183/1530 train_loss:3.3324 train_time:201570ms step_avg:171.84ms
step:1184/1530 train_loss:3.5086 train_time:201748ms step_avg:171.85ms
step:1185/1530 train_loss:3.5347 train_time:201929ms step_avg:171.85ms
step:1186/1530 train_loss:3.3580 train_time:202108ms step_avg:171.86ms
step:1187/1530 train_loss:3.4154 train_time:202295ms step_avg:171.87ms
step:1188/1530 train_loss:3.4348 train_time:202470ms step_avg:171.88ms
step:1189/1530 train_loss:3.2721 train_time:202652ms step_avg:171.88ms
step:1190/1530 train_loss:3.4419 train_time:202829ms step_avg:171.89ms
step:1191/1530 train_loss:3.5800 train_time:203007ms step_avg:171.89ms
step:1192/1530 train_loss:3.3880 train_time:203183ms step_avg:171.90ms
step:1193/1530 train_loss:3.2720 train_time:203359ms step_avg:171.90ms
step:1194/1530 train_loss:3.5547 train_time:203537ms step_avg:171.91ms
step:1195/1530 train_loss:3.3666 train_time:203717ms step_avg:171.91ms
step:1196/1530 train_loss:3.3792 train_time:203902ms step_avg:171.92ms
step:1197/1530 train_loss:3.2877 train_time:204083ms step_avg:171.93ms
step:1198/1530 train_loss:3.2975 train_time:204268ms step_avg:171.94ms
step:1199/1530 train_loss:3.3369 train_time:204450ms step_avg:171.95ms
step:1200/1530 train_loss:3.4415 train_time:204628ms step_avg:171.96ms
step:1201/1530 train_loss:3.4786 train_time:204805ms step_avg:171.96ms
step:1202/1530 train_loss:3.6037 train_time:204992ms step_avg:171.97ms
step:1203/1530 train_loss:3.4022 train_time:205171ms step_avg:171.98ms
step:1204/1530 train_loss:3.3018 train_time:205353ms step_avg:171.99ms
step:1205/1530 train_loss:3.4363 train_time:205529ms step_avg:171.99ms
step:1206/1530 train_loss:3.4703 train_time:205705ms step_avg:171.99ms
step:1207/1530 train_loss:3.5071 train_time:205884ms step_avg:172.00ms
step:1208/1530 train_loss:3.3939 train_time:206060ms step_avg:172.00ms
step:1209/1530 train_loss:3.2457 train_time:206238ms step_avg:172.01ms
step:1210/1530 train_loss:3.3013 train_time:206416ms step_avg:172.01ms
step:1211/1530 train_loss:3.3936 train_time:206594ms step_avg:172.02ms
step:1212/1530 train_loss:3.3904 train_time:206770ms step_avg:172.02ms
step:1213/1530 train_loss:3.4071 train_time:206950ms step_avg:172.03ms
step:1214/1530 train_loss:3.2482 train_time:207130ms step_avg:172.03ms
step:1215/1530 train_loss:3.3905 train_time:207305ms step_avg:172.04ms
step:1216/1530 train_loss:3.3265 train_time:207483ms step_avg:172.04ms
step:1217/1530 train_loss:3.3152 train_time:207661ms step_avg:172.05ms
step:1218/1530 train_loss:3.4058 train_time:207839ms step_avg:172.05ms
step:1219/1530 train_loss:3.2522 train_time:208020ms step_avg:172.06ms
step:1220/1530 train_loss:3.4727 train_time:208196ms step_avg:172.06ms
step:1221/1530 train_loss:3.4985 train_time:208371ms step_avg:172.07ms
step:1222/1530 train_loss:3.4268 train_time:208545ms step_avg:172.07ms
step:1223/1530 train_loss:3.2932 train_time:208723ms step_avg:172.07ms
step:1224/1530 train_loss:3.2511 train_time:208904ms step_avg:172.08ms
step:1225/1530 train_loss:3.3606 train_time:209081ms step_avg:172.08ms
step:1226/1530 train_loss:3.3291 train_time:209263ms step_avg:172.09ms
step:1227/1530 train_loss:3.2730 train_time:209444ms step_avg:172.10ms
step:1228/1530 train_loss:3.4386 train_time:209619ms step_avg:172.10ms
step:1229/1530 train_loss:3.3591 train_time:209796ms step_avg:172.10ms
step:1230/1530 train_loss:3.3930 train_time:209978ms step_avg:172.11ms
step:1231/1530 train_loss:3.5774 train_time:210158ms step_avg:172.12ms
step:1232/1530 train_loss:3.4947 train_time:210338ms step_avg:172.13ms
step:1233/1530 train_loss:3.4285 train_time:210514ms step_avg:172.13ms
step:1234/1530 train_loss:3.5815 train_time:210692ms step_avg:172.13ms
step:1235/1530 train_loss:3.3208 train_time:210872ms step_avg:172.14ms
step:1236/1530 train_loss:3.2860 train_time:211049ms step_avg:172.14ms
step:1237/1530 train_loss:3.2674 train_time:211226ms step_avg:172.15ms
step:1238/1530 train_loss:3.2740 train_time:211410ms step_avg:172.16ms
step:1239/1530 train_loss:3.3296 train_time:211588ms step_avg:172.16ms
step:1240/1530 train_loss:3.3762 train_time:211764ms step_avg:172.17ms
step:1241/1530 train_loss:3.4230 train_time:211943ms step_avg:172.17ms
step:1242/1530 train_loss:3.2950 train_time:212121ms step_avg:172.18ms
step:1243/1530 train_loss:3.3964 train_time:212299ms step_avg:172.18ms
step:1244/1530 train_loss:3.4010 train_time:212471ms step_avg:172.18ms
step:1245/1530 train_loss:3.4036 train_time:212650ms step_avg:172.19ms
step:1246/1530 train_loss:3.2353 train_time:212829ms step_avg:172.19ms
step:1247/1530 train_loss:3.3702 train_time:213005ms step_avg:172.19ms
step:1248/1530 train_loss:3.4247 train_time:213181ms step_avg:172.20ms
step:1249/1530 train_loss:3.4192 train_time:213359ms step_avg:172.20ms
step:1250/1530 train_loss:3.3045 train_time:213536ms step_avg:172.21ms
step:1250/1530 val_loss:3.3509 train_time:213591ms step_avg:172.25ms
step:1251/1530 train_loss:3.4838 train_time:213721ms step_avg:172.22ms
step:1252/1530 train_loss:3.3558 train_time:213896ms step_avg:172.22ms
step:1253/1530 train_loss:3.3025 train_time:214073ms step_avg:172.22ms
step:1254/1530 train_loss:3.4117 train_time:214254ms step_avg:172.23ms
step:1255/1530 train_loss:3.5111 train_time:214445ms step_avg:172.25ms
step:1256/1530 train_loss:3.3001 train_time:214625ms step_avg:172.25ms
step:1257/1530 train_loss:3.3706 train_time:214803ms step_avg:172.26ms
step:1258/1530 train_loss:3.3631 train_time:214986ms step_avg:172.26ms
step:1259/1530 train_loss:3.3296 train_time:215164ms step_avg:172.27ms
step:1260/1530 train_loss:3.2060 train_time:215342ms step_avg:172.27ms
step:1261/1530 train_loss:3.2985 train_time:215522ms step_avg:172.28ms
step:1262/1530 train_loss:3.3255 train_time:215705ms step_avg:172.29ms
step:1263/1530 train_loss:3.2344 train_time:215887ms step_avg:172.30ms
step:1264/1530 train_loss:3.4393 train_time:216063ms step_avg:172.30ms
step:1265/1530 train_loss:3.4227 train_time:216238ms step_avg:172.30ms
step:1266/1530 train_loss:3.4355 train_time:216417ms step_avg:172.31ms
step:1267/1530 train_loss:3.3651 train_time:216597ms step_avg:172.31ms
step:1268/1530 train_loss:3.4053 train_time:216778ms step_avg:172.32ms
step:1269/1530 train_loss:3.2503 train_time:216963ms step_avg:172.33ms
step:1270/1530 train_loss:3.1027 train_time:217140ms step_avg:172.33ms
step:1271/1530 train_loss:3.3957 train_time:217319ms step_avg:172.34ms
step:1272/1530 train_loss:3.3461 train_time:217495ms step_avg:172.34ms
step:1273/1530 train_loss:3.3715 train_time:217676ms step_avg:172.35ms
step:1274/1530 train_loss:3.3541 train_time:217856ms step_avg:172.35ms
step:1275/1530 train_loss:3.4281 train_time:218033ms step_avg:172.36ms
step:1276/1530 train_loss:3.4643 train_time:218208ms step_avg:172.36ms
step:1277/1530 train_loss:3.4059 train_time:218388ms step_avg:172.37ms
step:1278/1530 train_loss:3.4049 train_time:218564ms step_avg:172.37ms
step:1279/1530 train_loss:3.2613 train_time:218746ms step_avg:172.38ms
step:1280/1530 train_loss:3.3578 train_time:218930ms step_avg:172.39ms
step:1281/1530 train_loss:3.4191 train_time:219107ms step_avg:172.39ms
step:1282/1530 train_loss:3.4672 train_time:219282ms step_avg:172.39ms
step:1283/1530 train_loss:3.3302 train_time:219463ms step_avg:172.40ms
step:1284/1530 train_loss:3.3649 train_time:219641ms step_avg:172.40ms
step:1285/1530 train_loss:3.3576 train_time:219820ms step_avg:172.41ms
step:1286/1530 train_loss:3.3319 train_time:219997ms step_avg:172.41ms
step:1287/1530 train_loss:3.4869 train_time:220177ms step_avg:172.42ms
step:1288/1530 train_loss:3.2969 train_time:220358ms step_avg:172.42ms
step:1289/1530 train_loss:3.3808 train_time:220542ms step_avg:172.43ms
step:1290/1530 train_loss:3.4599 train_time:220727ms step_avg:172.44ms
step:1291/1530 train_loss:3.3806 train_time:220906ms step_avg:172.45ms
step:1292/1530 train_loss:3.4722 train_time:221089ms step_avg:172.46ms
step:1293/1530 train_loss:3.5147 train_time:221271ms step_avg:172.46ms
step:1294/1530 train_loss:3.4553 train_time:221451ms step_avg:172.47ms
step:1295/1530 train_loss:3.2790 train_time:221630ms step_avg:172.47ms
step:1296/1530 train_loss:3.3690 train_time:221810ms step_avg:172.48ms
step:1297/1530 train_loss:3.2697 train_time:221991ms step_avg:172.49ms
step:1298/1530 train_loss:3.2665 train_time:222170ms step_avg:172.49ms
step:1299/1530 train_loss:3.3955 train_time:222350ms step_avg:172.50ms
step:1300/1530 train_loss:3.3977 train_time:222525ms step_avg:172.50ms
step:1301/1530 train_loss:3.3989 train_time:222701ms step_avg:172.50ms
step:1302/1530 train_loss:3.5729 train_time:222884ms step_avg:172.51ms
step:1303/1530 train_loss:3.3012 train_time:223066ms step_avg:172.52ms
step:1304/1530 train_loss:3.5122 train_time:223251ms step_avg:172.53ms
step:1305/1530 train_loss:3.2520 train_time:223425ms step_avg:172.53ms
step:1306/1530 train_loss:3.4471 train_time:223607ms step_avg:172.54ms
step:1307/1530 train_loss:3.4522 train_time:223781ms step_avg:172.54ms
step:1308/1530 train_loss:3.2829 train_time:223962ms step_avg:172.54ms
step:1309/1530 train_loss:3.3053 train_time:224143ms step_avg:172.55ms
step:1310/1530 train_loss:3.2904 train_time:224321ms step_avg:172.55ms
step:1311/1530 train_loss:3.2940 train_time:224498ms step_avg:172.56ms
step:1312/1530 train_loss:3.3683 train_time:224679ms step_avg:172.56ms
step:1313/1530 train_loss:3.3413 train_time:224855ms step_avg:172.57ms
step:1314/1530 train_loss:3.0453 train_time:225038ms step_avg:172.57ms
step:1315/1530 train_loss:3.2707 train_time:225216ms step_avg:172.58ms
step:1316/1530 train_loss:3.3955 train_time:225393ms step_avg:172.58ms
step:1317/1530 train_loss:3.4191 train_time:225570ms step_avg:172.59ms
step:1318/1530 train_loss:3.2985 train_time:225757ms step_avg:172.60ms
step:1319/1530 train_loss:3.4258 train_time:225936ms step_avg:172.60ms
step:1320/1530 train_loss:3.4567 train_time:226117ms step_avg:172.61ms
step:1321/1530 train_loss:3.3603 train_time:226296ms step_avg:172.61ms
step:1322/1530 train_loss:3.3180 train_time:226613ms step_avg:172.72ms
step:1323/1530 train_loss:3.3172 train_time:226802ms step_avg:172.74ms
step:1324/1530 train_loss:3.4313 train_time:226984ms step_avg:172.74ms
step:1325/1530 train_loss:3.4895 train_time:227169ms step_avg:172.75ms
step:1326/1530 train_loss:3.2102 train_time:227349ms step_avg:172.76ms
step:1327/1530 train_loss:3.1616 train_time:227524ms step_avg:172.76ms
step:1328/1530 train_loss:3.4866 train_time:227701ms step_avg:172.76ms
step:1329/1530 train_loss:3.2973 train_time:228046ms step_avg:172.89ms
step:1330/1530 train_loss:3.4245 train_time:228228ms step_avg:172.90ms
step:1331/1530 train_loss:3.3271 train_time:228404ms step_avg:172.90ms
step:1332/1530 train_loss:3.7374 train_time:228586ms step_avg:172.91ms
step:1333/1530 train_loss:3.4780 train_time:228768ms step_avg:172.92ms
step:1334/1530 train_loss:3.3661 train_time:228946ms step_avg:172.92ms
step:1335/1530 train_loss:3.2866 train_time:229125ms step_avg:172.92ms
step:1336/1530 train_loss:3.2953 train_time:229309ms step_avg:172.93ms
step:1337/1530 train_loss:3.5516 train_time:229490ms step_avg:172.94ms
step:1338/1530 train_loss:3.5167 train_time:229667ms step_avg:172.94ms
step:1339/1530 train_loss:3.3304 train_time:229846ms step_avg:172.95ms
step:1340/1530 train_loss:3.2831 train_time:230025ms step_avg:172.95ms
step:1341/1530 train_loss:3.5936 train_time:230201ms step_avg:172.95ms
step:1342/1530 train_loss:3.3543 train_time:230381ms step_avg:172.96ms
step:1343/1530 train_loss:3.3629 train_time:230559ms step_avg:172.96ms
step:1344/1530 train_loss:3.4124 train_time:230740ms step_avg:172.97ms
step:1345/1530 train_loss:3.3776 train_time:230921ms step_avg:172.97ms
step:1346/1530 train_loss:3.2944 train_time:231098ms step_avg:172.98ms
step:1347/1530 train_loss:3.2773 train_time:231276ms step_avg:172.98ms
step:1348/1530 train_loss:3.3453 train_time:231455ms step_avg:172.99ms
step:1349/1530 train_loss:3.2686 train_time:231631ms step_avg:172.99ms
step:1350/1530 train_loss:3.3886 train_time:231812ms step_avg:172.99ms
step:1351/1530 train_loss:3.2384 train_time:231989ms step_avg:173.00ms
step:1352/1530 train_loss:3.3047 train_time:232166ms step_avg:173.00ms
step:1353/1530 train_loss:3.3974 train_time:232346ms step_avg:173.01ms
step:1354/1530 train_loss:3.2548 train_time:232522ms step_avg:173.01ms
step:1355/1530 train_loss:3.1847 train_time:232699ms step_avg:173.01ms
step:1356/1530 train_loss:3.5053 train_time:232880ms step_avg:173.02ms
step:1357/1530 train_loss:3.4206 train_time:233061ms step_avg:173.02ms
step:1358/1530 train_loss:3.1852 train_time:233239ms step_avg:173.03ms
step:1359/1530 train_loss:3.4384 train_time:233418ms step_avg:173.03ms
step:1360/1530 train_loss:3.3504 train_time:233598ms step_avg:173.04ms
step:1361/1530 train_loss:3.1246 train_time:233786ms step_avg:173.05ms
step:1362/1530 train_loss:3.3888 train_time:233967ms step_avg:173.05ms
step:1363/1530 train_loss:3.2809 train_time:234155ms step_avg:173.06ms
step:1364/1530 train_loss:3.2997 train_time:234334ms step_avg:173.07ms
step:1365/1530 train_loss:3.3153 train_time:234509ms step_avg:173.07ms
step:1366/1530 train_loss:3.4196 train_time:234689ms step_avg:173.07ms
step:1367/1530 train_loss:3.3923 train_time:234867ms step_avg:173.08ms
step:1368/1530 train_loss:3.3485 train_time:235047ms step_avg:173.08ms
step:1369/1530 train_loss:3.2737 train_time:235236ms step_avg:173.10ms
step:1370/1530 train_loss:3.6056 train_time:235417ms step_avg:173.10ms
step:1371/1530 train_loss:3.3165 train_time:235598ms step_avg:173.11ms
step:1372/1530 train_loss:3.3694 train_time:235782ms step_avg:173.11ms
step:1373/1530 train_loss:3.3668 train_time:235961ms step_avg:173.12ms
step:1374/1530 train_loss:3.1494 train_time:236144ms step_avg:173.13ms
step:1375/1530 train_loss:3.5275 train_time:236324ms step_avg:173.13ms
step:1375/1530 val_loss:3.3090 train_time:236375ms step_avg:173.17ms
step:1376/1530 train_loss:3.3456 train_time:236504ms step_avg:173.14ms
step:1377/1530 train_loss:3.4771 train_time:236681ms step_avg:173.14ms
step:1378/1530 train_loss:3.4736 train_time:236860ms step_avg:173.14ms
step:1379/1530 train_loss:3.1225 train_time:237041ms step_avg:173.15ms
step:1380/1530 train_loss:3.3101 train_time:237220ms step_avg:173.15ms
step:1381/1530 train_loss:3.7243 train_time:237405ms step_avg:173.16ms
step:1382/1530 train_loss:3.2100 train_time:237586ms step_avg:173.17ms
step:1383/1530 train_loss:3.3910 train_time:237766ms step_avg:173.17ms
step:1384/1530 train_loss:3.4739 train_time:237949ms step_avg:173.18ms
step:1385/1530 train_loss:3.4055 train_time:238123ms step_avg:173.18ms
step:1386/1530 train_loss:3.3361 train_time:238301ms step_avg:173.18ms
step:1387/1530 train_loss:3.1979 train_time:238482ms step_avg:173.19ms
step:1388/1530 train_loss:3.3445 train_time:238660ms step_avg:173.19ms
step:1389/1530 train_loss:3.3153 train_time:238844ms step_avg:173.20ms
step:1390/1530 train_loss:3.5688 train_time:239020ms step_avg:173.20ms
step:1391/1530 train_loss:3.2871 train_time:239197ms step_avg:173.21ms
step:1392/1530 train_loss:3.2845 train_time:239377ms step_avg:173.21ms
step:1393/1530 train_loss:3.2350 train_time:239557ms step_avg:173.22ms
step:1394/1530 train_loss:3.4943 train_time:239735ms step_avg:173.22ms
step:1395/1530 train_loss:3.3896 train_time:239915ms step_avg:173.22ms
step:1396/1530 train_loss:3.4053 train_time:240092ms step_avg:173.23ms
step:1397/1530 train_loss:3.3077 train_time:240267ms step_avg:173.23ms
step:1398/1530 train_loss:3.2529 train_time:240443ms step_avg:173.23ms
step:1399/1530 train_loss:3.3154 train_time:240620ms step_avg:173.23ms
step:1400/1530 train_loss:3.3196 train_time:240801ms step_avg:173.24ms
step:1401/1530 train_loss:3.3471 train_time:240978ms step_avg:173.24ms
step:1402/1530 train_loss:3.2960 train_time:241156ms step_avg:173.24ms
step:1403/1530 train_loss:3.4952 train_time:241341ms step_avg:173.25ms
step:1404/1530 train_loss:3.2789 train_time:241518ms step_avg:173.26ms
step:1405/1530 train_loss:3.3141 train_time:241699ms step_avg:173.26ms
step:1406/1530 train_loss:3.3124 train_time:241880ms step_avg:173.27ms
step:1407/1530 train_loss:3.1748 train_time:242055ms step_avg:173.27ms
step:1408/1530 train_loss:3.3100 train_time:242235ms step_avg:173.27ms
step:1409/1530 train_loss:3.2980 train_time:242421ms step_avg:173.28ms
step:1410/1530 train_loss:3.2842 train_time:242598ms step_avg:173.28ms
step:1411/1530 train_loss:3.3623 train_time:242774ms step_avg:173.29ms
step:1412/1530 train_loss:3.3305 train_time:242952ms step_avg:173.29ms
step:1413/1530 train_loss:3.3592 train_time:243132ms step_avg:173.29ms
step:1414/1530 train_loss:3.3233 train_time:243312ms step_avg:173.30ms
step:1415/1530 train_loss:3.4085 train_time:243497ms step_avg:173.31ms
step:1416/1530 train_loss:3.2272 train_time:243685ms step_avg:173.32ms
step:1417/1530 train_loss:3.2811 train_time:243867ms step_avg:173.32ms
step:1418/1530 train_loss:3.3894 train_time:244047ms step_avg:173.33ms
step:1419/1530 train_loss:3.3456 train_time:244232ms step_avg:173.34ms
step:1420/1530 train_loss:3.3681 train_time:244412ms step_avg:173.34ms
step:1421/1530 train_loss:3.3667 train_time:244591ms step_avg:173.35ms
step:1422/1530 train_loss:3.3328 train_time:244770ms step_avg:173.35ms
step:1423/1530 train_loss:3.3118 train_time:244950ms step_avg:173.35ms
step:1424/1530 train_loss:3.3288 train_time:245133ms step_avg:173.36ms
step:1425/1530 train_loss:3.1929 train_time:245319ms step_avg:173.37ms
step:1426/1530 train_loss:3.3223 train_time:245497ms step_avg:173.37ms
step:1427/1530 train_loss:3.2798 train_time:245680ms step_avg:173.38ms
step:1428/1530 train_loss:3.3743 train_time:245857ms step_avg:173.38ms
step:1429/1530 train_loss:3.3508 train_time:246036ms step_avg:173.39ms
step:1430/1530 train_loss:3.2615 train_time:246217ms step_avg:173.39ms
step:1431/1530 train_loss:3.3195 train_time:246398ms step_avg:173.40ms
step:1432/1530 train_loss:3.3336 train_time:246579ms step_avg:173.40ms
step:1433/1530 train_loss:3.1355 train_time:246763ms step_avg:173.41ms
step:1434/1530 train_loss:3.2844 train_time:246952ms step_avg:173.42ms
step:1435/1530 train_loss:3.1157 train_time:247132ms step_avg:173.43ms
step:1436/1530 train_loss:3.2298 train_time:247312ms step_avg:173.43ms
step:1437/1530 train_loss:3.4038 train_time:247489ms step_avg:173.43ms
step:1438/1530 train_loss:3.3805 train_time:247665ms step_avg:173.43ms
step:1439/1530 train_loss:3.3144 train_time:247847ms step_avg:173.44ms
step:1440/1530 train_loss:3.1907 train_time:248021ms step_avg:173.44ms
step:1441/1530 train_loss:3.3343 train_time:248200ms step_avg:173.44ms
step:1442/1530 train_loss:3.3882 train_time:248382ms step_avg:173.45ms
step:1443/1530 train_loss:3.4894 train_time:248572ms step_avg:173.46ms
step:1444/1530 train_loss:3.4418 train_time:248749ms step_avg:173.47ms
step:1445/1530 train_loss:3.3333 train_time:248926ms step_avg:173.47ms
step:1446/1530 train_loss:3.1942 train_time:249107ms step_avg:173.47ms
step:1447/1530 train_loss:3.2926 train_time:249288ms step_avg:173.48ms
step:1448/1530 train_loss:3.2903 train_time:249467ms step_avg:173.48ms
step:1449/1530 train_loss:3.3926 train_time:249647ms step_avg:173.49ms
step:1450/1530 train_loss:3.3879 train_time:249827ms step_avg:173.49ms
step:1451/1530 train_loss:3.2021 train_time:250003ms step_avg:173.49ms
step:1452/1530 train_loss:3.3209 train_time:250184ms step_avg:173.50ms
step:1453/1530 train_loss:3.2605 train_time:250359ms step_avg:173.50ms
step:1454/1530 train_loss:3.2883 train_time:250537ms step_avg:173.50ms
step:1455/1530 train_loss:3.3247 train_time:250719ms step_avg:173.51ms
step:1456/1530 train_loss:3.2837 train_time:250895ms step_avg:173.51ms
step:1457/1530 train_loss:3.1542 train_time:251073ms step_avg:173.51ms
step:1458/1530 train_loss:3.4196 train_time:251251ms step_avg:173.52ms
step:1459/1530 train_loss:3.2673 train_time:251433ms step_avg:173.52ms
step:1460/1530 train_loss:3.3120 train_time:251613ms step_avg:173.53ms
step:1461/1530 train_loss:3.4266 train_time:251792ms step_avg:173.53ms
step:1462/1530 train_loss:3.2623 train_time:251968ms step_avg:173.53ms
step:1463/1530 train_loss:3.4666 train_time:252153ms step_avg:173.54ms
step:1464/1530 train_loss:3.3594 train_time:252331ms step_avg:173.54ms
step:1465/1530 train_loss:3.3582 train_time:252510ms step_avg:173.55ms
step:1466/1530 train_loss:3.2839 train_time:252688ms step_avg:173.55ms
step:1467/1530 train_loss:3.3964 train_time:252868ms step_avg:173.55ms
step:1468/1530 train_loss:3.2847 train_time:253045ms step_avg:173.56ms
step:1469/1530 train_loss:3.2710 train_time:253223ms step_avg:173.56ms
step:1470/1530 train_loss:3.3286 train_time:253407ms step_avg:173.57ms
step:1471/1530 train_loss:3.2582 train_time:253592ms step_avg:173.57ms
step:1472/1530 train_loss:3.2424 train_time:253775ms step_avg:173.58ms
step:1473/1530 train_loss:3.4406 train_time:253953ms step_avg:173.58ms
step:1474/1530 train_loss:3.3109 train_time:254136ms step_avg:173.59ms
step:1475/1530 train_loss:3.1514 train_time:254322ms step_avg:173.60ms
step:1476/1530 train_loss:3.2633 train_time:254501ms step_avg:173.60ms
step:1477/1530 train_loss:3.2349 train_time:254689ms step_avg:173.61ms
step:1478/1530 train_loss:3.3040 train_time:254874ms step_avg:173.62ms
step:1479/1530 train_loss:3.3911 train_time:255056ms step_avg:173.63ms
step:1480/1530 train_loss:3.2669 train_time:255235ms step_avg:173.63ms
step:1481/1530 train_loss:3.4484 train_time:255417ms step_avg:173.63ms
step:1482/1530 train_loss:3.3629 train_time:255605ms step_avg:173.64ms
step:1483/1530 train_loss:3.2785 train_time:255795ms step_avg:173.66ms
step:1484/1530 train_loss:3.2653 train_time:255982ms step_avg:173.66ms
step:1485/1530 train_loss:3.2819 train_time:256161ms step_avg:173.67ms
step:1486/1530 train_loss:3.2244 train_time:256346ms step_avg:173.68ms
step:1487/1530 train_loss:3.3403 train_time:256529ms step_avg:173.68ms
step:1488/1530 train_loss:3.2427 train_time:256713ms step_avg:173.69ms
step:1489/1530 train_loss:3.3106 train_time:256893ms step_avg:173.69ms
step:1490/1530 train_loss:3.2490 train_time:257073ms step_avg:173.70ms
step:1491/1530 train_loss:3.1585 train_time:257253ms step_avg:173.70ms
step:1492/1530 train_loss:3.2676 train_time:257433ms step_avg:173.71ms
step:1493/1530 train_loss:3.4298 train_time:257611ms step_avg:173.71ms
step:1494/1530 train_loss:3.2941 train_time:257788ms step_avg:173.71ms
step:1495/1530 train_loss:3.0292 train_time:257973ms step_avg:173.72ms
step:1496/1530 train_loss:3.3582 train_time:258157ms step_avg:173.73ms
step:1497/1530 train_loss:3.3119 train_time:258342ms step_avg:173.73ms
step:1498/1530 train_loss:3.3434 train_time:258526ms step_avg:173.74ms
step:1499/1530 train_loss:3.3138 train_time:258714ms step_avg:173.75ms
step:1500/1530 train_loss:3.2976 train_time:258904ms step_avg:173.76ms
step:1500/1530 val_loss:3.2774 train_time:258957ms step_avg:173.80ms
step:1501/1530 train_loss:3.0859 train_time:259093ms step_avg:173.77ms
step:1502/1530 train_loss:3.3596 train_time:259287ms step_avg:173.79ms
step:1503/1530 train_loss:3.2405 train_time:259467ms step_avg:173.79ms
step:1504/1530 train_loss:3.2480 train_time:259648ms step_avg:173.79ms
step:1505/1530 train_loss:3.2098 train_time:259828ms step_avg:173.80ms
step:1506/1530 train_loss:3.2773 train_time:260010ms step_avg:173.80ms
step:1507/1530 train_loss:3.1808 train_time:260206ms step_avg:173.82ms
step:1508/1530 train_loss:3.4853 train_time:260388ms step_avg:173.82ms
step:1509/1530 train_loss:3.2763 train_time:260564ms step_avg:173.83ms
step:1510/1530 train_loss:3.2662 train_time:260743ms step_avg:173.83ms
step:1511/1530 train_loss:3.4131 train_time:261064ms step_avg:173.93ms
step:1512/1530 train_loss:3.4188 train_time:261252ms step_avg:173.94ms
step:1513/1530 train_loss:3.2674 train_time:261437ms step_avg:173.94ms
step:1514/1530 train_loss:3.0830 train_time:261619ms step_avg:173.95ms
step:1515/1530 train_loss:3.2444 train_time:261801ms step_avg:173.95ms
step:1516/1530 train_loss:3.2504 train_time:261988ms step_avg:173.96ms
step:1517/1530 train_loss:3.2969 train_time:262169ms step_avg:173.97ms
step:1518/1530 train_loss:3.2057 train_time:262353ms step_avg:173.97ms
step:1519/1530 train_loss:3.5067 train_time:262687ms step_avg:174.08ms
step:1520/1530 train_loss:3.1267 train_time:262868ms step_avg:174.08ms
step:1521/1530 train_loss:3.2000 train_time:263047ms step_avg:174.09ms
step:1522/1530 train_loss:3.3528 train_time:263231ms step_avg:174.09ms
step:1523/1530 train_loss:3.2264 train_time:263408ms step_avg:174.10ms
step:1524/1530 train_loss:3.3474 train_time:263587ms step_avg:174.10ms
step:1525/1530 train_loss:3.3335 train_time:263774ms step_avg:174.11ms
step:1526/1530 train_loss:3.2757 train_time:263964ms step_avg:174.12ms
step:1527/1530 train_loss:3.2885 train_time:264145ms step_avg:174.12ms
step:1528/1530 train_loss:3.4051 train_time:264326ms step_avg:174.13ms
step:1529/1530 train_loss:3.4080 train_time:264505ms step_avg:174.13ms
step:1530/1530 train_loss:3.2361 train_time:264682ms step_avg:174.13ms
step:1530/1530 val_loss:3.2750 train_time:264737ms step_avg:174.17ms