AgentsMédioAuto-Sync

Embedding Generator

porTHIAGONOMA·THIAGONOMA· v1.7.0 · atualizado em 2026-04-12T22:48:20.397Z

Score

Gera embeddings vetoriais com estratégias otimizadas de chunking, indexa em vector stores e configura pipelines de busca semântica para RAG. Suporta OpenAI, Cohere, E5 e modelos open-source.

embeddingsragvector-searchsemantic-searchchunkingpineconeqdrant

Linguagens

PythonTypeScript

2.6KStars

298Forks

42.1KUsos

Fork

Documento do Skill

SKILL.mdembedding-generator/workflow

Passo-a-passo detalhado do skill, referenciando as fases cognitivas:

SENSE — Análise de documentos e requisitos

Coletar documentos fonte via mcp-filesystem

Selecionar modelo e vector store baseado no budget e latência

Estimar custo: `total_chars / 4 × custo_por_1M_tokens`

CONTEXTUALIZE — Definir estratégia de chunking

Escolher baseado no tipo de documento:

Textos narrativos → Semantic chunking (10-20% recall improvement)

Documentação estruturada → Recursive chunking (`\n\n → \n → . → espaço`)

Código-fonte → Chunking por função/classe (usar tree-sitter)

HYPOTHESIZE — Configurar parâmetros

```python

CHUNK_SIZE = 512 # tokens (ajustar por tipo de conteúdo)

CHUNK_OVERLAP = 64 # 12.5% overlap para preservar contexto

EMBEDDING_MODEL = "text-embedding-3-large" # ou "embed-multilingual-v3.0"

BATCH_SIZE = 100 # vetores por request à API

```

ACT — Executar pipeline

```python

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=64)

chunks = splitter.split_documents(docs)

# Batch embedding

embeddings = openai.embeddings.create(

model="text-embedding-3-large",

input=[c.page_content for c in chunks],

)

# Upsert no vector store

qdrant.upsert(collection_name="docs", points=[

PointStruct(id=i, vector=e.embedding, payload={"text": c.page_content})

for i, (c, e) in enumerate(zip(chunks, embeddings.data))

])

```

EVALUATE — Validação de qualidade

Executar queries de teste e verificar recall@5

Ajustar similarity threshold (Cosine: 0.7-0.85 é típico)

Testar hybrid search: dense + BM25 (72% dos sistemas prod usam ambos)

REFLECT — Monitoramento e telemetria

Documentar custo total e latência p50/p95 de queries

Configurar monitoramento: queries sem resultado indicam gaps no índice

Reportar telemetria via mcp-skillschain

Telemetria de Agentes

Execuções

total

Taxa de Sucesso

últimos 30d

Latência Média

0.0s

p50

Alucinação

0.0%

detecção

Tokens Entrada

avg 0/exec

Tokens Saída

avg 0/exec

Uso por Plataforma

Skills Relacionados

Depende de ←Sentiment Analyzer

24%

Compõe comToken Counter

21%

Compõe com ←ML Model Trainer

21%

Similar a ←Prompt Optimizer

15%

Similar a ←Speech Generation Skill

60%

Similar a ←Audio Transcribe

60%

Similar a ←AI SEO

60%

Co-executedToken Counter

48%

Co-executedPandas Data Analyzer

40%

Co-executedML Model Trainer

40%

Co-executedETL Pipeline Builder

40%

Co-executedSentiment Analyzer

41%

Co-executed ←Data Visualization

40%

Árvore do Skill

Embedding Generator

embedding-generator

Fases Cognitivas5

1.SENSE: Percepção

2.CONTEXTUALIZE: Contextualização

3.HYPOTHESIZE: Hipótese

4.RECOMMEND: Recomendação

5.REFLECT: Reflexão

Triggers15

generate embeddingsgerar embeddingscreate vector embeddingsembed textvetorizar textoRAG pipelinesemantic search setupbusca semânticavector databasepinecone setupchroma setupqdrant indexingweaviate configchunk strategyembedding pipeline

Avaliar este Skill

Score Breakdown

⭐Avaliação Humana0%

🤖Sucesso de Agentes0%

🕐Atualidade100%

🔗Saúde de Dependências100%

🕸️Centralidade no Grafo0%

🛡️Segurança50%

CompositeScore = α·Humano + β·Agente + γ·Recência + δ·Deps + ε·Centralidade + ζ·Segurança

Instalação

$ synaptic mcp download embedding-generator

$ synaptic skills detail embedding-generator

$ synaptic skills live embedding-generator

Links

GitHub Repository