Unix - Identificar coincidencias/diferencias en tablas de datos

Identificar coincidencias/diferencias en tablas de datos

Publicado por Luis (2 intervenciones) el 30/05/2013 09:15:35

Hola a todos,

Me estoy iniciando en el mundo unix, especialmente para resolver las necesidades que me han surgido a la hora de trabajar con textos y tablas.

Necesito hacer comparaciones de tablas por pares, pero en el output deberían figurar los elementos comunes, los elementos de A que no están en B y los elementos de B que no están en A.

Hasta ahora, lo que tenía hecho era unir las dos tablas y eliminar los duplicados, pero en la tabla final, no tengo información sobre la procedencia de cada uno de los elementos.

He visto que con diff se puede hacer algo parecido, pero es absolutamente necesario que las líneas comunes sean idénticas o se puede definir una columna para realizar la comparación?

Os dejo un ejemplo de las tablas que quiero comparar:

TABLA A:

Metodo Chr:Start-End Gene_refgene
METODO1 chr1:111111111-22222222 HPDL,MUTYH
METODO1 chr1:45794863-45794863 HPDL,MUTYH
METODO1 chr1:45794873-45794873 HPDL,MUTYH
METODO1 chr1:45794876-45794877 HPDL,MUTYH

TABLA B:

Metodo Chr:Start-End Gene_refgene
METODO2 chr1:33333333-44444444 HPDL,MUTYH
METODO2 chr1:45794863-45794863 HPDL,MUTYH
METODO2 chr1:45794873-45794873 HPDL,MUTYH
METODO2 chr1:45794876-45794877 HPDL,MUTYH

Sería perfecto que pudiese comparar las tablas atendiendo sólo al campo "Chr:Start-End", ya que así retendría información sobre la procedencia de cada línea. Ya sería la leche que el output incluyese una nueva columna resumen:

Metodo Chr:Start-End Gene_refgene Recuento
METODO1 chr1:111111111-22222222 HPDL,MUTYH 1
METODO2 chr1:33333333-44444444 HPDL,MUTYH 1
METODO1 chr1:45794863-45794863 HPDL,MUTYH 2
METODO1 chr1:45794873-45794873 HPDL,MUTYH 2
METODO1 chr1:45794876-45794877 HPDL,MUTYH 2

Muchas gracias por vuestra ayuda

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

Pos: 2

Val: 35

Identificar coincidencias/diferencias en tablas de datos

Publicado por xve (70 intervenciones) el 30/05/2013 15:03:18

Hola Luis, esto es de base de datos, no? lo has puesto en el foro de Unix...

Que tipo de base de datos estas utilizando?

Valora esta respuesta

Me gusta: Está respuesta es útil y esta clara

No me gusta: Está respuesta no esta clara o no es útil

Comentar

Identificar coincidencias/diferencias en tablas de datos

Publicado por Luis (2 intervenciones) el 11/06/2013 11:11:39

hola xve,

perdona por no haber contestado antes. pensé que me llegaría notificación al correo, pero no debí activar esa opción

contestando a tu pregunta, lo que pretendo, es resolverlo desde unix.

tengo que manejar tablas de datos inmensas en formato de texto plano y ahí unix se desenvuelve a las mil maravillas. la mayor parte del procesado de esas tablas ya lo tengo montado en unix, pero me falta la guinda del pastel. me resultaría de gran ayuda para mi trabajo.

no se si se ha entendido mi cuestión, pero básicamente quiero fusionar dos tablas (con algunos campos comunes y otros diferentes, aunque me podría quedar sólo con lo común), y que me identifique de alguna forma la procedencia de los elementos (filas) en la tabla final: elementos que proceden de la tabla A, elementos que proceden de la tabla B y elementos que se han encontrado en las dos tablas.

gracias!

Valora esta respuesta

Comentar

guardar variable en un fichero

Trabajo unix con archivos planos txt